Ошибка подключения к mongodb с помощью mongo-spark-connector

Я новичок в spark/mongodb и пытаюсь использовать mongo-spark-connector для подключения к mongo из pyspark, следуя инструкциям здесь. Я запускаю pyspark командой

`pyspark \
--conf 'spark.mongodb.input.uri=mongodb://127.0.0.1/mydb.mytable?readPreference=primaryPreferred' \ 
--conf 'spark.mongodb.output.uri=mongodb://127.0.0.1/mydb.mytable' \ 
--packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.1`

Что дает следующее при запуске:

`SLF4J: Class path contains multiple SLF4J bindings.
 SLF4J: Found binding in [jar:file:/usr/local/spark-2.4.4-bin-hadoop2.7/jars/slf4j log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/hadoop-3.2.1/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Ivy Default Cache set to: /home/mmr/.ivy2/cache
The jars for the packages stored in: /home/user_name/.ivy2/jars
:: loading settings :: url = jar:file:/usr/local/spark-2.4.4-bin-hadoop2.7/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
org.mongodb.spark#mongo-spark-connector_2.11 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-18ec2360-9f44-414c-a1de-11f629819aec;1.0
    confs: [default]
    found org.mongodb.spark#mongo-spark-connector_2.11;2.4.1 in central
    found org.mongodb#mongo-java-driver;3.10.2 in central
    [3.10.2] org.mongodb#mongo-java-driver;[3.10,3.11)
:: resolution report :: resolve 1360ms :: artifacts dl 3ms
    :: modules in use:
    org.mongodb#mongo-java-driver;3.10.2 from central in [default]
    org.mongodb.spark#mongo-spark-connector_2.11;2.4.1 from central in [default]
    ---------------------------------------------------------------------
    |                  |            modules            ||   artifacts   |
    |       conf       | number| search|dwnlded|evicted|| number|dwnlded|
    ---------------------------------------------------------------------
    |      default     |   2   |   1   |   0   |   0   ||   2   |   0   |
    ---------------------------------------------------------------------
:: retrieving :: org.apache.spark#spark-submit-parent-18ec2360-9f44-414c-a1de-11f629819aec
    confs: [default]
    0 artifacts copied, 2 already retrieved (0kB/4ms)
20/01/24 00:21:29 WARN Utils: Your hostname, user_name-Machine resolves to a loopback address: 127.0.1.1; using 192.168.1.18 instead (on interface wlan0)
20/01/24 00:21:29 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
20/01/24 00:21:30 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".`

И я получаю следующую ошибку при запуске >>> df = spark.read.format("mongo").load():

`Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
 File "/usr/local/spark/python/pyspark/sql/readwriter.py", line 172, in load
 return self._df(self._jreader.load())
 File "/usr/local/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
 File "/usr/local/spark/python/pyspark/sql/utils.py", line 63, in deco
 return f(*a, **kw)
 File "/usr/local/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o39.load.
: java.lang.NoSuchMethodError: com.mongodb.MongoClient.<init>(Lcom/mongodb/MongoClientURI;Lcom/mongodb/MongoDriverInformation;)V
    at com.mongodb.spark.connection.DefaultMongoClientFactory.create(DefaultMongoClientFactory.scala:49)
    at com.mongodb.spark.connection.MongoClientCache.acquire(MongoClientCache.scala:55)
    at com.mongodb.spark.MongoConnector.acquireClient(MongoConnector.scala:242)
    at com.mongodb.spark.MongoConnector.withMongoClientDo(MongoConnector.scala:155)
    at com.mongodb.spark.MongoConnector.withDatabaseDo(MongoConnector.scala:174)
    at com.mongodb.spark.MongoConnector.hasSampleAggregateOperator(MongoConnector.scala:237)
    at com.mongodb.spark.rdd.MongoRDD.hasSampleAggregateOperator$lzycompute(MongoRDD.scala:221)
    at com.mongodb.spark.rdd.MongoRDD.hasSampleAggregateOperator(MongoRDD.scala:221)
    at com.mongodb.spark.sql.MongoInferSchema$.apply(MongoInferSchema.scala:68)
    at com.mongodb.spark.sql.DefaultSource.constructRelation(DefaultSource.scala:97)
    at com.mongodb.spark.sql.DefaultSource.createRelation(DefaultSource.scala:50)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:318)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:167)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Thread.java:748)`

Характеристики:

ОС: Убунту 18.04

Java: openjdk 8

искра: 2.4.4

монго: 4.2.2

скала: 2.11.12

Java-драйвер монго: 3.12

Я попытался использовать Orace java 8 и переключить драйвер mongo на 3.10.2.


person mr3543    schedule 24.01.2020    source источник


Ответы (1)


Первая ошибка возникает из-за конфликтующей зависимости регистратора slf4j. JAR-коннектор Spark mongo перечисляет slf4j как зависимость. См. сведения о пакете maven. Однако это всего лишь предупреждение, и искра выбирает первое доступное. Кажется, что эта банка установлена ​​дважды в вашей системе. Один исходит от пакета spark, а другой — от hadoop. Mongo-connector перечисляет это как предоставленную зависимость, а spark использует все, что есть в системе.

Обычно можно исключить банки с

--exclude-packages Разделенный запятыми список groupId:artifactId, чтобы исключить при разрешении зависимостей, предоставленных в --packages, чтобы избежать конфликтов зависимостей.

e.g.

--exclude-packages org.slf4j:slf4j-api

Однако я не думаю, что это проблема здесь.

Вторая ошибка говорит о том, что такого метода конструктора MongoClient не существует. MongoClient — это зависимость java-пакета от коннектора mongo spark. Либо он вообще не правильно загрузился. Или вы каким-то образом неправильно передаете параметры conf, что приводит к вызову конструктора MongoClient с неправильными аргументами (другое количество или неправильные типы).

Я вижу, вы используете разные кавычки и обратные кавычки вокруг команды. Вы также пишете, что пытались установить драйвер java mongo. Вы разместили банку где-нибудь на пути к классам. Это не нужно. Аргумент --packages разрешает зависимости от maven. mongo-spark-connector зависит от mongo-driver и должен решить эту проблему за вас. См. информацию о maven и источник. Эта зависимость включена (в отличие от предоставленной slf4j)

Попробуйте вставить точную команду ниже в вашу оболочку. Не устанавливайте драйвер mongo java вручную.

pyspark \
--conf "spark.mongodb.input.uri=mongodb://127.0.0.1/mydb.mytable?readPreference=primaryPreferred" \
--conf "spark.mongodb.output.uri=mongodb://127.0.0.1/mydb.mytable" \
--packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.1

Когда я запускаю эту команду, на ~/.ivy2/cache автоматически устанавливается 2 jar.

org.mongodb.spark_mongo-spark-connector_2.11-2.4.1.jar
org.mongodb_mongo-java-driver-3.10.2.jar

конфликтующие slf4j не установлены. Банки также не содержат другого зависимого кода от других пакетов. вы можете проверить класс с unzip -l <jar-file-name>.jar

person dre-hh    schedule 24.01.2020
comment
Это сработало, спасибо. Изначально у меня было spark.jars /usr/local/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-2.0.2.jar,/usr/local/mongo-hadoop/build/libs/mongo-hadoop-2.0.2.jar,/usr/local/snappy/snappy-java-1.1.7.1.jar,/usr/local/lzo/lzo-hadoop-1.0.5.jar spark.io.compression.codec org.apache.spark.io.SnappyCompressionCodec в моем файле spark-defaults.conf. Удаление всех банок решило проблему. - person mr3543; 24.01.2020