搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

使用Spark的Elasticsearch编写

我正在以RDD的形式在Spark中创建一个文档集合，并使用来自Elasticsearch的Spark读写库。创建集合的群集很大，因此当它向ES写入时，我会得到下面指示ES的错误，这并不让我感到意外。在Spark中，报告的作业已成功完成。 2017-03-20 10:48:27,745 WARN

浏览 3提问于2017-03-20得票数 0

1回答

WriteStream需要客户端证书的Azure管理后面的dataFrame到Elasticsearch？

我知道我可以使用org.elasticsearch.spark写信给es，但是我看不出有任何方法可以包含客户机证书来清除APIM。这些都有可能吗？在连接到writeStream.Use .Net以执行流读写时，包括一个证书。我还不确定Microsoft.Spark有哪些功能，以及它是否可以使用结构化流从Delta表中读取。如果成功，我可以使用我现有的库来调用ES。找到了一种对等VNets的方法，这样我就可以通过本地IP地址调用ES。我是在另一个系统中这样做的，但在这种情况下，我可以访问

浏览 3提问于2022-06-08得票数 0

1回答

用于指定激发-shell查询文件的语法(使用elasticsearch-火花连接器)

对于shell命令，我想为spark.es.query参数指定一个文件： --jars ~/spark/jars/elasticsearch-spark-20_2.11-5.1.2.jar --conf spark.es.nodes="localhost" --conf

浏览 16提问于2017-02-04得票数 1

回答已采纳

3回答

不使用Spark从Scala读取拼图文件

有没有可能在不使用Apache Spark的情况下从Scala中读取拼图文件？我发现了一个项目，它允许我们使用普通的scala读写avro文件。然而，我找不到一种方法来读写拼图文件使用普通的scala程序而不使用Spark？

浏览 0修改于2016-02-06得票数 22

回答已采纳

1回答

Spark流数据帧对elasticsearch公开

SparkSession配置： .config("es.index.auto.create", "true") .config("es.port", "9200") .config("es.nodes.wan.onl

浏览 0修改于2021-02-22得票数 0

1回答

是否有一种不使用Hadoop来读取AWS S3文件的方法？

独立程序可以通过使用AWS客户端jar文件来读写AWS S3文件而不需要Hadoop。火花程序可以在没有Hadoop的情况下读写文件。然而，Spark需要读写AWS S3文件的程序才能使用Hadoop。即使如此，Spark1.4和Hadoop2.6& 2.7中仍然存在关于S3缺少Hadoop类的运行时错误，即使设置了Hadoop目录。如果不是，我如何在运行时解决S3中缺少Hadoop类的Spark问题？

浏览 2提问于2015-07-26得票数 4

1回答

是否为不同查询创建新的SparkSession？

// with query "es.resourceresult session = get_spark_session() "es.resource( "es.resour

浏览 9修改于2019-08-21得票数 0

回答已采纳

2回答

只从卡桑德拉拉出星火中所需的列，而不加载所有列

使用连接器，可以直接将所需列从ES加载到Spark。然而，使用火花-卡桑德拉连接器，似乎不存在这样一个直接向前的选项来进行同样的操作。将ES中的数据读入火花--这里只有必需的列被从ES带到Spark：es_epf_df = spark.read.format("org.

浏览 1提问于2020-06-18得票数 0

回答已采纳

3回答

为什么spark-submit找不到kafka数据源，除非使用--packages？

.config("spark.es.nodes", _properties.getProperty("es.hosts")) .config("spark.es.index.aut

浏览 0修改于2018-10-28得票数 4

1回答

Elasticsearch spark读取速度慢

使用指定的spark连接器org.elasticsearch:elasticsearch-spark-20_2.11:6.3.2从Elasticsearch v6.2读取spark的速度慢得可怕。群集上读取： "query": { } .format("org.elasticse

浏览 2提问于2018-08-15得票数 1

1回答

将Spark与Elasticsearch集成

我有Spark dataframe(df)。我创建了index = "spark“，但是，当我运行这个命令时： .format("org.elasticsearch.spark.sql") .option("es.port","9092") .option(&qu

浏览 20修改于2020-05-21得票数 0

回答已采纳

1回答

星星之交-未将信任存储文件复制到google dataproc中的工作节点的文件。

要连接到ES集群，我需要传递信任存储路径。job");.set("spark.es.nodes", <es_nodes>).set("spark.es.net.ssl","true") .set(

浏览 3修改于2022-04-28得票数 3

2回答

在星火提交中设置弹性搜索属性

我试图通过命令行启动使用弹性搜索输入的火花作业，如所述~/spark-1.0.1-bin-hadoop1/bin/spark-submit--class Main --properties-file spark.conf SparkES.jar Warning: Ignorin

浏览 4修改于2015-02-02得票数 4

回答已采纳

1回答

如何使用定制的拼花压缩算法？

是否可以在Spark中使用自定义的压缩算法来读写Parquet文件？理想情况下，它将配置如下： sqlContext.setConf("spark.sql.parquet.compression.codec", "myalgo")

浏览 2修改于2018-01-06得票数 3

1回答

如何使用中的hadoop office库将数据集写入excel文件

目前，我使用com.crealytics.spark.excel读取Excel文件，但使用此库，无法将数据集写入Excel文件。这个说，使用hadoop库(org.zuinnote.spark.office.excel)，我们可以读写Excel文件请帮助我在spark .中将数据集对象写入excel文件。

浏览 5修改于2020-01-22得票数 4

回答已采纳

1回答

简单esRDD引发异常(在Spark中使用了elasticsearch-hadoop连接器)

调用交互式shell： ] $SPARK_HOME/bin/spark-shell --master local[4] --jars ~/spark/jars/elasticsearch-hadoop-5.2.0.jar --conf spark.es.nodes="localhost" spark.es.port="9200" spark.es

浏览 0修改于2017-02-03得票数 0

回答已采纳

3回答

将Spark 2.X连接到ElasticSearch 2.X

我正在使用Spark和ElasticSearch，但是我不知道如何在ElasticSearch 2.x中使用Spark 2.X。ElasticSearch Spark libs只支持ES2.x的Spark1.6，支持ES5.alpha的Spark2。你用什么将Spark连接到ElasticSearch？

浏览 0提问于2016-09-20得票数 1

1回答

Spark ElasticSearch配置-从Spark读取弹性搜索

org.apache.spark.SparkConfimport org.apache.spark.SparkContext").option("es.index.auto.create", "true").option("spark.serializer", "org.apache.spark.serializer.Kryo

浏览 363修改于2020-02-05得票数 0

1回答

限制从Apache Spark到ES的写入

在我们的项目中，我们使用Apache Spark来写入ES。我们运行多个并行写入ES的spark作业。我们处理的数据量太大，导致写入吞吐量高达约5K写入/秒。我们希望限制ES写入，以便将其降低到500到1000写入/秒的范围。我们遇到过像es.batch.size.bytes和es.batch.size.entries这样的ES配置，但我们不确定这些配置如何与Apache Spark一起工作。

浏览 15提问于2020-07-20得票数 1

1回答

如何更新现有的SparkSession实例或在shell中创建一个新实例？

当我启动spark-shell时，它会创建一个SparkSession实例。然而，我应该按以下方式创建它： .config("es.nodes",elasticHost) .config("es

浏览 3修改于2018-01-06得票数 4

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用Spark的Elasticsearch编写

WriteStream需要客户端证书的Azure管理后面的dataFrame到Elasticsearch？

用于指定激发-shell查询文件的语法(使用elasticsearch-火花连接器)

不使用Spark从Scala读取拼图文件

Spark流数据帧对elasticsearch公开

是否有一种不使用Hadoop来读取AWS S3文件的方法？

是否为不同查询创建新的SparkSession？

只从卡桑德拉拉出星火中所需的列，而不加载所有列

为什么spark-submit找不到kafka数据源，除非使用--packages？

Elasticsearch spark读取速度慢

将Spark与Elasticsearch集成

星星之交-未将信任存储文件复制到google dataproc中的工作节点的文件。

在星火提交中设置弹性搜索属性

如何使用定制的拼花压缩算法？

如何使用中的hadoop office库将数据集写入excel文件

简单esRDD引发异常(在Spark中使用了elasticsearch-hadoop连接器)

将Spark 2.X连接到ElasticSearch 2.X

Spark ElasticSearch配置-从Spark读取弹性搜索

限制从Apache Spark到ES的写入

如何更新现有的SparkSession实例或在shell中创建一个新实例？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐