搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

利用Apache-Spark分析时间序列

我有很大的时间序列数据，数据格式是：(arrival_time，键，值)，时间单位是秒，例如：0.03, k, v1.00, k, v1.20, k, v2.00, k, v我需要做的是获取整个数据每秒的行数。到目前为止，我使用的是pySpark，我的代码如下：lo = rdd.take(1)[0]end = rdd.collect()[-1][0] number = rdd.filter

浏览 1提问于2015-11-16得票数 4

回答已采纳

1回答

Apache-Spark内部作业调度

我偶然发现了Spark中的一个特性，它允许您在一个spark context中调度不同的任务。进一步的流水线涉及在RDDs和join操作上从MLlib调用一些统计方法，然后将结果外部化到磁盘。pools到底是什么，它们是可

浏览 0修改于2015-04-25得票数 1

6回答

如何在Mac上安装带有homebrew的apache-spark 2.2.0

"$brew安装apache-spark‘得到2.3.x版本.'$brew搜索apache-spark’和'$brew info apache-spark‘不提供一个选项来安装一个不同的版本.有没有可能得到一个不同的版本与自制软件？

浏览 0提问于2018-04-13得票数 8

1回答

cloudant apache-spark访问设计文档

当我只使用数据库名称时，以下方法适用于我：option("cloudant.host", host).\option("cloudant.password", password).\ cloudantdata_df.pr

浏览 3提问于2016-06-10得票数 0

2回答

在apache-spark中处理Iterable

假设我有一个RDDInt。在我通过某个鉴别器函数执行groupBy之后，我得到了一个RDD[(Int，IterableInt)]。例如，如果我想进一步通过键与其中一个Iterable进行配对和聚合。我认为在这里调用.toList或.toSeq方法是不合法的，因为常规的scala集合不是分布式的。

浏览 0提问于2017-03-26得票数 0

2回答

如何在Mac上安装带有homebrew的apache-spark 2.3.3

$brew install apache-spark只安装最新版本的spark (2.4)，$brew search apache-spark不提供任何其他选项。

浏览 49修改于2019-06-15得票数 2

2回答

在AWS上使用Apache-Spark加载数据

我正在使用亚马逊网络服务(AWS)-EC2上的Apache-Spark来加载和处理数据。我已经创建了一个主节点和两个从节点。

浏览 1修改于2015-07-23得票数 0

1回答

Apache-Spark如何处理类中的方法？

我在学阿帕奇-火花。在仔细阅读了Spark教程之后，我了解了如何将Python函数传递给Apache来处理RDD数据集。但是现在我仍然不知道Apache是如何与类中的方法工作的。例如，我的代码如下所示：import copy def __init__(self, n): ### Copy the item of class A to B. def __i

浏览 2提问于2015-07-07得票数 3

回答已采纳

1回答

Apache-Spark并行处理分离的csv文件

我正在尝试使用Apache-Spark来并行处理目录中分离的csv文件。具体地说，我希望每个从节点将每个csv文件中第一列的所有编号相加，并返回计算结果。

浏览 1修改于2015-07-15得票数 1

5回答

Apache-Spark : map(_._2)是什么的缩写？

我阅读了一个项目的源代码，发现：inputMBR是一个元组。map[U classTag](f:T=>U):RDD[U]谁能告诉我这些速记的规则？

浏览 1修改于2016-02-11得票数 13

2回答

Apache-Spark: foreach中的方法不起作用

我从HDFS中读取了一个文件，该文件包含在中表示envelope的x1,x2,y1,y2。val inputData = sc.textFile(inputDataPath).cache() println(&#

浏览 5提问于2015-03-19得票数 0

2回答

Apache-spark -在windows上启动pyspark时出错

我正试着在windows上运行pyspark。但是，我收到以下错误：Python 3.6.0 |Anaconda 4.3.1 (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC Type "help", "copyright", "credits" or "license" for more information. Traceback (most recent call last

浏览 0提问于2017-05-14得票数 2

2回答

Apache-Spark:从历史服务器导出数据

一个简单的问题，如何从历史服务器导出数据？我只想导出主页面，它有所有应用程序的一般信息。我的目标是创建一个具有相同结构的CSV。

浏览 0提问于2018-03-01得票数 1

回答已采纳

2回答

使用Apache-Spark，根据条件减少或折叠RDD

我正在使用Apache Spark和Scala。我有一个字符串的RDD，Int现在我按键减少了RDD，但我想添加另一个功能来减少相似的单词。那么，我如何应用其中一个函数来减少我的RDD？RDD -> (forks,12), (fork,4), (chair,15) , (table,1), (tables,11) 承认相似度算法有效，我如何才能获得一个

浏览 2修改于2017-08-21得票数 1

1回答

如何使用apache-spark引导读取CSV文件

我是Apache的新手，我正在尝试使用从Apache读取CSV文件。然而，尽管尝试了几种不同的方法，但我仍然得到了下面的异常。SparkSession spark = SparkSession .appName("Java Spark SQL Example") StructType schema = new StructType() .add("

浏览 18提问于2022-10-10得票数 0

回答已采纳

1回答

apache-spark partitionBy:从目录布局中删除列名

我的代码是这样的：data1 .withColumn("month", month(col("local_date_time"))) .withColumn("day", dayofmonth(col("local_date

浏览 1提问于2020-05-15得票数 1

1回答

如何在将mongodb与apache-spark连接时进行查询

我现在正在试验Spark和Mongodb，它们使用mongodb连接器连接火花和mongodb通信。下面是一个的例子，这个例子对我来说很好。航班数据的架构在中。{ "_id" : ObjectId( "51bf19c4ca69141e42ddd1f7" ), "airTime" : 316, "airlineId

浏览 1提问于2014-08-08得票数 6

1回答

使用Apache-Spark将MongoDB数据管道传输到Redshift

当我的雇主大举转向MongoDB、红移和星火时。我正在尝试积极主动地使用每一项技术。您能给我推荐一些对执行这项任务有帮助的资源吗？“使用Apache Spark创建数据管道，将数据从MongoDB移动到RedShift”。我知道要使用Apache Spark创建数据管道，必须使用Scala、Python或Java编写代码。我对SQL有扎实的理解，所以请随意建议Scala、Python和Java中哪种语言对我来说更容易学习。我的背景是数据仓库、传统ETL (I

浏览 0修改于2017-09-08得票数 1

1回答

在防火墙后面向Apache-Spark提交作业

Usecase:我在防火墙后面，我有一个可以访问的远程星火集群，但是这些机器不能直接连接到我。这样的程序已经存在了吗？这样的过程应该管理1+ RPC，返回异常和处理日志。注:我

浏览 4修改于2017-06-05得票数 1

1回答

将RDD数据写入excel文件中，并在apache-spark中进行映射。

我可以在excel文件中写入RDD数据以及apache中的映射吗？这样做对吗？这难道不就是一个局部函数，不能在集群上传递吗？import xlsxwriterimport mathworksheet = workbook

浏览 3修改于2014-05-29得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

利用Apache-Spark分析时间序列

Apache-Spark内部作业调度

如何在Mac上安装带有homebrew的apache-spark 2.2.0

cloudant apache-spark访问设计文档

在apache-spark中处理Iterable

如何在Mac上安装带有homebrew的apache-spark 2.3.3

在AWS上使用Apache-Spark加载数据

Apache-Spark如何处理类中的方法？

Apache-Spark并行处理分离的csv文件

Apache-Spark : map(_._2)是什么的缩写？

Apache-Spark: foreach中的方法不起作用

Apache-spark -在windows上启动pyspark时出错

Apache-Spark:从历史服务器导出数据

使用Apache-Spark，根据条件减少或折叠RDD

如何使用apache-spark引导读取CSV文件

apache-spark partitionBy:从目录布局中删除列名

如何在将mongodb与apache-spark连接时进行查询

使用Apache-Spark将MongoDB数据管道传输到Redshift

在防火墙后面向Apache-Spark提交作业

将RDD数据写入excel文件中，并在apache-spark中进行映射。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐