搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

将scala-spark文件编译为jar文件

我正在做一个频繁项目集的项目，我使用FP-Growth算法，我依赖于Scala-Spark开发的版本我需要修改这段代码并重新编译它，以便有一个jar文件，我可以将它包含到Spark-shell中，并在

浏览 1提问于2017-03-29得票数 0

1回答

Scala-Spark: Filter DataFrame性能和优化

我想要实现的相当简单:我想检查所有的ID(Uuid)是否经历了某种“状态”(行为状态)。如果是，则将与该ID关联的所有记录返回给我。例如，如果下面的某个ID的状态为"three“，我希望保留与该ID关联的所有记录。到目前为止，我可以通过以下两种方法来实现： // first methodval dfTransformedOne =

浏览 21修改于2019-04-19得票数 1

回答已采纳

2回答

通过删除"for loop“来优化scala-spark代码

我想优化这段代码( scala spark)以删除for循环。我该怎么做呢？var varExplained = Array[(Double)]();//{This one contains double values assigned before}for(x<-0 to varExplained.length-1) varianceExplained +:= (x,sums)

浏览 0修改于2016-04-27得票数 0

1回答

Scala-Spark:将Dataframe转换为RDD[Edge]

我有一个表示图的边的dataframe；这是模式： |-- dst: string (nullable = true) | |-- business_id: string (nullable = true) 我想将它转换为RDDEdge，以便使用Pregel，而我的困难在于属性“

浏览 3修改于2017-09-24得票数 1

回答已采纳

1回答

使用sbt将Apache Ignite与scala-spark集成

我正在尝试将ignite集成到scala代码中，并使用sbt运行应用程序。我不能使用任何IDE来做这件事。Spark version - 2.3.0Sbt version - 1.3.3libraryDependencies += "org.apache.ignite" %% "ignite-spark" % "2.8.0"scalaVersion :=

浏览 14提问于2020-05-28得票数 0

回答已采纳

1回答

scala-spark:如何在groupby之后过滤RDD

我已经开始使用RDD，它有竖线分隔的字符串。我已经对数据进行了处理，并得到了以下格式：((0001F46468,239394055),(8016905020647641,183812619),1,1420347885727)((0001F46468,239394055),(6633110906332136,294

浏览 2提问于2015-07-15得票数 3

回答已采纳

1回答

基于现有行在Scala-Spark数据帧中添加新行

我在Json dataframe中有如下数据。{"nm": 1234, "date": "2017-01-23", "name": [],"id": "9253196"} {"nm": 1235, "date": "2017-01-23&#

浏览 3提问于2017-08-03得票数 1

1回答

更新来自两个数据框架的数据Scala-Spark

我有两个数据帧： ID | Col1 | Col2 2 b bb ID | Col1 | Col2 2 b bba我如何加入这两个外勤部，结果应该是： 1 ab aa 3 c cc 4 d

浏览 0提问于2018-07-06得票数 0

回答已采纳

1回答

在Scala-Spark中读取Hive表中的行并写入文件

我想从spark-scala program.After中读取其中一个hive表中的数据行，相同的数据需要逐行写入文件。实际上是逐行写入文件。有没有人能分享一下点子呢？Spark版本1.6，Hive1.2。

浏览 3提问于2017-11-21得票数 1

1回答

我可以只从scala-spark中的目录中读取想要的文件吗

我想读取一些名称在数组中的特定文件。我是否可以只在这些文件中读取和存储值。我是scala和spark的新手，请帮帮我。val status = fs.listStatus(new Path("..../sample/t1988")) file:/......../sample/t1988/01001399999.csv file:/......../sample/t1988/01001499

浏览 15提问于2019-10-22得票数 2

1回答

在使用intelliJ的scala-spark中，我应该添加哪个依赖项才能在s3中获取txt文件？

我正在使用AWS ide和language scala，我想使用IAM用户凭证访问存储在IntelliJ S3中的一个文本文件。我没有仅仅使用依赖项在我的系统上下载Hadoop。我已经使用Aws依赖关系和jets3t依赖关系做到了这一点。但我想用spark来做。我得到的基本错误是： java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found, java.lang.RuntimeException: java.lang.

浏览 26修改于2019-06-18得票数 1

回答已采纳

1回答

错误:发生JNI错误，请检查您的安装，然后在使用SBT的Scala-Spark的IntelliJ IDEA中再试一次

import org.apache.spark.sql.SparkSession .appName("SparkByExamples.com") .getOrCreate() val states = Map(("NY","New York"),("CA","California"),(

浏览 17提问于2022-03-26得票数 1

1回答

如何在scala火花jupyter笔记本中使用维加斯可视化

当将scala内核与Vegas一起使用时，我们看到了不错的图表但是，当切换到scala-spark内核时，导入不再起作用：修复spark内核导入的方法是什么？

浏览 1修改于2018-03-24得票数 0

回答已采纳

0回答

拆分行并检索索引1后索引越界

我是scala-spark的新手

浏览 7修改于2017-11-29得票数 0

1回答

类ClassName(变量)(spark: SparkSession) {}

我在scala-spark项目中看到过类似下面这样的声明类我想了解

浏览 0提问于2020-04-19得票数 0

1回答

Scala spark，显示不同的列值和计数出现次数

SQL的等价物是： select distinct(last_name), count(*) from optimization.opt_res group by (last_name) 在scala-spark

浏览 26修改于2019-07-04得票数 0

回答已采纳

0回答

Scala Spark中两个数组之间的叉积

考虑scala-spark中的两个数组val mole_2 = Array(2.0,2.0,0.0,0.0,0.0,0.0

浏览 2修改于2017-11-22得票数 0

回答已采纳

1回答

使用Pycharm调试EMR上的Pyspark

我知道如何在EMR上使用Intellij调试Scala-Spark，但我没有使用Python进行调试的经验。

浏览 13修改于2021-01-11得票数 6

1回答

如何获取HDFS上存在的文件的创建日期？

我正在开发一个Scala-Spark程序，它需要从HDFS上的目录中获取最新创建的文件(每天在目录中创建一个文件)，并读取其中的数据进行进一步处理。

浏览 0修改于2017-11-27得票数 1

1回答

选择RDD1的特定元素

我被一个特定的scala-spark语法卡住了，我希望您能引导我朝着正确的方向前进。

浏览 0提问于2016-11-01得票数 1

第 2 页

将scala-spark文件编译为jar文件

Scala-Spark: Filter DataFrame性能和优化

通过删除"for loop“来优化scala-spark代码

Scala-Spark:将Dataframe转换为RDD[Edge]

使用sbt将Apache Ignite与scala-spark集成

scala-spark:如何在groupby之后过滤RDD

基于现有行在Scala-Spark数据帧中添加新行

更新来自两个数据框架的数据Scala-Spark

在Scala-Spark中读取Hive表中的行并写入文件

我可以只从scala-spark中的目录中读取想要的文件吗

在使用intelliJ的scala-spark中，我应该添加哪个依赖项才能在s3中获取txt文件？

错误:发生JNI错误，请检查您的安装，然后在使用SBT的Scala-Spark的IntelliJ IDEA中再试一次

如何在scala火花jupyter笔记本中使用维加斯可视化

拆分行并检索索引1后索引越界

类ClassName(变量)(spark: SparkSession) {}

Scala spark，显示不同的列值和计数出现次数

Scala Spark中两个数组之间的叉积

使用Pycharm调试EMR上的Pyspark

如何获取HDFS上存在的文件的创建日期？

选择RDD1的特定元素

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐