搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Spark executor在binaryFiles读取时挂起

second record contentnumber of linesdf=spark.sparkContext.binaryFiles

浏览 0提问于2018-10-03得票数 1

1回答

当使用binaryFiles时，mapPartitions何时加载到内存中？

the byte data return(results) my_rdd = sc.binaryFiles

浏览 2修改于2017-01-20得票数 2

回答已采纳

1回答

Spark二进制数据源与sc.binaryFiles

df = spark.read.format(“binaryFile”).load("/path/to/data") 使用以前的spark版本，您可以使用以下方式云加载数据： val rdd = sc.binaryFiles

浏览 75修改于2020-06-26得票数 1

1回答

火花超时可能是由于HDFS中有100多万个文件的binaryFiles()造成的

我正在读取数百万个xml文件这一操作在当地进行得很好，但在纱线上却失败了： diagnostics

浏览 2提问于2015-06-08得票数 4

1回答

星星之火:当运行sc.binaryFiles()时，阶段X包含一个非常大的任务

运行sc.binaryFiles("s3a://BUCKETNAME/*").count()时我要去接WARN TaskSetManager: Stage 0 contains a task of very

浏览 1修改于2017-09-14得票数 0

回答已采纳

1回答

MsBuild:具有可变元数据数的嵌套ItemGroup的平坦化

假设以下ItemGroup结构： <BinaryFiles Include="C:\"> <Binary>b.dll</Binary> <BinaryFiles Include="D:\"> <Binary>my.ddl<&#

浏览 5提问于2017-08-26得票数 0

回答已采纳

1回答

有没有一种简单的方法来使用Spark API (我使用PySpark API)和binaryFiles方法来读取目录中包含的给定文件集？我如何使用binaryFiles读取这些文件，而不将它们复制到另一个目录中，因为它们是大文件？现在，我正在创建一个带有符号链接的文件夹，并使用binaryFiles('./*')来读取该文件夹中的所有链接。但我认为它不适合长期使用。一些技巧:我正在研究regexp，这样我就可以向binaryFiles传递一个自定义字符串来选择适当的文件，但是解决方案可能在其他

浏览 1修改于2015-08-03得票数 2

1回答

SparkContext只能在驱动程序上使用

我试图使用SparkContext.binaryFiles函数来处理一组ZIP文件。设置是从文件名的RDD映射，其中映射函数使用binaryFiles函数。样本代码：其中file_list_rdd是(id

浏览 2修改于2022-08-15得票数 2

回答已采纳

1回答

用opt解析式解析"enum“选项

binary files are TYPE;假设我有 data BinaryFilesoption auto似乎是一个传说，因为Read应该是Show的“逆”，我想保留派生的instance Show BinaryFiles。

浏览 2提问于2017-09-12得票数 4

回答已采纳

2回答

如何使用scala从星火中的RDD中获取值

因此，我使用了SparkContext.readFile方法，如下所示： val zipFileRDD = sc.binaryFiles("./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip BinaryFileRDD[4] at binaryFiles at <console

浏览 5修改于2015-12-08得票数 2

1回答

使用二进制文件保存图像文件- pyspark

我使用BinaryFiles将图片加载到spark中，将其转换为数组并进行处理。下面是代码import numpy as npimages = sc.binaryFiles("path/car*") imagerdd

浏览 0修改于2019-12-06得票数 1

1回答

rdd takeSample上的Spark作业无限期挂起

PATH_TO_RAW_DATA = "hdfs:/user/myname/documents/d*"这包含大约下面的代码是我用来做这件事的：tf = sc.binaryFiles(PATH_TO_RAW_DATA

浏览 0修改于2017-10-05得票数 1

1回答

测试火花读取时间的最佳方法

val rdd = spark.sparkContext.binaryFiles(s"$Path//$partitionColumn=$partitionId/*.avro") implicit val

浏览 11提问于2022-04-11得票数 0

1回答

Scala RDD[(String，String)]到RDD[String]

val textRdd = sparkSession.sparkContext.binaryFiles(filePath,12) .mapValues(content => new String

浏览 58修改于2021-08-14得票数 0

1回答

如何使用密钥作为文件名，将值作为内容，将文件保存在Spark PairRDD中？

在Spark中，我使用sc.binaryFiles从s3下载了多个文件。生成的RDD将键作为文件名，值包含文件的内容。我已经解压了文件内容，csv对其进行了解析，并将其转换为数据帧。val files = sc.binaryFiles(lFiles.mkString(","), 250).mapValues(stream => sc.parallelize(readZipStream

浏览 1提问于2016-04-06得票数 1

1回答

Msbuild ItemGroup exclude不支持通配符

GeneratedAssembly2.dllsomefolder\somefile.exe其思想是生成另一个包含以下内容的项目组BinaryFilesGeneratedAssembly1.dllsomefolder\somefile.exe因此，我有以下几点： <BinaryFiles

浏览 26提问于2017-08-30得票数 1

回答已采纳

2回答

kotlinx.serialization.SerializationException:找不到类'MultiPartFormDataContent‘的序列化程序

ktorVersion = "1.5.0"我就是这么做的： binaryFilesContent-Type", "application/json") } <em

浏览 7修改于2021-01-21得票数 4

回答已采纳

1回答

函数返回星火中的空列表。

(filesInZip.toList)我以下列方式执行上述代码： scala> val zipFileRDD = sc.binaryFiles("./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip BinaryFileRDD[17] at binaryFiles at <console

浏览 1修改于2015-12-24得票数 3

回答已采纳

1回答

如何拆分输入数据并将其加载到RDD

我使用代码sparkContext.binaryFiles(folderpath)加载文件夹中的所有数据。我认为它会将全部数据加载到RDD中，并导致OutOfMemory错误。

浏览 1修改于2016-02-03得票数 1

1回答

电火花-计算文件哈希/校验和不工作的代码

我使用spark.sparkContext.binaryFiles来获取成对的RDD，其中键是文件名，值是一个类似文件的对象，在该对象上，我正在计算映射函数rdd.mapValues(map_hash_filefile_contents.encode('utf-8')) rdd = spark.sparkContext.binaryFiles

浏览 1提问于2022-01-21得票数 0

第 2 页第 3 页第 4 页第 5 页

点击加载更多

Spark executor在binaryFiles读取时挂起

当使用binaryFiles时，mapPartitions何时加载到内存中？

Spark二进制数据源与sc.binaryFiles

火花超时可能是由于HDFS中有100多万个文件的binaryFiles()造成的

星星之火:当运行sc.binaryFiles()时，阶段X包含一个非常大的任务

MsBuild:具有可变元数据数的嵌套ItemGroup的平坦化

二进制文件的Spark read子组

SparkContext只能在驱动程序上使用

用opt解析式解析"enum“选项

如何使用scala从星火中的RDD中获取值

使用二进制文件保存图像文件- pyspark

rdd takeSample上的Spark作业无限期挂起

测试火花读取时间的最佳方法

Scala RDD[(String，String)]到RDD[String]

如何使用密钥作为文件名，将值作为内容，将文件保存在Spark PairRDD中？

Msbuild ItemGroup exclude不支持通配符

kotlinx.serialization.SerializationException:找不到类'MultiPartFormDataContent‘的序列化程序

函数返回星火中的空列表。

如何拆分输入数据并将其加载到RDD

电火花-计算文件哈希/校验和不工作的代码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐