我可以在excel文件中写入RDD数据以及apache中的映射吗?这样做对吗?这难道不就是一个局部函数,不能在集群上传递吗?
下面给出了python代码(这只是澄清我的问题的一个例子,我知道这个实现可能实际上并不是必需的):
import xlsxwriter
import sys
import math
from pyspark import SparkContext
# get the spark context in sc.
workbook = xlsxwriter.Workbook('output_excel.xlsx')
worksheet = workbook.add_worksheet()
data = sc.textFile("xyz.txt")
# xyz.txt is a file whose each line contains string delimited by <SPACE>
row=0
def mapperFunc(x):
for i in range(0,4):
worksheet.write(row, i , x.split(" ")[i])
row++
return len(x.split())
data2 = data.map(mapperFunc)
workbook.close()有两个问题:
另外,如果#2是正确的,那么请澄清我认为工作表是在本地机器中创建的疑问,那么它是如何工作的?
谢谢
发布于 2017-04-21 22:35:05
hadoopoffice库允许您通过集成ExcelOutputFormat (使用PairRdd.saveAsNewAPIHadoopFile)或Spark2.x数据源api来使用Spark1.x编写Excel文件。使用此库,您可以将文件存储到HDFS或本地或S3或Azure.
在这里找到一些例子:https://github.com/zuinnote/hadoopoffice
https://stackoverflow.com/questions/23923966
复制相似问题