文章/答案/技术大牛

发布

社区首页 >问答首页 >将RDD数据写入excel文件中，并在apache-spark中进行映射。

问将RDD数据写入excel文件中，并在apache-spark中进行映射。
EN

Stack Overflow用户

提问于 2014-05-29 00:30:53

回答 1查看 1.5K关注 0票数 2

我可以在excel文件中写入RDD数据以及apache中的映射吗？这样做对吗？这难道不就是一个局部函数，不能在集群上传递吗？

下面给出了python代码(这只是澄清我的问题的一个例子，我知道这个实现可能实际上并不是必需的)：

import xlsxwriter
import sys
import math
from pyspark import SparkContext

# get the spark context in sc.

workbook = xlsxwriter.Workbook('output_excel.xlsx')
worksheet = workbook.add_worksheet()

data = sc.textFile("xyz.txt")
# xyz.txt is a file whose each line contains string delimited by <SPACE>

row=0

def mapperFunc(x):                  
    for i in range(0,4):      
        worksheet.write(row, i , x.split(" ")[i])
    row++                      
    return len(x.split())   

data2 = data.map(mapperFunc)

workbook.close()

有两个问题：

像这样在“mapperFunc”中使用行是正确的吗？每次都会增加行数吗？
在excel文件中使用worksheet.write()编写mapper函数是正确的吗？

另外，如果#2是正确的，那么请澄清我认为工作表是在本地机器中创建的疑问，那么它是如何工作的？

谢谢

python

excel

apache-spark

回答 1

Stack Overflow用户

发布于 2017-04-21 22:35:05

hadoopoffice库允许您通过集成ExcelOutputFormat (使用PairRdd.saveAsNewAPIHadoopFile)或Spark2.x数据源api来使用Spark1.x编写Excel文件。使用此库，您可以将文件存储到HDFS或本地或S3或Azure.

在这里找到一些例子：https://github.com/zuinnote/hadoopoffice

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23923966

复制

相似问题

问将RDD数据写入excel文件中，并在apache-spark中进行映射。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将RDD数据写入excel文件中，并在apache-spark中进行映射。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将RDD数据写入excel文件中，并在apache-spark中进行映射。
EN