文章/答案/技术大牛

发布

社区首页 >问答首页 >阅读<列名>栏的内容

问阅读<列名>栏的内容
EN

Stack Overflow用户

提问于 2016-12-22 08:45:29

回答 1查看 254关注 0票数 0

我用的是火花1.5.0

我创建了如下所示的数据框架，并试图从这里读取一列

>>> words = tokenizer.transform(sentenceData)
>>> words
DataFrame[label: bigint, sentence: string, words: array<string>]
>>> words['words']
Column<words>

我想读句子中的所有单词(单词)。我怎么看这个？

编辑1：仍然存在错误

现在，我在Spark2.0.0中运行了这个程序，并得到了这个错误

>>> wordsData.show()
+--------------------+--------------------+
|                desc|               words|
+--------------------+--------------------+
|Virat is good bat...|[virat, is, good,...|
|     sachin was good| [sachin, was, good]|
|but modi sucks bi...|[but, modi, sucks...|
| I love the formulas|[i, love, the, fo...|
+--------------------+--------------------+

>>> wordsData
DataFrame[desc: string, words: array<string>]


>>> vocab = wordsData.select(explode('words')).rdd.flatMap(lambda x: x)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/opt/BIG-DATA/spark-2.0.0-bin-hadoop2.7/python/pyspark/rdd.py", line 305, in flatMap
    return self.mapPartitionsWithIndex(func, preservesPartitioning)
  File "/opt/BIG-DATA/spark-2.0.0-bin-hadoop2.7/python/pyspark/rdd.py", line 330, in mapPartitionsWithIndex
    return PipelinedRDD(self, f, preservesPartitioning)
  File "/opt/BIG-DATA/spark-2.0.0-bin-hadoop2.7/python/pyspark/rdd.py", line 2383, in __init__
    self._jrdd_deserializer = self.ctx.serializer
AttributeError: 'SparkSession' object has no attribute 'serializer'

编辑-1-- Link的解析

pyspark

apache-spark-sql

spark-dataframe

apache-spark-mllib

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-12-22 09:32:53

您可以：

from pyspark.sql.functions import explode

words.select(explode('words')).rdd.flatMap(lambda x: x)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41279008

复制

相似问题

问阅读<列名>栏的内容
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问阅读<列名>栏的内容EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问阅读<列名>栏的内容
EN