在dsx中,有一种方法可以在Scala2.11和Spark 2.0笔记本中使用"display“(我知道可以在python笔记本中使用pixiedust)。例如:
display(spark.sql("SELECT COUNT(zip), SUM(pop), city FROM hive_zips_table
WHERE state = 'CA' GROUP BY city ORDER BY SUM(pop) DESC"))但我想在scala笔记本上做同样的事情。目前,我只是在做下面的一个show命令,只给出一个表格格式的数据,没有图形,等等。
spark.sql("SELECT COUNT(zip), SUM(pop), city FROM hive_zips_table
WHERE state = 'CA' GROUP BY city ORDER BY SUM(pop) DESC").show()发布于 2017-01-28 06:45:40
注意:
参考资料:- https://github.com/ibm-cds-labs/pixiedust/wiki
但如果你可以使用Spark 1.6,这里有一个使用奇特显示功能的快捷方法:
你可以走另一条路,因为Pixidust允许你在一个拥有%%scala行魔术的python笔记本中使用scala和python。
https://github.com/ibm-cds-labs/pixiedust/wiki/Using-Scala-language-within-a-Python-Notebook
步骤1.使用Python2和Spark1.6创建一个笔记本,安装并导入它
!pip install --user --no-deps --upgrade pixiedust
import pixiedust在下面的Scala中定义变量或数据帧
%%scala
import org.apache.spark.sql._
print(sc.version)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val __df = sqlContext.read.json("people.json")
__df.show()或
做任何事来创建你的数据帧
val __df = dataframe1.sql("SELECT COUNT(zip), SUM(pop), city FROM hive_zips_table
WHERE state = 'CA' GROUP BY city ORDER BY SUM(pop) DESC").show() 步骤2:在单独的单元中运行下面的,以访问python shell中的df变量。
display(__df)参考我的示例笔记本:-
谢谢,查尔斯。
发布于 2018-03-28 21:05:59
您可以在Zeppelin中获得类似的结果
z.show(dataframe)https://stackoverflow.com/questions/41899681
复制相似问题