我正在使用将一只熊猫Dataframe转换成考拉数据框架。
kdf = ks.DataFrame(pdf)这将导致错误消息“需要一个整数(got类型str)”。
我尝试添加一个dtype的str,以强制考拉数据帧为字符串类型。。。
df = ks.DataFrame(pdf, dtype='str')使用databricks扩展,在vs代码中添加dtype可以很好地工作,但是在azure工作区中执行时会产生一个AssertionError。
看起来,必须使用与vs代码databricks扩展不同版本的考拉。
我怎样才能让这个在蔚蓝数据库中工作呢?
我如何知道考拉蓝数据库使用的是什么版本,以及databricks与代码扩展使用的是什么版本的考拉?
我不能仅仅使用pip列表来查找考拉的vs代码版本,因为它是一个扩展,而不是一个已安装的软件包。
在这方面的任何帮助都将受到感激。
劳拉
发布于 2020-09-23 12:05:11
通过打印module.__version__,您可以找到任何导入库的版本。
例如,数据库笔记本中的print(ks.__version__)将打印类似于1.0.1的东西。
至于真正的问题:在很长一段时间里,Pandas没有一个特定的字符串的dtype,它们只是对象。字符串dtype是最近添加的(我认为是Pandas 1.0+)。问题有两个:
因此,我们有这种恼人的情况,我们知道列dtype,但没有办法指定考拉,它应该使用什么dtype。解决方法是用空字符串填充空值,这样dtype的推断就可以工作:
for stringcol in df.select_dtypes('string').columns:
df[stringcol] = df[stringcol].fillna("").astype("object")
ks.DataFrame(df)https://stackoverflow.com/questions/63430840
复制相似问题