我正在创建一个python作业,它运行脚本将存储在数据湖中的excel数据转换为csv。该脚本如下:
import pandas as pd
df = pd.read_excel('path/excel file in data lake', 'sheet1',header=0)
df.to_csv('path/empty csv file in DL', encoding='utf-8')上面的代码提供了一个操作系统错误:-
'adl://DLstorename.azuredatalakestore.net/filename.xlsx‘:OSError: Errno 22无效参数
有人能建议我应该如何将我的网络工作与数据湖连接起来,这样它才能识别文件路径吗?
发布于 2018-05-01 13:11:57
正如Anna在上面的回答中提到的那样,我使用带有python的蔚蓝数据库库连接到我的数据湖存储区。
我使用KUDU服务的cmd控制台(webapp的高级工具中的Development部分)安装了这个did作业库,并做了以下更改:
import pandas as pd
df = pd.read_excel(adl.open('folder name/excel file name in data lake'),'sheet1',header=0)
df.to_csv('folder name/empty csv file name in DL', encoding='utf-8')这完成了任务!
发布于 2018-04-12 22:00:23
熊猫无法直接与Azure数据湖商店合作。相反,尝试使用ADLS模块连接到ADLS以获取文档,一旦您在熊猫中完成了它,再次使用它来保存它。
http://azure-datalake-store.readthedocs.io/en/latest/
希望这能帮上忙!
https://stackoverflow.com/questions/49805303
复制相似问题