我正在向GCP AI平台培训服务提交一份培训工作。我的训练数据集(在同一个GCP项目中的BigQuery表上大约有4000万行)需要在培训工作开始时作为熊猫数据预处理,所以我尝试了GCP文件提出的两种解决方案。
pd.read_gbq(query, project_id=PROJECT, dialect='standard', use_bqstorage_api=True)client.query(query).to_dataframe(bqstorage_client=bqstorage_client)这两种方法都可以在一个人工智能平台笔记本虚拟机上工作,在几分钟内将整个4000万行数据集作为熊猫数据集下载。我很难在AI平台培训服务器上复制同样的程序(运行在n1-highmem-16机器上)。对于熊猫-gbq,我获得了一个被拒绝的权限错误:
google.api_core.exceptions.PermissionDenied: 403 request failed: the user does not have bigquery.readsessions.create' permission for 'projects/acn-c4-crmdataplatform-dev'
在中,没有错误。
下面是我按照GCP文件的建议,通过培训器包中的一个setup.py文件传递给AI平台培训工作所需的包列表:
发布于 2020-05-14 19:06:19
你必须做两件事:
service-<PROJECT_NUMBER>@cloud-ml.google.com.iam.gserviceaccount.com是否存在并具有Cloud ML Service Agent角色。如果不是,手动添加它(您不必创建它!)https://stackoverflow.com/questions/61798710
复制相似问题