首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用熊猫-gbq与BigQuery存储API在人工智能平台的培训?

如何使用熊猫-gbq与BigQuery存储API在人工智能平台的培训?
EN

Stack Overflow用户
提问于 2020-05-14 13:33:47
回答 1查看 801关注 0票数 3

我正在向GCP AI平台培训服务提交一份培训工作。我的训练数据集(在同一个GCP项目中的BigQuery表上大约有4000万行)需要在培训工作开始时作为熊猫数据预处理,所以我尝试了GCP文件提出的两种解决方案。

  • pandas_gbq API:pd.read_gbq(query, project_id=PROJECT, dialect='standard', use_bqstorage_api=True)
  • google bigquery:client.query(query).to_dataframe(bqstorage_client=bqstorage_client)

这两种方法都可以在一个人工智能平台笔记本虚拟机上工作,在几分钟内将整个4000万行数据集作为熊猫数据集下载。我很难在AI平台培训服务器上复制同样的程序(运行在n1-highmem-16机器上)。对于熊猫-gbq,我获得了一个被拒绝的权限错误:

google.api_core.exceptions.PermissionDenied: 403 request failed: the user does not have bigquery.readsessions.create' permission for 'projects/acn-c4-crmdataplatform-dev'

在中,没有错误。

下面是我按照GCP文件的建议,通过培训器包中的一个setup.py文件传递给AI平台培训工作所需的包列表:

  • tensorflow==2.1.0
  • numpy==1.18.2
  • pandas==1.0.3
  • google core=1.17.0
  • core=1.3.0
  • pyarrow==0.16.0
  • 熊猫-gbq=0.13.1
  • google bigquery-存储=0.8.0
  • google-cloud-bigquery=1.24.0
EN

回答 1

Stack Overflow用户

发布于 2020-05-14 19:06:19

你必须做两件事:

  • 首先,检查服务帐户service-<PROJECT_NUMBER>@cloud-ml.google.com.iam.gserviceaccount.com是否存在并具有Cloud ML Service Agent角色。如果不是,手动添加它(您不必创建它!)
  • 授予此服务帐户查询BigQuery数据集的权限。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61798710

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档