首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据流管道从GCS读取csv并通过对Vision和NL API的调用写入BigBuery

数据流管道从GCS读取csv并通过对Vision和NL API的调用写入BigBuery
EN

Stack Overflow用户
提问于 2016-11-22 16:17:36
回答 1查看 1.8K关注 0票数 0

我想编写一个Dataflow程序(Java和maven实现)。下面是我要执行的步骤:

  1. 数据流应该从google云存储中读取csv文件。csv文件的格式如下: 产品名称,图片网址,类别,Description1,Description2 Sakura 30062 6件皮格玛微米墨水笔集,.jpg,艺术,包括1的大小:#005 (0.20mm) CCbetter迷你热熔胶枪与25 LED胶棒高温熔化胶枪套件灵活触发DIY小型工艺项目&密封和快速修理(20瓦,蓝色),.jpg,安全和舒适的电源开关与LED灯模式。具有可拆卸和灵活的支撑,以保持枪的稳定和直立,高质量和绝缘喷嘴,没有变形的枪,甚至长期使用低于500℉。 。。。。
  2. 对于csv中的每一行,我需要选择图片URL并运行vision并获得前2个标签(例如,我们从vision获得第一个产品/行的标签L1和L2,第二个产品/行的L3和L4 )。
  3. 对于csv中的每一行,我需要连接产品名称、类别、description1和description2,并将其传递给name。从NL API的响应中,我需要选择消费品类别中的前2位实体(例如,我们从第一行得到E1和E2,第二行是E3和E4 )。
  4. 我需要根据检索到的响应创建以下结构: 产品名称,主题为樱花30062 6件皮格玛微米墨水笔,L1樱花30062 6片皮格玛微米墨水笔,L2樱花30062 6片皮格玛微米墨水笔,E1樱花30062 6片皮格玛微米墨水笔,E2 CCbetter微型热熔胶枪与25 Hot胶棒高温熔胶枪套件用于DIY小型工艺项目的柔性触发器&密封和快速修复(20瓦,蓝色),L3 CCbetter迷你热熔胶枪与25 Hot胶棒高温熔化胶枪套件用于DIY小工艺项目的柔性触发器&密封和快速修复(20瓦特,蓝色),L4 CCbetter Mini热熔胶胶Gun为DIY小工艺项目和快速修复(20瓦特,蓝色)提供灵活的触发器,E3 CCbetter迷你热熔胶枪与25 and胶棒高温熔化胶枪套件为DIY小型工艺项目的柔性触发器&密封和快速修复(20瓦,蓝色),E4。。。。
  5. 我想将这个网格(步骤4中的结构)写到Bigquery表中。

我是新来的数据流,所以任何帮助,代码片段或整个源代码或参考都是非常感谢的。

EN

回答 1

Stack Overflow用户

发布于 2016-11-22 19:17:36

您应该从阅读其中一个快速启动指南开始,并查看一些实例管道

根据您的描述,高级大纲可能是:

  1. 使用TextIO.read从GCS读取内容。请注意,它不支持忽略标头,因此您可能需要自己检测并删除它。
  2. 从文件的每一行中编写一个在URL上使用vision的DoFn。您甚至可以将其分离成多个DoFns -一个将行转换为一个URL,然后一个DoFn使用vision API,然后一个DoFn提取前两个标记。
  3. 编写另一个DoFn或一系列DoFn,以执行连接并使用NL。
  4. 编写另一个DoFnDoFn系列,以所需的输出格式生成作为TableRow的行。
  5. 使用BigQueryIO.write转换将这些内容写入BigQuery。
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40746748

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档