我想编写一个Dataflow程序(Java和maven实现)。下面是我要执行的步骤:
我是新来的数据流,所以任何帮助,代码片段或整个源代码或参考都是非常感谢的。
发布于 2016-11-22 19:17:36
根据您的描述,高级大纲可能是:
TextIO.read从GCS读取内容。请注意,它不支持忽略标头,因此您可能需要自己检测并删除它。DoFn。您甚至可以将其分离成多个DoFns -一个将行转换为一个URL,然后一个DoFn使用vision API,然后一个DoFn提取前两个标记。DoFn或一系列DoFn,以执行连接并使用NL。DoFn或DoFn系列,以所需的输出格式生成作为TableRow的行。BigQueryIO.write转换将这些内容写入BigQuery。https://stackoverflow.com/questions/40746748
复制相似问题