我正在构建数据流管道来读取CSV,通过Google Cloud NLP API执行情绪分析,并将结果发送到BigQuery。
当执行情感分析的函数get的时候,pcollection给了我上面提到的错误。
我正在考虑的是将集合拆分成小集合,以便在NLP API中处理报价限制。
(p
| 'ReadData' >> beam.io.textio.ReadFromText(src_path)
| 'ParseCSV' >> beam.ParDo(Analysis())
| 'WriteToBigQuery' >> ...
)发布于 2019-08-15 22:30:04
我假设你已经开启了自动缩放,因为它是默认开启的。尝试将其关闭,然后将工作计数限制设置为较小的值,例如5。这将为处理包的底层工作线程的数量设置一个上限。在此基础上,您可以尝试使用实例类型(核数),以最大化吞吐量。
默认限制是每分钟600个请求,这是相当低的。您还可以请求增加NLP的配额。我的建议是既做固定池节流,然后增加配额,以拨入您的挂钟时间目标。
https://stackoverflow.com/questions/57504402
复制相似问题