There are很多方法在API中接收到了默认的"“值。
它只是字符串标记,但它的用途又是什么呢?
发布于 2018-03-26 07:55:40
许多AWS Glue PySpark动态框架方法包括一个名为transformation_ctx的可选参数,该参数用于标识作业书签的状态信息。如果不传入transformation_ctx参数,则不会为该方法中使用的动态框架或表启用作业书签。
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
发布于 2021-10-12 22:13:40
我认为这就是正在发生的事情。我希望AWS文档能明确说明这一点。
单独的书签只能让你在下一段数据(例如,S3中的下一个文件)拾取。但对于具有动态框架的复杂作业,作业本身就是有状态的。要恢复处理,您不仅需要恢复下一段输入,还需要恢复上次运行期间在动态帧中建立的状态。transformation_ctx类似于用于保存动态帧状态的文件名。你必须给它命名,因为AWS Glue不会分析你的脚本来找出哪个动态框架调用是哪个。
主要从Tracking Processed Data Using Job Bookmarks推断,这是其他答案链接的同一页面,但由于他们引用了它,因此在某种程度上澄清了文本:
ETL许多AWS Glue PySpark动态框架方法都包含一个名为transformation_ctx的可选参数,它是
operator实例的唯一标识符。transformation_ctx参数用于标识给定操作员的作业书签中的状态信息。具体地说,AWS Glue使用transformation_ctx为书签状态的键建立索引。
发布于 2020-07-05 01:42:39
正如在此link中提到的,transformation_ctx参数用于作业书签。如果您不想启用作业书签,则不要传递该参数。
此外,如果您想使用作业书签,则启用作业书签参数并使用transformation_ctx参数传递值。
https://stackoverflow.com/questions/48300719
复制相似问题