我有文档图像形式的非结构化数据。我们正在将这些文档转换为JSON文件。我现在想为此捕获技术元数据。有人能给我一些关于在Google平台上构建非结构化数据目录的建议/最佳实践吗?
发布于 2020-07-04 15:01:18
这个答案的前提是,您没有使用任何工具来围绕您的非结构化数据创建模式并查询数据,比如BigQuery、蜂巢、普雷斯托。你只想把你的文件分类。
我有一个类似的用例,Google有一个创建自定义条目的选项。
关于在非结构化文件数据上构建数据目录的一些技巧:
我将添加一些有关ETL作业的信息,这些作业将JSON文件中的这些文档转换为标记。如执行时间,数据质量评分,用户,企业主等。
如果您想知道如何执行第2步,那么我编写了一个自动完成该操作的脚本:

所以在使用自定义条目或文件集之间,我会问您,您需要有关文件名的信息吗?
如果不是,那么文件集可能会更容易,因为在撰写本文时,它没有显示任何有关文件名的信息,而是很好地管理GCS存储桶中的文件模式:It is defined by one or more file patterns that specify a set of one or more Cloud Storage files.。
datatalog-util还可以选择丰富您的文件集,以防您只想获得有关它们的统计信息,如平均文件大小、类型等。
https://stackoverflow.com/questions/62208688
复制相似问题