首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于非结构化数据构建Google平台数据目录

基于非结构化数据构建Google平台数据目录
EN

Stack Overflow用户
提问于 2020-06-05 05:23:18
回答 1查看 420关注 0票数 1

我有文档图像形式的非结构化数据。我们正在将这些文档转换为JSON文件。我现在想为此捕获技术元数据。有人能给我一些关于在Google平台上构建非结构化数据目录的建议/最佳实践吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-04 15:01:18

这个答案的前提是,您没有使用任何工具来围绕您的非结构化数据创建模式并查询数据,比如BigQuery蜂巢普雷斯托。你只想把你的文件分类。

我有一个类似的用例,Google有一个创建自定义条目的选项。

关于在非结构化文件数据上构建数据目录的一些技巧:

  1. 在JSON文件上使用有意义的文件名。那样的话,寻找它们就会变得更容易。
  2. 由于您已经在使用GCP,所以使用他们的托管数据目录,并利用他们的GCP API将文件元数据摄取到其中。
  3. 如果还想在JSON文件中查找敏感数据,可以运行DLP在他们身上
  4. 使用数据目录标签丰富文件元数据。该链接上的教程展示了如何在大查询表上执行该操作,但您也可以在自定义条目上这样做。

我将添加一些有关ETL作业的信息,这些作业将JSON文件中的这些文档转换为标记。如执行时间,数据质量评分,用户,企业主等。

如果您想知道如何执行第2步,那么我编写了一个自动完成该操作的脚本:

链接到GitHub。另一种选择是使用数据目录文件集

所以在使用自定义条目文件集之间,我会问您,您需要有关文件名的信息吗?

如果不是,那么文件集可能会更容易,因为在撰写本文时,它没有显示任何有关文件名的信息,而是很好地管理GCS存储桶中的文件模式:It is defined by one or more file patterns that specify a set of one or more Cloud Storage files.

datatalog-util还可以选择丰富您的文件集,以防您只想获得有关它们的统计信息,如平均文件大小、类型等。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62208688

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档