首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >标准化数据抽取

标准化数据抽取
EN

Software Engineering用户
提问于 2016-12-06 05:52:15
回答 4查看 96关注 0票数 1

我是一个团队的一员,要求我用一个庞大的关系数据库进行一些预测分析。数据一塌糊涂。文档从平庸到不正确到缺席不等。信息散落在桌子上。

例如,如果我想将地址与电话号码相匹配,我可以查询三或四个不同的表,每个表都包含其他人所不知道的信息,也许有一些信息我不应该使用。

为了获得数据,我工作的人非常依赖于民间传说:他们知道,为了从地址中获得电话号码,你必须用这种方式来查询,因为约翰几年前就这么告诉他们了。约翰知道是因为山姆告诉他的。诸若此类。民俗学本质上没有受到质疑,而且往往也不是那么正确。

检索信息是一件痛苦的事,我们花了大部分时间从数据库中提取信息,甚至没有尝试用它做一些聪明的事情。

我想建立一些标准,我们可以在我们的所有项目中使用。此外,当我们收集民俗学的时候,我希望它能得到改进。我不想创建一个“如何做它”超级文档,可能会产生100万本地变体。所以基本上,我想我想把领域知识封装在“某样东西”里。

我想我们可以创建表格,把分散的信息集中在一个地方,从现在开始记录和查询那些新的表格,而不是依靠民间传说。所以电话号码和地址不再有三个位置,只有一个TelephoneToAddress表。

这有什么意义吗?在数据开发的背景下,这是一个好主意吗?

EN

回答 4

Software Engineering用户

发布于 2016-12-06 09:26:48

在实际中,方法是将您所了解的数据封装在数据库视图中,这些视图为底层数据提供了一致和可查询的接口。

它将逻辑放入可以使用的数据库中,并以数据库专家熟悉的术语(即SQL)表示。

票数 1
EN

Software Engineering用户

发布于 2016-12-06 07:20:30

考虑到你对数据的组织没有太多的了解。如果我是您,我会考虑收集不同的访问所需数据的民俗,并要求他们在一个图的周围建模,节点是表和字段的边。

一旦准备好了这些图集,您就可以消除多余的图(比如,如果您有三种不同的方法来查找电话号码,但您只想要其中的一种,那么您可以使用看起来性能更好的模型(或任何其他约束),并将其设置为标准,并放弃其他图形)。

一旦得到了这些图表,就可以使用它们作为模型来创建新的表。

而且/或考虑到您似乎必须做一些预测分析(这将涉及以多种方式查询数据),图形数据库似乎是聚合标准巨型数据库的合适方法。这将帮助您获得诸如表达性查询和轻松的数据关系管理等好处,这似乎正是问题的根源所在。

票数 0
EN

Software Engineering用户

发布于 2016-12-06 08:45:25

把一个死人穿上漂亮的衣服是没有意义的。它不会跳舞。如果您的数据源是烂的,不要花费一分钱来获取干净的数据。相反,整合数据的来源,并使其成为一个单一来源。如果你被迫与死者共舞,最好找另一份工作。

票数 0
EN
页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwareengineering.stackexchange.com/questions/337589

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档