文章/答案/技术大牛

发布

社区首页 >问答首页 >测量数据质量的技术和实践是什么？

问测量数据质量的技术和实践是什么？
EN

Stack Overflow用户

提问于 2009-05-14 19:48:43

回答 3查看 339关注 0票数 2

如果我有一个描述物理“事物”的大型数据集，我如何去衡量这些数据与它应该表示的“事物”有多匹配呢？

举个例子，如果我有一个装有12个小部件的板条箱，我知道每个小部件重1磅，应该有一些数据质量“检查”，以确保箱子重13磅。

另一个例子是，如果我有一个灯和一个表示该灯的图像，它看起来应该像一盏灯。也许图像尺寸应该与灯尺寸具有相同的比率。

除了图像以外，我的数据都是99%的文本(包括高度、宽度、颜色……)。

我在学校学习过人工智能，但除此之外几乎没有做过什么。

标准的AI技术是要走的路吗？如果是这样，我如何将问题映射到算法？是不是有些语言在这方面比其他语言更容易？他们有更好的库吗？

谢谢。

artificial-intelligence

data-quality

algorithm

回答 3

Stack Overflow用户

发布于 2009-05-14 21:04:09

您的问题有点开放式，但听起来您想要的是machine learning领域中的"classifier“。

通常，分类器接受一段输入并对其进行“分类”，即:确定对象的类别。许多分类器提供了这种确定的概率，有些分类器甚至可能返回多个类别，每个类别都有概率。

分类器的一些示例是bayes nets、神经网络、决策列表和decision trees。贝叶斯网通常用于垃圾邮件分类。电子邮件按概率分类为“垃圾邮件”或“非垃圾邮件”。

对于您的问题，您可能希望将您的对象分类为“高质量”或“不高质量”。

你首先需要的是一堆训练数据。也就是说，您已经知道正确分类的一组对象。实现这一点的一种方法是获取一堆对象，并手动对它们进行分类。如果对象太多，一个人无法对其进行分类，您可以将它们提供给Mechanical Turk。

一旦你有了训练数据，你就可以构建你的分类器。你需要弄清楚哪些属性对你的分类是重要的。您可能需要做一些实验，看看哪种方法工作得很好。然后，让分类器从训练数据中学习。

一种经常用于测试的方法是将训练数据分成两个集合。使用其中一个子集训练分类器，然后看看它对另一个(通常较小)子集的分类效果如何。

票数 1

Stack Overflow用户

发布于 2009-05-14 21:09:55

人工智能是一条道路，自然智能是另一条道路。

你的挑战与亚马逊的机械土耳其人完美匹配。将你的数据空间分成极小的可验证原子，并将它们分配给Mechanical Turk。有一些重叠，让你自己有一种命中答案的一致性。

有一家商店，里面有一大堆零部件CAD图纸，需要按相似度分组。他们打破了它，并把它放在机械土耳其非常令人满意的结果。我可以用谷歌搜索几个小时，然后再也找不到那个链接。

有关论坛的帖子，请参阅here。

票数 1

Stack Overflow用户

发布于 2009-05-14 20:13:29

这是一个艰难的答案。例如，灯的定义是什么？我可以在谷歌上搜索一些看起来很疯狂的灯的图片。或者，查查灯的定义(http://dictionary.reference.com/dic?q=lamp)。对灯的外观没有任何物理要求。这就是AI问题的症结所在。

至于数据，您可以在项目上设置单元测试，以确保12个小部件()在widetBox()中的重量小于13磅。无论如何，您需要手头有数据才能测试这样的东西。

我希望我能在某种程度上回答你的问题。这有点复杂，我的答案也很宽泛，但希望它至少能把你带到一个好的方向。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/865329

复制

相似问题

问测量数据质量的技术和实践是什么？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问测量数据质量的技术和实践是什么？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问测量数据质量的技术和实践是什么？
EN