首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >测量数据质量的技术和实践是什么?

测量数据质量的技术和实践是什么?
EN

Stack Overflow用户
提问于 2009-05-14 19:48:43
回答 3查看 339关注 0票数 2

如果我有一个描述物理“事物”的大型数据集,我如何去衡量这些数据与它应该表示的“事物”有多匹配呢?

举个例子,如果我有一个装有12个小部件的板条箱,我知道每个小部件重1磅,应该有一些数据质量“检查”,以确保箱子重13磅。

另一个例子是,如果我有一个灯和一个表示该灯的图像,它看起来应该像一盏灯。也许图像尺寸应该与灯尺寸具有相同的比率。

除了图像以外,我的数据都是99%的文本(包括高度、宽度、颜色……)。

我在学校学习过人工智能,但除此之外几乎没有做过什么。

标准的AI技术是要走的路吗?如果是这样,我如何将问题映射到算法?是不是有些语言在这方面比其他语言更容易?他们有更好的库吗?

谢谢。

EN

回答 3

Stack Overflow用户

发布于 2009-05-14 21:04:09

您的问题有点开放式,但听起来您想要的是machine learning领域中的"classifier“。

通常,分类器接受一段输入并对其进行“分类”,即:确定对象的类别。许多分类器提供了这种确定的概率,有些分类器甚至可能返回多个类别,每个类别都有概率。

分类器的一些示例是bayes nets、神经网络、决策列表和decision trees。贝叶斯网通常用于垃圾邮件分类。电子邮件按概率分类为“垃圾邮件”或“非垃圾邮件”。

对于您的问题,您可能希望将您的对象分类为“高质量”或“不高质量”。

你首先需要的是一堆训练数据。也就是说,您已经知道正确分类的一组对象。实现这一点的一种方法是获取一堆对象,并手动对它们进行分类。如果对象太多,一个人无法对其进行分类,您可以将它们提供给Mechanical Turk

一旦你有了训练数据,你就可以构建你的分类器。你需要弄清楚哪些属性对你的分类是重要的。您可能需要做一些实验,看看哪种方法工作得很好。然后,让分类器从训练数据中学习。

一种经常用于测试的方法是将训练数据分成两个集合。使用其中一个子集训练分类器,然后看看它对另一个(通常较小)子集的分类效果如何。

票数 1
EN

Stack Overflow用户

发布于 2009-05-14 21:09:55

人工智能是一条道路,自然智能是另一条道路。

你的挑战与亚马逊的机械土耳其人完美匹配。将你的数据空间分成极小的可验证原子,并将它们分配给Mechanical Turk。有一些重叠,让你自己有一种命中答案的一致性。

有一家商店,里面有一大堆零部件CAD图纸,需要按相似度分组。他们打破了它,并把它放在机械土耳其非常令人满意的结果。我可以用谷歌搜索几个小时,然后再也找不到那个链接。

有关论坛的帖子,请参阅here

票数 1
EN

Stack Overflow用户

发布于 2009-05-14 20:13:29

这是一个艰难的答案。例如,灯的定义是什么?我可以在谷歌上搜索一些看起来很疯狂的灯的图片。或者,查查灯的定义(http://dictionary.reference.com/dic?q=lamp)。对灯的外观没有任何物理要求。这就是AI问题的症结所在。

至于数据,您可以在项目上设置单元测试,以确保12个小部件()在widetBox()中的重量小于13磅。无论如何,您需要手头有数据才能测试这样的东西。

我希望我能在某种程度上回答你的问题。这有点复杂,我的答案也很宽泛,但希望它至少能把你带到一个好的方向。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/865329

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档