首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ai:确定要运行哪些测试才能获得最有用的数据

ai:确定要运行哪些测试才能获得最有用的数据
EN

Stack Overflow用户
提问于 2010-03-11 11:43:30
回答 1查看 73关注 0票数 0

这是给http://cssfingerprint.com

我有一个系统(详见网站页面):

visit)

  • categories
  • I需要输出与特定特征向量
  • 匹配的类别的排序列表(带有机密性)二进制特征向量是站点is的列表&对于给定的分类而言,这个会话检测到的hit
  • 特征向量是否有些嘈杂(对于给定的分类,站点将衰退,并且人们访问的站点通常是一个大的、非封闭的集合(用户is)
  • )--总特征空间约为5000万项(URL)

H 112对于任何给定的测试,我只能查询许可。0.2%的空间

  • I只能根据到目前为止的结果作出查询的决定,大约10~30次,并且必须在<100 is内进行(虽然需要更长的时间来进行后处理、相关的聚合等)
  • 获得基于结果的人工智能的概率排序是比较昂贵的;理想情况下,这个决定将主要取决于一些廉价的sql查询
  • 我有培训数据,可以权威地说任何两个特征向量都是相同的类别,而不是它们是不同的(人们有时会忘记它们的代码并使用新的代码,从而生成一个新的用户id)

我需要一个算法来确定哪些功能(站点)最有可能有一个高的ROI查询(也就是说,更好地区分可信的-迄今为止的类别用户,并增加确定它是任何一个给定的)。

这需要平衡利用(基于先前的测试数据的测试)和探索(还没有经过足够的测试以了解它是如何执行的)。

有一个another question处理一个先验排名,这个是关于基于目前收集到的结果的后验排序。

现在,我没有足够的数据,我可以一直测试任何其他人曾经受到打击的一切,但最终情况不会是这样,届时这个问题将需要得到解决。

我认为这在人工智能中是一个相当标准的问题--对于那些昂贵的查询,有一个廉价的启发式方法--但是我的AI类并没有提到这个问题,所以我不知道是否有一个标准的答案。因此,相关的阅读

解决这个问题的好方法是什么?

EN

回答 1

Stack Overflow用户

发布于 2010-12-24 21:48:48

如果您对未采样的特性一无所知,那么在决定是探索还是利用您的数据时,您就没有什么可做的了。如果您可以在每次查询之后将ROI表示为单个数字,那么通过跟踪上置信度界限,有一种最佳的选择方法。见论文有限时间分析的多武器匪徒问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2424570

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档