文章/答案/技术大牛

发布

社区首页 >问答首页 >ai:确定要运行哪些测试才能获得最有用的数据

问ai:确定要运行哪些测试才能获得最有用的数据
EN

Stack Overflow用户

提问于 2010-03-11 11:43:30

回答 1查看 73关注 0票数 0

这是给http://cssfingerprint.com的

我有一个系统(详见网站页面)：

visit)

categories
I需要输出与特定特征向量
匹配的类别的排序列表(带有机密性)二进制特征向量是站点is的列表&对于给定的分类而言，这个会话检测到的hit
特征向量是否有些嘈杂(对于给定的分类，站点将衰退，并且人们访问的站点通常是一个大的、非封闭的集合(用户is)
)--总特征空间约为5000万项(URL)

H 112对于任何给定的测试，我只能查询许可。0.2%的空间

I只能根据到目前为止的结果作出查询的决定，大约10~30次，并且必须在<100 is内进行(虽然需要更长的时间来进行后处理、相关的聚合等)
获得基于结果的人工智能的概率排序是比较昂贵的；理想情况下，这个决定将主要取决于一些廉价的sql查询
我有培训数据，可以权威地说任何两个特征向量都是相同的类别，而不是它们是不同的(人们有时会忘记它们的代码并使用新的代码，从而生成一个新的用户id)

。

我需要一个算法来确定哪些功能(站点)最有可能有一个高的ROI查询(也就是说，更好地区分可信的-迄今为止的类别用户，并增加确定它是任何一个给定的)。

这需要平衡利用(基于先前的测试数据的测试)和探索(还没有经过足够的测试以了解它是如何执行的)。

有一个another question处理一个先验排名，这个是关于基于目前收集到的结果的后验排序。

现在，我没有足够的数据，我可以一直测试任何其他人曾经受到打击的一切，但最终情况不会是这样，届时这个问题将需要得到解决。

我认为这在人工智能中是一个相当标准的问题--对于那些昂贵的查询，有一个廉价的启发式方法--但是我的AI类并没有提到这个问题，所以我不知道是否有一个标准的答案。因此，相关的阅读

解决这个问题的好方法是什么？

heuristics

artificial-intelligence

回答 1

Stack Overflow用户

发布于 2010-12-24 21:48:48

如果您对未采样的特性一无所知，那么在决定是探索还是利用您的数据时，您就没有什么可做的了。如果您可以在每次查询之后将ROI表示为单个数字，那么通过跟踪上置信度界限，有一种最佳的选择方法。见论文有限时间分析的多武器匪徒问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2424570

复制

相似问题

问ai:确定要运行哪些测试才能获得最有用的数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ai:确定要运行哪些测试才能获得最有用的数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ai:确定要运行哪些测试才能获得最有用的数据
EN