我有一个文档存储数据库(MarkLogic),里面有数十万篇原始格式的新闻文章。我正在本地机器上的一个有代表性的数据子集上构建内容推荐。我可能会使用Tfidf或Jaccard相似性来推荐文档,但我担心的是,我可能实际上如何实现我在我的大型生产数据库中提出的任何推荐算法,因为我将清理原始文本数据(即删除秒词、标点符号、词干等等)。要构建模型(例如,我有一个表示"Hello“这个词的特性--而不是"hello”、"hello“、"hello.”等等)。
像谷歌和雅虎这样的大型搜索引擎是如何做到的!实现这些类型的算法(即使用清理过的数据构建的算法,但必须对原始的、未清理的数据工作)?我无法想象他们为这类问题维护了两个原理相同的数据库--一个是干净的,另一个是不干净的。我还认为,虽然Google拥有疯狂的计算能力,但每次查询出现时,他们肯定不会清理数据库中的每个文档。
发布于 2017-06-04 10:57:56
将此问题看作是自动运行和重新运行的步骤的管道,而不仅仅是最后的ML步骤:
现在到了得分的时候:
下面是Python中的这样一个例子:
http://scikit-learn.org/stable/auto_实例/模型_选择/栅格_搜索_文本_功能_extraction.html
https://datascience.stackexchange.com/questions/19429
复制相似问题