文章/答案/技术大牛

发布

社区首页 >问答首页 >按比例搜索文档:如何维护已清理的文档？

问按比例搜索文档:如何维护已清理的文档？
EN

Data Science用户

提问于 2017-06-02 14:59:17

回答 1查看 72关注 0票数 0

我有一个文档存储数据库(MarkLogic)，里面有数十万篇原始格式的新闻文章。我正在本地机器上的一个有代表性的数据子集上构建内容推荐。我可能会使用Tfidf或Jaccard相似性来推荐文档，但我担心的是，我可能实际上如何实现我在我的大型生产数据库中提出的任何推荐算法，因为我将清理原始文本数据(即删除秒词、标点符号、词干等等)。要构建模型(例如，我有一个表示"Hello“这个词的特性--而不是"hello”、"hello“、"hello.”等等)。

像谷歌和雅虎这样的大型搜索引擎是如何做到的！实现这些类型的算法(即使用清理过的数据构建的算法，但必须对原始的、未清理的数据工作)？我无法想象他们为这类问题维护了两个原理相同的数据库--一个是干净的，另一个是不干净的。我还认为，虽然Google拥有疯狂的计算能力，但每次查询出现时，他们肯定不会清理数据库中的每个文档。

text-mining

data-cleaning

recommender-system

回答 1

Data Science用户

发布于 2017-06-04 10:57:56

将此问题看作是自动运行和重新运行的步骤的管道，而不仅仅是最后的ML步骤：

阅读原始文件。
词干，删除停止词。
执行TF-以色列国防军
关于清理数据的训练模型。

现在到了得分的时候：

加载您保存的模型。
从上面重复第2和第3步。
将已清理的数据发送到您的模型中，以便进行预测/推荐。

下面是Python中的这样一个例子：

http://scikit-learn.org/stable/auto_实例/模型_选择/栅格_搜索_文本_功能_extraction.html

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/19429

复制

相似问题

问按比例搜索文档:如何维护已清理的文档？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按比例搜索文档:如何维护已清理的文档？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按比例搜索文档:如何维护已清理的文档？
EN