问关键词生成中标点符号去除对n字元检测的影响
EN

Data Science用户

提问于 2019-09-03 20:00:06

回答 1查看 399关注 0票数 3

在去掉标点符号和柠檬化后，我正在制作ngram。该算法是对大量文本中的关键词进行检测。

我担心有两份文件

这孩子玩那个红色的球。

和

标志是红色的。球是孩子们的玩具。

都会包含“红球”。这里有最佳实践吗？理想情况下，我不希望第二个文档具有与第二个文档相同的“红球”值。

发布于 2019-09-03 23:07:55

N-图模型通常是在分割成单词和句子之后建立的.如果数据是按句子分割的，那么很容易避免句子之间的任何重叠:一个句子地提取n个句子就可以了。如果一次提取所有的n-克更方便，可以使用填充来标记句子的开头/结尾，如下所示：

这个牌子是红色的，#SENT#，#SENT#是孩子们的玩具

处理其他没有标记句子结尾的标点符号可能要复杂一些，特别是如果你想保持关键字跨越某些标点符号的可能性(例如“红手”或"tl;dr")。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/58629

复制

相似问题

问关键词生成中标点符号去除对n字元检测的影响EN