在去掉标点符号和柠檬化后,我正在制作ngram。该算法是对大量文本中的关键词进行检测。
我担心有两份文件
这孩子玩那个红色的球。
和
标志是红色的。球是孩子们的玩具。
都会包含“红球”。这里有最佳实践吗?理想情况下,我不希望第二个文档具有与第二个文档相同的“红球”值。
发布于 2019-09-03 23:07:55
N-图模型通常是在分割成单词和句子之后建立的.如果数据是按句子分割的,那么很容易避免句子之间的任何重叠:一个句子地提取n个句子就可以了。如果一次提取所有的n-克更方便,可以使用填充来标记句子的开头/结尾,如下所示:
这个牌子是红色的,#SENT#,#SENT#是孩子们的玩具
处理其他没有标记句子结尾的标点符号可能要复杂一些,特别是如果你想保持关键字跨越某些标点符号的可能性(例如“红手”或"tl;dr")。
https://datascience.stackexchange.com/questions/58629
复制相似问题