首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >关键词生成中标点符号去除对n字元检测的影响

关键词生成中标点符号去除对n字元检测的影响
EN

Data Science用户
提问于 2019-09-03 20:00:06
回答 1查看 399关注 0票数 3

在去掉标点符号和柠檬化后,我正在制作ngram。该算法是对大量文本中的关键词进行检测。

我担心有两份文件

这孩子玩那个红色的球。

标志是红色的。球是孩子们的玩具。

都会包含“红球”。这里有最佳实践吗?理想情况下,我不希望第二个文档具有与第二个文档相同的“红球”值。

EN

回答 1

Data Science用户

发布于 2019-09-03 23:07:55

N-图模型通常是在分割成单词和句子之后建立的.如果数据是按句子分割的,那么很容易避免句子之间的任何重叠:一个句子地提取n个句子就可以了。如果一次提取所有的n-克更方便,可以使用填充来标记句子的开头/结尾,如下所示:

这个牌子是红色的,#SENT#,#SENT#是孩子们的玩具

处理其他没有标记句子结尾的标点符号可能要复杂一些,特别是如果你想保持关键字跨越某些标点符号的可能性(例如“红手”或"tl;dr")。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/58629

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档