文章/答案/技术大牛

发布

社区首页 >问答首页 >一种区分单词和非单词的方法

问一种区分单词和非单词的方法
EN

Stack Overflow用户

提问于 2014-04-07 21:48:19

回答 1查看 128关注 0票数 1

我正在使用Stack exchange数据转储，并尝试在语料库中识别独特和新奇的单词。我引用了一个非常大的词表，并提取了我的参考词表中没有的单词。

我遇到的问题是，许多唯一令牌是非单词的，比如目录名、错误代码和其他字符串。

有没有一种好的方法来区分类似单词的字符串和非类似单词的字符串？

我正在使用NLTK，但并不局限于该工具包。

nlp

nltk

回答 1

Stack Overflow用户

发布于 2014-04-23 07:08:17

这是一个有趣的问题，因为很难定义是什么使字符组合成为一个单词。我建议使用有监督的机器学习。首先，您需要从程序中获取当前输出，并手动将每个示例注释为word和非word。然后，想出一些特性，例如

word

之后的三个characters

last三个characters

preceeding word

的字编号

然后，使用像sci-kit learn这样的库来创建一个训练模型，该模型可以捕获这些差异，并可以预测任何字符序列的“单词”可能性。

一类分类器在这里可能会很有用。但在任何情况下，请准备一些数据，以便您可以评估此方法或任何其他方法的准确性。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22914396

复制

相似问题

问一种区分单词和非单词的方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种区分单词和非单词的方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种区分单词和非单词的方法
EN