首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一种区分单词和非单词的方法

一种区分单词和非单词的方法
EN

Stack Overflow用户
提问于 2014-04-07 21:48:19
回答 1查看 128关注 0票数 1

我正在使用Stack exchange数据转储,并尝试在语料库中识别独特和新奇的单词。我引用了一个非常大的词表,并提取了我的参考词表中没有的单词。

我遇到的问题是,许多唯一令牌是非单词的,比如目录名、错误代码和其他字符串。

有没有一种好的方法来区分类似单词的字符串和非类似单词的字符串?

我正在使用NLTK,但并不局限于该工具包。

EN

回答 1

Stack Overflow用户

发布于 2014-04-23 07:08:17

这是一个有趣的问题,因为很难定义是什么使字符组合成为一个单词。我建议使用有监督的机器学习。首先,您需要从程序中获取当前输出,并手动将每个示例注释为word和非word。然后,想出一些特性,例如

word

  • ...

之后的三个characters

  • last三个characters

  • preceeding word

  • 的字编号

然后,使用像sci-kit learn这样的库来创建一个训练模型,该模型可以捕获这些差异,并可以预测任何字符序列的“单词”可能性。

一类分类器在这里可能会很有用。但在任何情况下,请准备一些数据,以便您可以评估此方法或任何其他方法的准确性。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22914396

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档