我正在使用Stack exchange数据转储,并尝试在语料库中识别独特和新奇的单词。我引用了一个非常大的词表,并提取了我的参考词表中没有的单词。
我遇到的问题是,许多唯一令牌是非单词的,比如目录名、错误代码和其他字符串。
有没有一种好的方法来区分类似单词的字符串和非类似单词的字符串?
我正在使用NLTK,但并不局限于该工具包。
发布于 2014-04-23 07:08:17
这是一个有趣的问题,因为很难定义是什么使字符组合成为一个单词。我建议使用有监督的机器学习。首先,您需要从程序中获取当前输出,并手动将每个示例注释为word和非word。然后,想出一些特性,例如
word
之后的三个characters
然后,使用像sci-kit learn这样的库来创建一个训练模型,该模型可以捕获这些差异,并可以预测任何字符序列的“单词”可能性。
一类分类器在这里可能会很有用。但在任何情况下,请准备一些数据,以便您可以评估此方法或任何其他方法的准确性。
https://stackoverflow.com/questions/22914396
复制相似问题