我感兴趣的是识别任何给定的文本主体是否包含有效的、实际的单词或只是胡言乱语的文本的想法。
我马上遇到的问题是,它需要与语言无关,因为我们处理的数据是高度国际化的。这意味着要么是统计方法,要么是非常大的、多语言的哈希表方法。
多语言的哈希表看起来很简单,但是很笨拙,而且可能相当慢。(或者至少在速度和准确性之间进行折衷。)
然而,我真的没有统计学方法的背景,在这种情况下对我来说是有用的,我非常感谢任何人的经验或投入,或任何其他建议。
发布于 2012-07-31 00:53:03
您可以使用ngram分析将您的文本与示例文本进行比较。这可以是字符,也可以是单词。
谷歌的NGram Viewer可以帮助可视化我的意思。举个例子,如果我搜索"haddock冰箱“,那么没有出现(例如,它是胡言乱语),而"stack overflow”显示,一旦计算机出现,出现的地方就会变得突出起来。
发布于 2012-07-31 00:53:23
你知道或者你能确定文档的语言吗?我不认为加载一种语言的字典和计算有效单词的百分比会非常慢或内存密集型。
它需要多精确?
https://stackoverflow.com/questions/11725914
复制相似问题