首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >确定正文是否包含有效的单词或只是“胡言乱语”

确定正文是否包含有效的单词或只是“胡言乱语”
EN

Stack Overflow用户
提问于 2012-07-31 00:45:39
回答 2查看 2K关注 0票数 3

我感兴趣的是识别任何给定的文本主体是否包含有效的、实际的单词或只是胡言乱语的文本的想法。

我马上遇到的问题是,它需要与语言无关,因为我们处理的数据是高度国际化的。这意味着要么是统计方法,要么是非常大的、多语言的哈希表方法。

多语言的哈希表看起来很简单,但是很笨拙,而且可能相当慢。(或者至少在速度和准确性之间进行折衷。)

然而,我真的没有统计学方法的背景,在这种情况下对我来说是有用的,我非常感谢任何人的经验或投入,或任何其他建议。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-07-31 00:53:03

您可以使用ngram分析将您的文本与示例文本进行比较。这可以是字符,也可以是单词。

谷歌的NGram Viewer可以帮助可视化我的意思。举个例子,如果我搜索"haddock冰箱“,那么没有出现(例如,它是胡言乱语),而"stack overflow”显示,一旦计算机出现,出现的地方就会变得突出起来。

票数 2
EN

Stack Overflow用户

发布于 2012-07-31 00:53:23

你知道或者你能确定文档的语言吗?我不认为加载一种语言的字典和计算有效单词的百分比会非常慢或内存密集型。

它需要多精确?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11725914

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档