首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >区分包含单词的文本块和包含乱码的文本块的最佳算法

区分包含单词的文本块和包含乱码的文本块的最佳算法
EN

Stack Overflow用户
提问于 2016-09-21 13:52:02
回答 1查看 32关注 0票数 0

区分包含适当句子的文本字符串的最佳方法是什么,即

代码语言:javascript
复制
The cat sat on the hat

和包含纯胡言乱语的字符串

代码语言:javascript
复制
$ $ #@^^sSss .....$$ 2 dzw6^^^#73@2 ## @=^^

在java中。

EN

回答 1

Stack Overflow用户

发布于 2016-09-21 20:43:17

假设你没有合适的解析器resp。或者你事先不知道这门语言,一些假设可能会对你有所帮助,例如:

正确的单词文本是由单词组成的,单词之间有空格和几个标点符号,甚至在允许任意长单词的语言中,单词的长度也有典型的范围(例如,German)

  • typically,a

编写一个函数来测试这些假设的字符串,在现有文本上运行几个测试,以定义一个字符串必须在多大程度上符合这些规则才能被接受为“适当的文本”。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39608465

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档