区分包含适当句子的文本字符串的最佳方法是什么,即
The cat sat on the hat和包含纯胡言乱语的字符串
$ $ #@^^sSss .....$$ 2 dzw6^^^#73@2 ## @=^^在java中。
发布于 2016-09-21 20:43:17
假设你没有合适的解析器resp。或者你事先不知道这门语言,一些假设可能会对你有所帮助,例如:
正确的单词文本是由单词组成的,单词之间有空格和几个标点符号,甚至在允许任意长单词的语言中,单词的长度也有典型的范围(例如,German)
编写一个函数来测试这些假设的字符串,在现有文本上运行几个测试,以定义一个字符串必须在多大程度上符合这些规则才能被接受为“适当的文本”。
https://stackoverflow.com/questions/39608465
复制相似问题