我试图隔离pdf文件中的单个单词,但是当使用pdf-reader读取该文件时,文本出现分裂,如下所示
"A lit"
"tle "
"bit of tex"
"t"因此,我计划使用一些启发式方法将它们组合在一起。为此,我需要一个库来检查给定的字符串是否为有效的英语单词,例如
"tree".is_english? # => true
"askdjfah".is_english? # => false这真的存在吗?理想情况下,它也适用于德语文本。
如果没有,网上有没有免费的字典?我想,如果有必要的话,我可以编写自己的树结构来执行查找。
发布于 2010-02-18 06:56:44
您可以使用您喜欢的任何字典查看raspell,甚至手动调用aspell。
发布于 2010-02-18 09:13:10
如果你的系统上安装了unix工具look,你可以很容易地检查一个单词是否是一个单词。示例:
strings = %w{ cat dog tree trees treez }
strings.each do |string|
if system("look #{string} > /dev/null 2>&1")
puts "#{string} is a word"
else
puts "#{string} is not a word"
end
end以下是有关look的更多信息:http://docstore.mik.ua/orelly/unix/upt/ch27_18.htm
由于look使用/usr/dict/words中的单词字典,因此我认为可以安装德语单词字典。在Debian中查找wgerman包。我不确定如何在其他系统上安装它。
发布于 2010-02-18 06:31:42
我不知道有哪一个图书馆能做你想要的,但是有带单词的字典。在谷歌上找到它们应该不难。例如this。
https://stackoverflow.com/questions/2284884
复制相似问题