我在PDF中找到了一个公共领域的拉丁语<->葡萄牙语字典,我想将其转换为纯文本,解析并用作程序的数据库。然而,在一些测试之后,我有点怀疑。看看original file和resulting text of gocr吧。有没有希望在某种方法上达到99%+的准确性?我想到了reCaptcha的数据库,但我猜它是Google的财产,不是吗?
谢谢!
发布于 2011-03-22 23:28:09
另一种方法是使用免费提供的字典文件之一,如http://www.brothersoft.com/downloads/dictionary-database.html
发布于 2011-03-23 00:46:43
或者WordNet。
编辑:我刚刚发现这是一本拉丁语/葡萄牙语词典,所以WordNet显然不好用。
https://stackoverflow.com/questions/5393576
复制相似问题