我希望在我的项目中使用Google 2-gram;但是数据大小使得搜索在速度和存储方面都很昂贵。
是否有可用于此目的的Web-API (任何语言版本)?网站http://books.google.com/ngrams/graph渲染图像,我可以获取数据值吗?
发布于 2012-07-02 16:36:07
好的,我找到了一种方法,使用Google BigQuery
在这种情况下,trigrams在公共领域中可用。使用Command line access为我做了这件事。
发布于 2014-03-26 01:22:48
我找到了一个很好的替代方案:Microsoft Web N-Gram
它可以通过不同的方式进行查询,包括通过REST interface直接调用GET。例如,调用URL:
http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda返回
-9.005这是短语red panda的对数似然。
此外,它比Google N-Grams更方便,因为对于给定的短语,它不会简单地输出其绝对频率,但它可以输出其联合概率、条件概率甚至后面最可能的单词。
免责声明:我不是微软的员工,我只是觉得我刚刚找到了一个很棒的服务。
https://stackoverflow.com/questions/11260833
复制相似问题