我在做日语句子的词性和词法分析项目。每句话都有自己的网页。为了使这一页更直观,我想显示一幅图片,它与句子有某种联系。例如,对于“私は学生です”一句(“我是学生”),相关的图片应该是学校、日本教科书、学生等的图片。我所拥有的是:每个单词的词性标注。我现在的方法是:从每个句子中使用2-3个名词,并使用必应图像API从搜索结果中检索第一个图像。注意:到目前为止,所有的句子处理都是用Java完成的。
但有以下几个问题:( 1)在日语中搜索名词有哪些更好(更丰富的语料库和强大的搜索功能)、Google图像API、Bing图像API、Flickr API等? 2)如何从句子中选择最重要的名词在图像搜索引擎中进行查询,而不做复杂的主题建模等。谢谢!
发布于 2011-06-08 03:15:12
我想你应该从选择は、が和を之前的任何名词开始,并给予这些优先级--可能是按照这个顺序。
但是,这假设您的词性标记足够好,可以正确地识别は=subject (我猜您知道は并不总是主题标记)。
我用这种技术查看了一堆这里的例句,发现它非常好,这是可以预期的。除了那些都不使用的地方,这是很少见的。
像这样的句子,在没有を或は的情况下,你必须考虑在它之前找一个名词。因为如果你注意到这里,人(人)这个词实际上并没有告诉你说什么。如果不正确地解析上下文,您甚至不知道这个名词是person还是people。
毎年交通事故で多くの人が死にます(每年都有很多人死于交通事故)
但基本上,您不能实现这样的优先级/后备类型系统吗?
顺便说一句,我希望你的句子都使用汉字,或者当你看到はし(在其中一个与之相关的句子中)时,你将不知道是否要展示一座桥或筷子--而错误的表示可能并不好。
发布于 2011-05-27 21:41:05
日本WordNet有指向OpenClipart图片的链接。这可能是另一个相关消息来源。他们在题为“增强日本WordNet”的论文中对此进行了描述。
https://stackoverflow.com/questions/5900413
复制相似问题