我计划使用图像网为语言任务构建一个同义词列表。根据Image-Net API文档的说法
ImageNet基于WordNet 3.0。为了唯一地识别一个同步集,我们使用"WordNet ID“(wnid),它是POS (即词性的一部分)和WordNet的同步偏移量的连接。
这一切看起来都很好,但是关于如何为WordNet中的同步集获取同步偏移量,没有一点文档。这个RiTaWN教程解释了如何获得感测ID,但是它们不是相同的值。
如何获得同步偏移量,以便开始使用Image来构建可画名词和同义词列表?
发布于 2014-04-13 01:47:02
在index.noun中,有一个更有趣的条目:
car n 5 6 @ ~ #m #p %p - 5 2 02958343 02959942 02960501 02960352 02934451数字是你想要的“同步偏移”。因此,取汽车行中的第一个数字,02958343,以第二个字段"n“作为前缀(当然,index.noun中的所有条目在第二个字段中都有"n”),您将得到n02958343,它给您提供:http://image-net.org/synset?wnid=n02958343
如果您尝试使用列表中的第五个数字,那么您将得到缆车图像。
顺便说一句,其余index.noun字段的文档如下:https://wordnet.princeton.edu/wordnet/man/wndb.5WN.html
通过data.noun文件(也就是存储同步集之间所有链接的文件)使用相同的同步偏移量。
顺便说一句,同步抵消了不同版本之间的变化,而ImageNet似乎与Wordnet3.0相关联(或者打算破坏每个Wordnet版本的所有URL )。在Wordnet3.1中,这就是汽车的样子:
car n 5 6 @ ~ #m #p %p - 5 2 02961779 02963378 02963937 02963788 02937835 (但http://image-net.org/synset?wnid=n02961779没有找到汽车图片)
这就是为什么当我设计MLSN时,我使用"06car0“来表示car的第一个同步集(06 noun.artifact,参见WordNet文档);然后这个唯一的键可以保存WordNet更新。不幸的是,它没有流行,所以人们仍然使用Wordnet同步偏移量。
https://stackoverflow.com/questions/23000696
复制相似问题