我正在做一些关于单词嵌入的实验,试图捕捉上下文感知的相似性,例如,单词对apple - hardware在水果商店的上下文中非常不同,但在IT环境中非常相似。
我的问题是,是否存在针对此挑战的基准数据集。我一直在找,但什么也找不到。
提前谢谢。
发布于 2023-03-03 18:14:48
我认为一些用于词义消歧(WSD)的数据集是一种选择。
水务署的任务是把一个歧义词分类为正确的意思。例如,“苹果”就意味着1种水果,2种是科技公司。因此,标记的数据集标识了含义的正确上下文。
我不知道任何特定的数据集,但我假设最先进的报纸提到并使用了这些数据集。
https://datascience.stackexchange.com/questions/119925
复制相似问题