首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏蛋未明的专栏

    wikidata研究和应用

    后面了解到wikidata,其完全是wikipedia的数据库。 ,那么接下来我们就看看如何一步步实践在wikidata上利用sparql语法查询到我们需要的内容。 查询示例 wiki是有提供一些查询命令,这些都是一些示例,[wikidata-query-example](https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service 在使用https://query.wikidata.org/的时候,打开浏览器network,你会发现其每次运行时候会发生一条请求,该请求样式如下: https://query.wikidata.org 如果没有,就尝试使用wikidata来获取你自己想要的数据吧。 本次研究人分析人员:corbinli、danhuang。

    2.8K40发布于 2020-03-18
  • 来自专栏专知

    Wikidata】维基数据详解

    【导读】维基数据(Wikidata)是一个具有超过4600万个数据项的维基数据库,本文介绍了利用SPARQL方法对维基数据进行查询等操作,以便大家对维基数据有更深入的了解。 Wikidata也是维基媒体基金会的一个项目。 尤其是: “Wikidata作为其维基媒体姊妹项目结构化数据的中央存储,包括维基百科(...)。” 可以将Wikidata看成具有超过4600万个数据项的维基数据库(2018年4月)。 根据维基媒体的使命,每个人都可以添加和编辑数据,并免费使用它。 ? ? ? 使用Wikidata查询服务作为端点为我们提供了以下结果: https://query.wikidata.org/ 现在,我们只能获得成员国的标识码。 在Wikipedia中打开法国以查看其Wikidata项目: ? 2. 检查WikiData项: ? 在这里,你只需将鼠标悬停在关系“成员”和“欧盟”项目上即可获得他们的标识码。

    5K20发布于 2018-06-05
  • 来自专栏陈黎栋的专栏啦

    [Java数据处理]4GB文本文件处理一例

    in.triple的文件格式 <http://wikidata.dbpedia.org/resource/Q20> <http://dbpedia.org/ontology/description> " <http://wikidata.dbpedia.org/resource/Q20> <http://dbpedia.org/ontology/description> "pagilian idiay 3,<http://wikidata.dbpedia.org/resource/Q17> 4,<http://wikidata.dbpedia.org/resource/Q18> 5,<http:// wikidata.dbpedia.org/resource/Q15> 6,<http://wikidata.dbpedia.org/resource/Q26> 7,<http://wikidata.dbpedia.org /resource/Q21> 8,<http://wikidata.dbpedia.org/resource/Q22> 9,<http://wikidata.dbpedia.org/resource/Q27

    57520发布于 2020-02-18
  • 来自专栏相约机器人

    多语言互通:谷歌发布实体检索模型,涵盖超过100种语言和2000万个实体

    这个知识库收集了来自 Wikipedia, Wikidata 和 CIA World Factbook 的数千亿事实。 谷歌的研究人员使用了所谓的增强型双编码器检索模型(enhanced dual encoder retrieval models )和 WikiData 作为他们的知识库,这些知识库包括大量不同的实体。 WikiData 包含名称和简短的描述,通过与所有维基百科版本的紧密联系,它还将实体连接到从相应语言的维基百科页面提取出来的描述和其他特性当中。 研究人员从104种语言的与 WikiData 实体相关的大规模数据集中提取了6.84亿个 mention ,他们说这个数据集至少是以前只用英语进行实体链接工作时使用的数据集的六倍。 通过对 Wikipedia 和 WikiData 的操作,使用增强双编码检索模型和基于频率的评估实验提供了令人信服的证据,证明用一个涵盖100多种语言的单一模型来执行这项任务是可行的。

    1K20发布于 2020-11-20
  • spaCy实体链接:将文本提及与知识库关联

    将命名实体解析为知识库中的概念将词汇信息"落地"到"现实世界"允许将数据库事实与文本信息完全集成实体链接框架步骤0:假设原始文本已完成NER,因此已有实体及其标签步骤1:候选实体生成 - 为提及创建可能的WikiData 每个别名-实体对在维基百科中至少出现5次每个别名/提及保留10个候选实体最终结果:约110万实体和150万别名存储100万实体和150万别名及预训练的64维实体向量需要350MB文件知识库仅存储了所有WikiData 的预测与黄金标签一致5.2%不一致7.1%存在歧义或需要句子外的上下文其他问题:无句子上下文的实体(如枚举、表格、"参见"部分)→ 需要从数据集中移除有些链接不是真正的命名实体,而是指向"隐私"等其他概念 → 需要修剪WikiData 个实体上的准确率:随机基线:29.6%仅EL:44.7%先验概率基线:64.4%EL+先验概率:67.0%理想KB上限:77.2%发现:16%不是合适的实体/句子或是日期实体(如"近两个月")9%指向WikiData 核心消除指代有助于跨句子链接概念,整个指代链应链接到同一WikiData ID。当前EL算法针对句子级别预测进行训练。

    5200编辑于 2026-03-18
  • 来自专栏机器学习原理

    sparql语句进行查询

    birthdate """ wikidata 1、网站:https://query.wikidata.org/ 2、sparql语句查询有哪些猫 SELECT ?item ? 步骤1:从一个实体出发 wikidata查一个具体的皇帝 找到属性和实体代号 P39职业,Q268218,中国皇帝 SELECT ?person ?

    2.7K30发布于 2019-05-07
  • 来自专栏DeepHub IMBA

    5分钟NLP-知识问答(KBQA)两种主流方法:基于语义解析和基于信息检索的方法介绍

    married to Michelle Obama on 3 October 1992 at Trinity United Church”,会被解析为以下的集合 一般常用的的知识库有DBpedia和WikiData DBpedia https://www.dbpedia.org/ : WikiData https://www.wikidata.org/wiki/Wikidata:Main_Page 作者:Fabio

    1K10编辑于 2022-11-11
  • 来自专栏数据派THU

    5分钟NLP-知识问答(KBQA)两种主流方法:基于语义解析和基于信息检索的方法介绍

    一般常用的的知识库有DBpedia和WikiData。 简单问题vs复杂问题 KBQA的早期工作专注于简单的问题回答,其中只涉及一个事实。例如,“JK罗琳在哪里出生?” DBpedia https://www.dbpedia.org/ : WikiData https://www.wikidata.org/wiki/Wikidata:Main_Page 编辑:王菁

    1.1K21编辑于 2022-08-29
  • 来自专栏AI研习社

    学界 | 史上最大的实体关系抽取数据集!清华大学自然语言处理团队发布 FewRel

    (论文查看地址:http://t.cn/EMQDhMb) FewRel 是以 Wikipedia 作为语料库,以 Wikidata 作为知识图谱构建的。 ? 图 1: Wikidata 和 Wikipedia(图来自 Wikidata 和 Wikipedia 官网) Wikipedia 作为互联网上的自由百科全书,因其巨大的体量和蕴含的丰富知识而备受 NLP 与其相对应的知识图谱 Wikidata,则是 Wikipedia 中知识的结构化。目前 Wikidata 中已有超过 5000 万个实体,千余种关系。

    2.1K41发布于 2019-05-08
  • 来自专栏AI研习社

    Github 项目推荐 | 农业知识图谱(KG):农业领域的信息检索,命名实体识别

    导入完成后再把值改回去) 进入/wikidataSpider/wikidataProcessing中,将new_node.csv,wikidata_relation.csv,wikidata_relation2 c:NewNode) ASSERT c.title IS UNIQUE //导入hudongItem和新加入节点之间的关系 LOAD CSV WITH HEADERS FROM "file:///wikidata_relation2 CREATE (entity1)-[:RELATION { type: line.relation }]->(entity2) LOAD CSV WITH HEADERS FROM "file:///wikidata_relation.csv

    3.5K10发布于 2018-07-26
  • 来自专栏华章科技

    吐血整理!12种通用知识图谱项目简介

    除了上述商业通用图谱以外,DBpedia、Yago、Wikidata、BabelNet等开放域百科知识图谱也蓬勃发展。 目前Freebase正在向Wikidata上迁移以进一步支持谷歌语义搜索。 4. Wikidata Wikidata顾名思义,与维基百科有着千丝万缕的联系。它由维基媒体基金会发起和维持,目前是一个可以众包协作编辑的多语言百科知识库。 此外,Wikidata利用参考文献标识每个条目的来源或出处,通过备注处理复杂多元表示,刻画多元关系。 截至2017年,Wikidata能够支持近350种语言、2500万个实体及7000万个声明,支持数据集的完全下载[5]。

    4.2K10编辑于 2022-04-14
  • 来自专栏深度学习自然语言处理

    ACL2022 | 自描述网络的小样本命名实体识别

    因为概念是全局的,所以我们可以在 SDNet上使用大规模语料库预训练,并且可以很容易的使用 web 资源,具体来说,我们通过使用 wikipedia 锚词到 wikidata items 之间的连接构建了包含 3.1 SDNet Pre-training 本文使用 wikipedia 和 wikidata 数据来构建数据集。 首先,从 wikidata 中构建实体字典。 我们将 wikidata 中每个 item 作为实体并且使用 “instance of”、“subclass of” 和 “occupation” 三个属性值作为其对应的实体类型。 然后对于每一个提及,通过将其连接到 wikidata 中 item 的类型来识别实体类型。如果 wikidata 的 item  没有实体类型,则给其分配 other。

    1K20编辑于 2022-08-26
  • 来自专栏arXiv每日学术速递

    自然语言处理学术速递[12.6]

    本次调查主要关注四个主题:(1)链接数据集的Wikidata实体存在哪些,它们的使用范围有多广,以及它们是如何构建的?(2) Wikidata的特性对实体链接数据集的设计有影响吗?如果有,如何影响? (3) 当前的实体链接方法如何利用Wikidata的特定特性?(4) 现有实体链接方法未利用哪些Wikidata特性? 这项调查显示,当前Wikidata特定实体链接数据集的注释方案与其他知识图(如DBpedia)的注释方案没有区别。因此,自然适合Wikidata的多语言和时间相关数据集的潜力并没有被释放。 此外,我们还表明,大多数实体链接方法使用Wikidata的方式与任何其他知识图使用Wikidata的方式相同,没有机会利用Wikidata特定的特性来提高质量。 许多方法还包括来自Wikipedia的信息,它很容易与Wikidata结合,并提供Wikidata所缺乏的有价值的文本信息。

    79220编辑于 2021-12-09
  • 来自专栏Rust语言学习交流

    【Rust日报】2020-08-21 RustConf研讨会在线举办

    /oxigraph_wikibase --mediawiki-api https://test.wikidata.org/w/api.php --mediawiki-base-url https://test.wikidata.org /wiki/ --namespaces 0,120 --file test.wikidata ## wikibase server from docker image $ docker

    92720发布于 2020-08-31
  • 来自专栏技术小白的奇思妙想

    【玩转腾讯云】在云服务器上部署私有笔记服务

    后台管理的地址为 http://ip : 端口/admin http://域名: 端口/admin https://域名: 端口/admin 3、数据备份(数据文件及数据库) 一般来说为知笔记是存储在 wikidata 文件夹,那么只需要定期备份 wikidata 文件夹。 如果数据存储位置设置为【腾讯云 COS 】,那么 wikidata 目录中的 data_root 文件夹已经迁移至云端,其他文件(数据库等)依然保留在本地。 那么需要备份本地的 wikidata 目录和 COS 存储桶中的全部文件。 COS 存储桶中的的 文件 备份方法请看 【玩转腾讯云】腾讯云COS双重备份-版本控制+跨地域备份 。

    11.9K155发布于 2020-04-15
  • 知识图谱嵌入中的社会偏见缓解技术

    偏见测量方法在AKBC知识图谱偏见研讨会上发表的研究中,使用标准嵌入技术分析Wikidata中人物职业与性别、种族、宗教等人口因素的关联。 数据显示,Wikidata中男性实体数量是女性的四倍多,这种现实世界的社会偏见确实被嵌入模型捕获。

    20710编辑于 2025-08-12
  • 来自专栏NLP/KG

    手把手教学构建农业知识图谱:农业领域的信息检索+智能问答,命名实体识别,关系抽取,实体关系查询

    labels.txt: 5000多个手工标注的实体类别 predict_labels.txt: KNN算法预测的15W多个实体的类别 /wikidataSpider/wikidataProcessing/wikidata_relation.csv : predict_labels.txt中实体在wikidata中对应的三元组关系 attributes.csv: 部分实体的属性(互动百科页面中直接得到) wikidataSpider/weatherData 导入完成后再把值改回去) 进入/wikidataSpider/wikidataProcessing中,将new_node.csv,wikidata_relation.csv,wikidata_relation2 c:NewNode) ASSERT c.title IS UNIQUE //导入hudongItem和新加入节点之间的关系 LOAD CSV WITH HEADERS FROM "file:///wikidata_relation2 CREATE (entity1)-[:RELATION { type: line.relation }]->(entity2) LOAD CSV WITH HEADERS FROM "file:///wikidata_relation.csv

    2.1K20编辑于 2023-07-07
  • 来自专栏AI科技评论

    伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱!

    首先来简单介绍一下知识图谱: 现有大型知识图谱,诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储。 然而长期以来,知识图谱的构建通常基于手工标注,耗时耗力(例如Freebase和Wikidata)。 更进一步的,我们在更大规模的Wikidata上验证了我们的结果。 表3中实验结果表明,在更大规模的语料上,相比TAC KBP,MAMA取得了比开放信息抽取方法好得多的表现。 值得注意的是,Wikidata中知识的构建,很多并非从Wikipedia的文本得来,所以实验的F1表现要比小规模、完全从目标文本中构建的TAC KBP要低一些。 包含已经存在于现有Wikidata中的知识,例如,(鲍勃·迪伦,职业,歌手),(鲍勃·迪伦,获奖,格莱美终身成就奖),(鲍勃·迪伦,妻子,萨拉·朗兹)等。

    2.1K20发布于 2020-11-06
  • 跨语言复杂问答数据集Mintaka发布

    该数据集还通过将问题和答案文本中的实体链接到Wikidata ID,将其建立在Wikidata知识图谱之上。构建数据集我们将复杂问题定义为任何需要超越单一事实查询操作的问题。 ,工作人员可以识别电影《逃离德黑兰》作为一个实体并链接到其Wikidata URL。Mintaka问题示例如下:Q:哪部吉卜力工作室的电影在烂番茄上的评分最低?

    14810编辑于 2025-12-18
  • 来自专栏新智元

    BERT的新草料!Google从知识图谱自动生成文本,预训练史诗级增强!

    文中使用的数据集主要是公开的英文知识图谱Wikidata KG,模型能够将其转换为自然语言文本,以创建一个合成语料库。 为了将 Wikidata KG 文本转换为合成的自然的、流畅的语句,Google还开发了一个名为Text from KG Generator(TEKGEN)的语言化管道,它由以下几个部分组成: 一个大型启发式构造的 、能够自动对齐 Wikipedia 和 Wikidata KG 三元组的训练语料库,一个将 KG 三元组转换为文本的文本到文本生成器(T5) ,一个生成三元组组合语言的实体子图创建器,以及一个消除低质量输出的后处理过滤器 输出结果是一个包含整个 Wikidata KG 作为自然文本的语料库,我们称之为知识增强语言模型语料库。它由大约18M 个句子组成,包含 约45M 个三元组和约 1500个关系。

    70930编辑于 2023-05-22
领券