3个月前,就在freebase.com上线的第二天,我在日志里惊呼"这将是互联网上继Wikipedia之后又一个杀手级的应用"。可惜当时freebase.com不对外开放,我不能进去看个究竟。 Freebase的作用 首先,我来说一下,这个网站到底是干什么的。 简单说,Freebase是个类似wikipedia的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。 举例来说,将来可以很方便地在Freebase中查到"出生于1946年的美国电影导演的名单",然后你就可以根据这份名单,立即从Freebase中提取他们每个人的简历。 推而广之,Freebase的目标是包含地球上的所有信息,因此可以设想,理论上,将来可以从freebase中得到任何信息。 Freebase的结构 Freebase的结构分为三层:Domain -> Type -> Topic。
我之所以今天会去看ODP,完全是因为Tim O'Reilly提到昨天(2007年3月9日)有一个新网站FreeBase.com上线。FreeBase的目标是收集和整理世界上所有的信息。 我认为,FreeBase将是互联网上继Wikipedia之后又一个杀手级的应用。我从寥寥几行的介绍中,已经得到了极大的启发。可惜现在,FreeBase只有受到邀请的人才能加入,我进不去,真是着急啊!
它是我这几天研究freebase的一个试验性作品,目的是为了掌握freebase的使用方法和数据结构。但是现在看上去,这个小作品本身似乎也有一定的使用价值。 我把它单独放出来,明天再来详细谈我对freebase的认识。 (完)
2012年谷歌基于Freebase正式发布Google Knowledge Graph。 目前微软和谷歌拥有全世界最大的通用知识图谱,脸书拥有全世界最大的社交知识图谱。 Freebase Freebase是Google Knowledge Graph的早期版本,由MetaWeb公司在2005年建立,通过开源免费共享方式众筹数据[3]。 Freebase通过对象、事实、类型和属性进行知识表示,其中一个重要的创新在于采用复合值类型(Compound Value Type,CVT)来处理多元关系,也就是说一个关系包含多个子二元关系。 目前Freebase正在向Wikidata上迁移以进一步支持谷歌语义搜索。 4. CN-DBpedia的概念本体复用已有成熟的概念体系(如DBpedia、YAGO、Freebase等)。
收购的Freebase中包含了上千万个实体,共计19亿条triple。 与Freebase相比,这样得到的知识更加具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“奥巴马出生在火奴鲁鲁。” Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6. Cai Q, Yates A. 以上论文几乎都使用了Freebase作为knowledge base,并且在WebQuestion数据集上进行过测试,这里给出各种方法的效果对比图,给大家一个更加直观的感受。 ? 注意,这里对答案进行了限制,让AMT的工人只能把答案设置为Freebase上的实体(entity),实体列表,值(value)或者no-answer。
该方法来自约翰·霍普金斯大学Yao X, Van Durme B.的 Information Extraction over Structured Data: Question Answering with Freebase 接下来,我们去寻找和实体关系brother相关的实体(事实上freebase里没有brother这个实体关系,而是sibling,我们需要进行一个简单的推理),最后得到答案。 在知识库中,如果同一个topic节点的同一个关系对应了多个实体,如Justin Bieber的preon.sibing_s关系可能对应多个实体,那么freebase中会设置一个虚拟的dummy node 作者先通过命名实体识别提取问题中的所有命名实体(如果提取不到一个命名实体,则使用名词短语代替),将所有命名实体输入到Freebase Search API中,选取返回排名最高的作为最终的主题词,使用Freebase 当然使用Freebase Search API这个方法可能会错过真正和答案相关的主题词(topic),作者也测试了模型在真实的主题词(Gold Retrieval)下的F1 score,结果如下: ?
PyTorch-BigGraph 评估结果 为了准确评估 PBG 的性能,我们采用包含超过 1.2 亿个节点与 27 亿个边缘的开源 Freebase 知识图。 此外还采用较小的 Freebase 知识图子集——FB15k,它包含了 15,000个节点和600,000个边缘,一般被用作多关系嵌入方法的基准。 ? PBG 基于 Freebase 知识图所训练的嵌入 t-SNE 图。如国家、数字和科学期刊之类的实体具有类似的嵌入情况。 接着,我们使用 PBG 训练完整的 Freebase 图嵌入。该大小的数据集能够适应现代服务器,但 PBG 的分区与分布式执行可以有效减少内存使用与训练时间。 虽然我们选择在 Freebase 这样的数据集上演示 PBG,但 PBG 的最终目是想处理哪些10至100倍大的图像。我们鼓励从业者们在更大的数据集上进行实验。
PyTorch-BigGraph 评估结果 为了准确评估 PBG 的性能,我们采用包含超过 1.2 亿个节点与 27 亿个边缘的开源 Freebase 知识图。 此外还采用较小的 Freebase 知识图子集——FB15k,它包含了 15,000个节点和600,000个边缘,一般被用作多关系嵌入方法的基准。 ? PBG 基于 Freebase 知识图所训练的嵌入 t-SNE 图。如国家、数字和科学期刊之类的实体具有类似的嵌入情况。 接着,我们使用 PBG 训练完整的 Freebase 图嵌入。该大小的数据集能够适应现代服务器,但 PBG 的分区与分布式执行可以有效减少内存使用与训练时间。 虽然我们选择在 Freebase 这样的数据集上演示 PBG,但 PBG 的最终目是想处理哪些10至100倍大的图像。我们鼓励从业者们在更大的数据集上进行实验。
人工创建:Cyc 和 Freebase 对于人工创建的知识图谱,我们必须评估提供这些陈述语句(statement)的工作量,从而估计平均成本。 Freebase 是由志愿者共同完成的,因此其工作量更难判断。截止至 2011 年 4 月份,创建英文维基百科的估计时长为 41M 工时。 借鉴这个成本,我们可以假设 Freebase 每一条陈述语句的成本也是 2.25 美元。 这比 Cyc 的平均成本低了一半,这种低成本也是合理的,因为 Cyc 是由人类专家构建的,而 Freebase 由非专业人员创建。 总的而言,对于包含 30 亿事实(fact)的最新版 Freebase,它的总成本约为 67.5 亿美元($6.75B)。
用户可以通过 pip 直接安装 DGL-KE: pip install dglke 以下命令展示了如何在 EC2 p3.16xlarge 上使用 8 台 GPU 训练 Freebase 知识图谱(86M dglke_train --model TransE_l2 --dataset Freebase --batch_size 1000 \ --neg_sample_size 200 --hidden_dim 我们的 benchmark 显示,对于 Freebase 这个大规模知识图谱数据集 (86M nodes,338M edges),DGL-KE 可以在 EC2 p3.16xlarge (8 GPU)上 DGL-KE vs Pytorch-Big-Graph on Freebase DGL-KE 的 github 项目主页: https://github.com/awslabs/dgl-ke DGL-LifeSci
我们用 Freebase 作为结构化知识,在纽约时报的文本上进行回标。作为过滤噪音的方法,我们用了多示例学习。在传统的方法中,假设回标的每个句子都表示这种关系,它的噪音就很多。 这是我们标注的知识库和语料库,Freebase 和纽约时报。 我们如果这样做的话,可以达到相对比较好的性能(大概在 70% 多的水平),虽然比较低,但已经比传统方法高,因为这是在 Freebase 的很多关系的类别上做的,能做到这个程度,其实就可以看到希望。 还有一个更重要的特征,中间这个是 Marriage,在 Freebase 里面表示为 ID 号,在文本当中不可能找到对应的位置,所以这个最鲜明的特征我们找不着,所以回标的过程中遇到了非常大的困难。 今年,我们 ACL-2018 的一件工作也是在 Freebase 上做的,我们在一个具体的金融领域做一些项目(不是在通用领域),能不能发挥更好的作用。
在论文中,作者还发布了工作中使用的组合Freebase Questions数据集。 1 组合性测量 为了测量一个系统的泛化能力,首先要理解示例如何生成的基本原理。 组合性的Freebase问题数据集(CFQ) 为了进行准确的组合性实验,作者创建了CFQ数据集,这是一个从公共Freebase知识库生成的自然语言问答的真实大型数据集,虽然简单,但是非常强大。 在具体的实验中,作者将重点放在了语义解析上面,其中输入是一个自然语言问题,输出是一个查询,当对Freebase执行查询时,会产生正确的结果。
Embedding graphs, e.g. multi-relational graphs such as Freebase. /query_predict <model> k [basedocs] (4) 对多关系图的向量表示(知识表示),测试数据为freebase examples/multi_relation_example.sh
根据 DGL-KE 发布的 Freebase 数据集 (超过 8600 万节点,3 亿条边)Benchmark 显示,在 AWS EC2 平台上,一台 p3.16xlarge (8 GPUs)可以在 100 在 Freebase 这个数据集的实际训练中,METIS 算法可以节省将近 90% 的模型网络传输带宽,从而使分布式训练达到线性加速比。DGL-KE 的分布式训练使用了 DGL-KVStore 组件。 除此之外,DGL-KE 在两个小数据集 FB15k,wn18,以及一个大数据集 Freebase 上提供了训练 Benchmark,用户可以直接通过提供的脚本复现训练结果。 和已有的开源框架相比,DGL-KE 的性能优势明显,如下结果展示了 DGL-KE 与 Graphvite 在 FB15k 数据集上的性能比较,以及和 Pytorch-Biggraph 在 Freebase
这里我们使用经典的 Freebase 数据集作为示例,Freebase 是一个大规模的开放式知识图谱,包含了大量实体及其相互关系。 tensorflow as tffrom tensorflow.keras.layers import Densefrom networkx.readwrite import json_graph# 加载Freebase 知识图谱数据def load_graph_data(): with open('freebase_data.json') as f: data = json.load(f) graph
IP_LIST=['google.com', 'yahoo.com', 'yelp.com', 'amazone.com', 'freebase.com yelp.com Mon Aug 11 15:01:58 2014 DOING PING FOR amazone.com Mon Aug 11 15:01:58 2014 DOING PING FOR freebase.com FOR amazone.com Mon Aug 11 15:02:12 2014 amazone.com RETURNED 1 Mon Aug 11 15:02:12 2014 WAITING FOR freebase.com Mon Aug 11 15:02:12 2014 freebase.com RETURNED 0 Mon Aug 11 15:02:12 2014 WAITING FOR baidu.com Mon
本文将对 CNN、GRU 和 LSTM 在很多门类的 NLP 任务上进行系统的对比,诸如:情感/关系分类、文本含义、答案选择、在 Freebase 上做问题关系匹配、 Freebase 上的答疑路径以及词性标注
OpenKE 平台,整合了 TransE、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx 等算法的统一接口高效实现,以及面向 WikiData 和 Freebase Wikidata:http://openke.thunlp.org/download/wikidata Freebase:http://openke.thunlp.org/download/freebase
此外,PBG 还使用 Freebase 知识图谱进行了基准测试,该知识图谱包含超过 1.2 亿个节点和 27 亿条边。 另外还使用 Freebase 的一个小子集 FB15k 进行了测试,FB15k 包含 15000 个节点和 600000 条边,常被用作多关系嵌入方法的基准。 但是,当在完整的 Freebase 数据集上评估时,PBG 的内存消耗得到了 88% 的改善。 ? PBG 是首个可扩展的、能训练和处理包含数十亿节点和数万亿边的图数据的方法。
proposed method outperforms a path-ranking based algorithm and knowledge graph embedding methods on Freebase Our experiments on benchmark knowledge graphs including DBpedia, YAGO, and Freebase show that using the