首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop在行动中的专利示例说明

Hadoop在行动中的专利示例说明
EN

Stack Overflow用户
提问于 2014-04-03 02:18:16
回答 2查看 434关注 0票数 2

我正在研究Hadoop中的专利数据示例。你能详细解释一下正在使用的数据集吗?

  1. 专利引用数据集 该数据集包含引用和引用专利的两列。引用栏是指提交专利的所有者ID?引用列是指构成第二个数据集键的专利ID?
  2. 专利描述数据集 此数据集中有许多字段。要形成这两个数据集的映射,它是引用还是引用第一数据集中具有相应键的第二数据集第一列(专利)?
EN

回答 2

Stack Overflow用户

发布于 2014-04-18 14:53:02

首先,让我们澄清一些与专利相关的术语。

什么是引文?

引用是指当一个文档提到另一个文档具有相关内容时将其链接在一起的文档。

请参阅此链接以了解有关专利的更多信息:)

“专利引用数据集”--这个数据集只是提到了专利引用。

更像是说A专利使用B,C和D专利

“引用”,“引用” 3858241,956203 3858241,1324234 3858241,3398406 3858241,3557384 3858241,3634889 3858242,1515701 3858242,3319261 3858242,3668705 3858242,3707004

从书中粘贴它,所以这里的专利号是3858242引证(使用/引用)4项其他专利,专利号3858241引用(使用/引用)5项其他专利。

--专利描述数据集--有点像主表,它只保存每个专利的数据。

希望这能帮你弄清楚一些事情。

票数 1
EN

Stack Overflow用户

发布于 2014-05-13 03:02:51

我想,在解决HiA图书中的Top K记录时,在4.7节中可能存在误解,其中说:“顶级K记录--更改AttributeMax.py (或AttributeMax.php)以输出整个记录,而不仅仅是最大值。重写它,使MapReduce作业输出最高K值的记录,而不仅仅是最大值。”

要使用的输入数据集实际上是apat63_99.txt文件,该练习要求记录的顶部为K值(CLAIMS),而不仅仅是最大值。正如清单4.6中所描述的那样,AttributeMax.py给出了最大索赔的记录。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22826631

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档