我正在研究Hadoop中的专利数据示例。你能详细解释一下正在使用的数据集吗?
发布于 2014-04-18 14:53:02
首先,让我们澄清一些与专利相关的术语。
什么是引文?
引用是指当一个文档提到另一个文档具有相关内容时将其链接在一起的文档。
请参阅此链接以了解有关专利的更多信息:)
“专利引用数据集”--这个数据集只是提到了专利引用。
更像是说A专利使用B,C和D专利
“引用”,“引用” 3858241,956203 3858241,1324234 3858241,3398406 3858241,3557384 3858241,3634889 3858242,1515701 3858242,3319261 3858242,3668705 3858242,3707004
从书中粘贴它,所以这里的专利号是3858242引证(使用/引用)4项其他专利,专利号3858241引用(使用/引用)5项其他专利。
--专利描述数据集--有点像主表,它只保存每个专利的数据。
希望这能帮你弄清楚一些事情。
发布于 2014-05-13 03:02:51
我想,在解决HiA图书中的Top K记录时,在4.7节中可能存在误解,其中说:“顶级K记录--更改AttributeMax.py (或AttributeMax.php)以输出整个记录,而不仅仅是最大值。重写它,使MapReduce作业输出最高K值的记录,而不仅仅是最大值。”
要使用的输入数据集实际上是apat63_99.txt文件,该练习要求记录的顶部为K值(CLAIMS),而不仅仅是最大值。正如清单4.6中所描述的那样,AttributeMax.py给出了最大索赔的记录。
https://stackoverflow.com/questions/22826631
复制相似问题