我们正在张贴“元数据和网址”的一些PDF的GSA馈送,这是无法通过正常的爬行。除了PDF的URL,我们还提交了额外的元数据。提要成功完成,PDF被添加到GSA索引(在索引诊断和结果XML中可用)。但是发布的元数据会被忽略,只有GSA本身通过抓取文档(作者等)提取的元数据才会被考虑。
我们远远低于许可限制(甚至不到50% )。
摘要记录如下所示:
<record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<PDF URL HERE>">
<metadata>
<meta content="md1value" name="md1name"/>
<meta content="md2value" name="md2name"/>
...
</metadata>
</record>索引诊断页面显示PDF的此元数据:
Metadata Name Metadata Content Metadata Content length
CreationDate D:20110622112810-04'00' 23
ModDate D:20110622112949-04'00' 23
Producer PDF-XChange 4.0.165.0 75因此没有针对md1name和md2name的条目。请帮帮忙。
发布于 2015-04-13 15:46:31
以下是Google文档的摘录。
URL元数据信息-爬网时的URL元数据信息。还会显示实体识别添加的元数据。请注意,当有大量元数据信息时,即使所有元数据仍然被正确索引,并不是所有的元数据都会出现在中。
为了查看所有元数据,使用getfields=*启动搜索查询(不带代理系统表),并检查结果xml。
希望能有所帮助。
发布于 2015-04-15 17:10:11
您应该尝试从提要中剥离所有xml属性,只推送最相关的属性(例如,remove: lock=true,crawl-once=true)。在提要成功处理之后(因此您可以在Index Diagnostics中看到记录及其元数据),您可以尝试添加属性。因此,请尝试以下格式:
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd">
<gsafeed>
<header>
<datasource>$datasource_name</datasource>
<feedtype>metadata-and-url</feedtype>
</header>
<group>
<record action="add" mimetype="text/pdf" url="{$URL}">
<metadata>
<meta name="{$name1}" content="{$content1}" />
<meta name="{$name2}" content="{$content2}" />
</metadata>
</record>
</group>
</gsafeed>还要确保您的提要客户端使用适当的类型(元数据和url)发布提要。我相信pdf文件的mimetype是"text/pdf“,而不是"application/pdf”(这样的东西常常让人头疼)。
https://stackoverflow.com/questions/29564122
复制相似问题