首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >GSA源-已发布的元数据将被忽略

GSA源-已发布的元数据将被忽略
EN

Stack Overflow用户
提问于 2015-04-10 22:32:50
回答 2查看 357关注 0票数 0

我们正在张贴“元数据和网址”的一些PDF的GSA馈送,这是无法通过正常的爬行。除了PDF的URL,我们还提交了额外的元数据。提要成功完成,PDF被添加到GSA索引(在索引诊断和结果XML中可用)。但是发布的元数据会被忽略,只有GSA本身通过抓取文档(作者等)提取的元数据才会被考虑。

我们远远低于许可限制(甚至不到50% )。

摘要记录如下所示:

代码语言:javascript
复制
<record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<PDF URL HERE>">
        <metadata>
            <meta content="md1value" name="md1name"/>
            <meta content="md2value" name="md2name"/>
            ...
        </metadata>
</record>

索引诊断页面显示PDF的此元数据:

代码语言:javascript
复制
Metadata Name   Metadata Content            Metadata Content length
CreationDate    D:20110622112810-04'00'     23
ModDate         D:20110622112949-04'00'     23
Producer        PDF-XChange 4.0.165.0       75

因此没有针对md1name和md2name的条目。请帮帮忙。

EN

回答 2

Stack Overflow用户

发布于 2015-04-13 15:46:31

以下是Google文档的摘录。

URL元数据信息-爬网时的URL元数据信息。还会显示实体识别添加的元数据。请注意,当有大量元数据信息时,即使所有元数据仍然被正确索引,并不是所有的元数据都会出现在中。

为了查看所有元数据,使用getfields=*启动搜索查询(不带代理系统表),并检查结果xml。

希望能有所帮助。

票数 1
EN

Stack Overflow用户

发布于 2015-04-15 17:10:11

您应该尝试从提要中剥离所有xml属性,只推送最相关的属性(例如,remove: lock=true,crawl-once=true)。在提要成功处理之后(因此您可以在Index Diagnostics中看到记录及其元数据),您可以尝试添加属性。因此,请尝试以下格式:

代码语言:javascript
复制
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd">
<gsafeed>
<header>
    <datasource>$datasource_name</datasource>
    <feedtype>metadata-and-url</feedtype>
</header>
<group>
    <record action="add" mimetype="text/pdf" url="{$URL}">
        <metadata>
            <meta name="{$name1}" content="{$content1}" />
            <meta name="{$name2}" content="{$content2}" />
        </metadata>
    </record>
</group>
</gsafeed>

还要确保您的提要客户端使用适当的类型(元数据和url)发布提要。我相信pdf文件的mimetype是"text/pdf“,而不是"application/pdf”(这样的东西常常让人头疼)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29564122

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档