首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用portia (scrapy)从网站中提取Meta标签

使用portia (scrapy)从网站中提取Meta标签
EN

Stack Overflow用户
提问于 2014-11-27 15:55:34
回答 2查看 1.4K关注 0票数 1

使用portia (scrapy)从网站中提取Meta标签

我想使用portia从一些网站中提取元标签,但它没有显示头部标签,它只是从主体标签开始

我只能从body标签中提取数据

EN

回答 2

Stack Overflow用户

发布于 2015-08-03 23:42:11

您需要在body中注释一个元素,然后导航到head中要映射的元素。

  1. 注释页面上的元素,无论是哪个元素都无关紧要。
  2. 单击注释弹出窗口中的设置图标或右侧工具箱的注释面板中的设置图标。
  3. 单击html元素。您将收到一条警告,提示您将丢失批注的所有映射属性,请单击OK。再次单击设置图标,这次再次选择head.
  4. Once
  5. head图标,您可以在已选择元素的字段中选择子元素,单击+ Field按钮创建一个新字段,然后将所需属性值映射到目标字段。

另请参阅:https://github.com/scrapinghub/portia/issues/60

票数 7
EN

Stack Overflow用户

发布于 2015-08-01 18:48:09

您可以将以下内容用于元名称:

代码语言:javascript
复制
meta_name = hxs.select('//meta/@name').extract()

元内容是这样的:

代码语言:javascript
复制
meta_content = hxs.select('//meta/@content').extract()

对于具有特定名称的元的内容,如description:

代码语言:javascript
复制
meta = hxs.select('//meta[@name=\'description\']/@content').extract()
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27165691

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档