使用portia (scrapy)从网站中提取Meta标签
我想使用portia从一些网站中提取元标签,但它没有显示头部标签,它只是从主体标签开始
我只能从body标签中提取数据
发布于 2015-08-03 23:42:11
您需要在body中注释一个元素,然后导航到head中要映射的元素。
html元素。您将收到一条警告,提示您将丢失批注的所有映射属性,请单击OK。再次单击设置图标,这次再次选择head.head图标,您可以在已选择元素的字段中选择子元素,单击+ Field按钮创建一个新字段,然后将所需属性值映射到目标字段。发布于 2015-08-01 18:48:09
您可以将以下内容用于元名称:
meta_name = hxs.select('//meta/@name').extract()元内容是这样的:
meta_content = hxs.select('//meta/@content').extract()对于具有特定名称的元的内容,如description:
meta = hxs.select('//meta[@name=\'description\']/@content').extract()https://stackoverflow.com/questions/27165691
复制相似问题