首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >嵌套XPath在XPath中

嵌套XPath在XPath中
EN

Stack Overflow用户
提问于 2013-10-08 12:49:37
回答 1查看 224关注 0票数 0

我使用scrapy从网站中提取各种一般数据,如标题、h1、h2、img和alts。我已经让它在标题,h1和h2s上运行得很好。但我在提取src和alts时遇到了一些问题。

我知道可以使用这样的语法提取srcs和alts (在本例中是src):

代码语言:javascript
复制
 hxs = HtmlXPathSelector(response)
 for img in hxs.select('//img/@src').extract():

我的问题是,我想循环每一个图像,然后保存src和alts到不同的模型。

这些是我的模型:

代码语言:javascript
复制
class Page(models.Model):
    website = models.ForeignKey(Website)
    url = models.CharField(max_length=200, unique=True)

class Image(models.Model):
    page = models.ForeignKey(Page)
    src = models.CharField(max_length=300, unique=True)

class Alt(models.Model):
    image = models.ForeignKey(Image)
    text = models.CharField(max_length=200) 

这是我到目前为止掌握的密码。

代码语言:javascript
复制
hxs = HtmlXPathSelector(response)
for img in hxs.select('//img').extract():
    hxs2 = HtmlXPathSelector(img)
    try:
        i = Image(page=page, src=hxs2.select('//img/@src'))
        i.save()
    except:
        pass
    try:
        a = Alt(image=i, text=hxs2.select('//img/@alt'))
        a.save()
    except:
        pass

这不太管用。我得到了以下错误:

代码语言:javascript
复制
exceptions.TypeError: cannot create weak reference to 'unicode' object

我的问题是,这是一个好的方法,还是我应该尝试其他的?可能是regex,因为我每次都会有一组非常定义的html?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-08 13:24:40

.select()已经返回了一个HtmlXPathSelector的列表(参见嵌套选择器),所以我认为您需要这样的内容:

代码语言:javascript
复制
hxs = HtmlXPathSelector(response)
for img in hxs.select('//img'):
    try:
        i = Image(page=page, src=img.select('@src').extract()[0])
        i.save()
    except:
        pass
    try:
        a = Alt(image=i, text=img.select('@alt').extract()[0])
        a.save()
    except:
        pass
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19248194

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档