首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >返回数字和字母,而不是"?“为href值

返回数字和字母,而不是"?“为href值
EN

Stack Overflow用户
提问于 2016-01-31 21:40:54
回答 1查看 105关注 0票数 0

我正在尝试刮一个使用Scrapy为href链接信息的网络论坛,当我这样做时,我得到了许多字母和数字的href链接,其中的问号应该是。

这是我正在抓取的html文档的示例:

代码语言:javascript
复制
<a href="showthread.php?t=2755261" id="thread_title_2676278"></a> 

我正在使用以下代码为href链接抓取html数据:

代码语言:javascript
复制
response.xpath('.//*[contains(@id, "thread_title")]/@href').extract()  

当我运行这个程序时,我会得到以下结果:

代码语言:javascript
复制
[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']

应归还的是:

代码语言:javascript
复制
[u'showthread.php?t=2676278']

我还运行了其他测试,在文档的其他地方使用问号对href数据进行抓取,并且还返回了"s=f969fe6ed424b22d8fddf605a9effe90&“。

为什么我得到的数据返回与"s=f969fe6ed424b22d8fddf605a9effe90&“,而不是仅仅是问号?

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2016-04-03 17:42:28

看来,我正在刮的站点使用了一个唯一的标识符,以便更准确地更新每个线程的视图数。在没有唯一id的情况下,我无法返回已抓取的数据,它随着时间的推移而改变,并为线程ID抓取了一个不同的HTML标记,然后将其加入到web地址(showthread.php?t=)以创建我正在寻找的链接。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35119834

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档