我正在尝试刮一个使用Scrapy为href链接信息的网络论坛,当我这样做时,我得到了许多字母和数字的href链接,其中的问号应该是。
这是我正在抓取的html文档的示例:
<a href="showthread.php?t=2755261" id="thread_title_2676278"></a> 我正在使用以下代码为href链接抓取html数据:
response.xpath('.//*[contains(@id, "thread_title")]/@href').extract() 当我运行这个程序时,我会得到以下结果:
[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']应归还的是:
[u'showthread.php?t=2676278']我还运行了其他测试,在文档的其他地方使用问号对href数据进行抓取,并且还返回了"s=f969fe6ed424b22d8fddf605a9effe90&“。
为什么我得到的数据返回与"s=f969fe6ed424b22d8fddf605a9effe90&“,而不是仅仅是问号?
谢谢!
发布于 2016-04-03 17:42:28
看来,我正在刮的站点使用了一个唯一的标识符,以便更准确地更新每个线程的视图数。在没有唯一id的情况下,我无法返回已抓取的数据,它随着时间的推移而改变,并为线程ID抓取了一个不同的HTML标记,然后将其加入到web地址(showthread.php?t=)以创建我正在寻找的链接。
https://stackoverflow.com/questions/35119834
复制相似问题