文章/答案/技术大牛

发布

社区首页 >问答首页 >返回数字和字母，而不是"?“为href值

问返回数字和字母，而不是"?“为href值
EN

Stack Overflow用户

提问于 2016-01-31 21:40:54

回答 1查看 105关注 0票数 0

我正在尝试刮一个使用Scrapy为href链接信息的网络论坛，当我这样做时，我得到了许多字母和数字的href链接，其中的问号应该是。

这是我正在抓取的html文档的示例：

<a href="showthread.php?t=2755261" id="thread_title_2676278"></a>

我正在使用以下代码为href链接抓取html数据：

response.xpath('.//*[contains(@id, "thread_title")]/@href').extract()

当我运行这个程序时，我会得到以下结果：

[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']

应归还的是：

[u'showthread.php?t=2676278']

我还运行了其他测试，在文档的其他地方使用问号对href数据进行抓取，并且还返回了"s=f969fe6ed424b22d8fddf605a9effe90&“。

为什么我得到的数据返回与"s=f969fe6ed424b22d8fddf605a9effe90&“，而不是仅仅是问号？

谢谢!

web-scraping

scrapy

回答 1

Stack Overflow用户

发布于 2016-04-03 17:42:28

看来，我正在刮的站点使用了一个唯一的标识符，以便更准确地更新每个线程的视图数。在没有唯一id的情况下，我无法返回已抓取的数据，它随着时间的推移而改变，并为线程ID抓取了一个不同的HTML标记，然后将其加入到web地址(showthread.php?t=)以创建我正在寻找的链接。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35119834

复制

相似问题

问返回数字和字母，而不是"?“为href值
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问返回数字和字母，而不是"?“为href值EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问返回数字和字母，而不是"?“为href值
EN