文章/答案/技术大牛

发布

社区首页 >问答首页 >python抓取网页并解析内容

问python抓取网页并解析内容
EN

Stack Overflow用户

提问于 2016-11-10 22:13:37

回答 2查看 1.6K关注 0票数 1

我想要抓取此链接上的数据

http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback=return_json

我不确定这个链接是什么类型的，是html还是json还是别的什么。为我糟糕的网络知识感到抱歉。但我尝试使用以下代码来抓取：

import requests

url='http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback=return_json'
source=requests.get(url).text

源的类型为unicode。我还尝试使用urllib2来抓取，如下所示：

source2=urllib2.urlopen(url).read()

source2的类型为string。我不确定哪种方法更好。因为链接不像普通的网页包含不同的标签。如果我想清理抓取的数据并形成dataframe数据(如pandas dataframe)，我应该遵循什么方法或流程/

谢谢。

python

json

parsing

web-scraping

data-cleaning

回答 2

Stack Overflow用户

发布于 2016-11-10 22:33:05

返回的响应是包含有效JSON数据的文本。如果需要，您可以使用http://jsonlint.com/之类的服务自行验证它。为此，只需复制括号内的代码即可

return_json(“要复制的JSON代码”)

为了利用这些数据，你只需要在你的程序中解析它。下面是一个示例：https://docs.python.org/2/library/json.html

票数 0

Stack Overflow用户

发布于 2016-11-10 22:43:47

响应是文本。它确实包含JSON，只需要将其提取出来

import json

strip_len = len("return_json(")

source=requests.get(url).text[strip_len:-2]
source = json.loads(source)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40529706

复制

相似问题

问python抓取网页并解析内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python抓取网页并解析内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python抓取网页并解析内容
EN