我试图使用requests和Beautiful 库从一个特定的网站抓取一些数据。不幸的是,我接收的不是该页面的HTML,而是父页https://salesweb.civilview.com。谢谢你的帮助!
import requests
from bs4 import BeautifulSoup
example="https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=473016965"
exampleGet=requests.get(example)
exampleGetText=exampleGet.text
soup = BeautifulSoup(exampleGetText,"lxml")
soup发布于 2018-06-21 16:07:44
您需要向请求提供一个cookie:
import requests
from bs4 import BeautifulSoup
cookie = {'ASP.NET_SessionId': 'rk2b0dxast1eyu5jvxezltgh'}
example="https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=473016964"
exampleGet=requests.get(example, cookies=cookie)
exampleGetText=exampleGet.text
soup = BeautifulSoup(exampleGetText,"lxml")
soup.title
<title>Sales Listing Detail</title>特定的cookie可能对您不起作用,因此您需要手动导航到该页面一次,然后进入浏览器中的developer (web检查器)工具,然后在网络选项卡的“Header”下查找cookie。我的cookie看起来像‘ASP.NETSessionId=rk2b0dxast1eyu5jvxezltgh’。
cookie对于其他属性页也应该有效。
https://stackoverflow.com/questions/50972112
复制相似问题