我一直在四处张望,但什么也找不到。它有可能刮和识别广告的使用(想必计算它们在任何给定的网站?
作为一个例子,这页面有13个广告。
我目前正在使用BeautifulSoup来获取页面
headers = {'Content-Type':'application/json'}
url = requests.get("https://www.worthofweb.com/website-value/wikipedia.com/")
response = requests.request(method="GET", url=url, headers=headers, timeout=5)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")问题是解析页面。
发布于 2022-07-19 13:11:46
您可以考虑分析DOM中的每个元素并检查标准广告大小。以下是一份清单:
https://www.creatopy.com/blog/banner-standard-sizes/
简单地说,从元素的样式中获取宽度/高度,并查看它是否与标准的广告单位大小匹配。如果是这样的话,我们可以认为这是一个广告(可能是假阳性)。
https://stackoverflow.com/questions/71113927
复制相似问题