首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Python从cloudflare站点抓取信息?

使用Python从cloudflare站点抓取信息?
EN

Stack Overflow用户
提问于 2018-02-20 13:51:27
回答 1查看 1.2K关注 0票数 3

我在一家营销公司工作,我有几百封电子邮件需要从网页中编辑和分类。我有一点python知识,所以我经常会做一个简单的抓取工具来让工作变得更容易,但cloudflare在源代码中阻止了电子邮件。

我怎么才能绕过它呢?显然,使用这样的自动化工具比手动复制和粘贴所有电子邮件要快得多。下面是我用来测试它的程序:

代码语言:javascript
复制
import requests
import urllib
from bs4 import BeautifulSoup

website = ""
r = requests.get(website)
soup = BeautifulSoup(r.text,'html.parser')

numb = 799

while numb < 800:
    numb += 1
    print(r.status_code)
    print(soup.prettify())

在源代码中,这将替换电子邮件:

代码语言:javascript
复制
<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="">[email;protected]</a> 

有没有办法在网页上自动复制和粘贴某一行?我在常规浏览器中查看了源代码,它显示了相同的内容。

谢谢你的帮助。

EN

回答 1

Stack Overflow用户

发布于 2018-12-03 23:41:18

我知道这是一个旧的线程,但这个函数将解码电子邮件字符串:

代码语言:javascript
复制
def cfDecodeEmail(encodedString):
    r = int(encodedString[:2],16)
    email = ''.join([chr(int(encodedString[i:i+2], 16) ^ r) for i in range(2, len(encodedString), 2)])
    return email
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48878687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档