首页
学习
活动
专区
圈层
工具
发布
1K70发布于 2018-04-18
  • 来自专栏用户5305560的专栏

    模拟豆瓣登录

    import requests # url = 'https://www.douban.com/accounts/login' # params = { # 'source':'index_nav 'form_password':'xxxx' # } # html = requests.post(url,params) # print(html.text) url = 'https://www.douban.com

    1K20发布于 2021-08-11
  • 来自专栏mall学习教程

    你管这破玩意叫 OAuth2?

    http:// www.douban.com/leadToAuthorize 豆瓣服务器会响应一个重定向地址,指向 qq 授权登录的页面地址。 callback=www.douban.com/callback 这跳回的地址是必然的嘛,不然 QQ 怎么知道在我这边登陆成功后我要干嘛,上杆子找人家 QQ 授权的网站那么多。 callback=www.douban.com/callback 自然没什么好说的,乖乖访问过去。 这回访问的就是 QQ 的页面了。 ? 若校验成功,会响应给浏览器一个重定向地址 www.douban.com/callback 没错,就是上一步传给 QQ 服务器的 callback 参数! www.douban.com/callback?

    1.1K21发布于 2021-07-02
  • 来自专栏腾讯云智能·AI公有云

    使用BeautifulSoup解析豆瓣网站的HTML内容并查找图片链接

    以下是发送网络请求的代码:import requestsurl = "https://www.douban.com"response = requests.get(url)html_content = 以下是一个简单的循环爬取的代码示例:for page in range(1, 6): url = f"https://www.douban.com/photos/album/123456? proxyPass}@{proxyHost}:{proxyPort}"proxies = { "http": proxyMeta, "https": proxyMeta,}url = "https://www.douban.com"response http": proxyMeta, "https": proxyMeta,}image_links = []for page in range(1, 6): url = f"https://www.douban.com

    1.6K10编辑于 2023-10-23
  • 来自专栏爬虫资料

    豆瓣内容抓取:使用R、httr和XML库的完整教程

    # 请求豆瓣主页内容douban_url <- "http://www.douban.com"response <- GET(douban_url, config = http_client)# 检查请求是否成功 href")# 初始化统计计数器internal_links <- 0external_links <- 0# 分类统计for (link in links) { if (grepl("^http://www.douban.com proxy_host, ":", proxy_port), username = proxy_user, password = proxy_pass)# 请求豆瓣主页内容douban_url <- "http://www.douban.com"response 初始化统计计数器 internal_links <- 0 external_links <- 0 # 分类统计 for (link in links) { if (grepl("^http://www.douban.com

    71810编辑于 2024-05-22
  • 来自专栏全栈程序员必看

    python scrapy 爬虫实例_scrapy爬虫完整实例

    = ‘douban-comment’ allowed_domains = [‘accounts.douban.com’, ‘douban.com’] start_urls = [ ‘https://www.douban.com form_password’: ‘你的密码’, # ‘captcha-solution’: ”, # ‘captcha-id’: ”, ‘login’: ‘登录’, ‘redir’: ‘https://www.douban.com /’, ‘source’: ‘None’ } def start_requests(self): return [scrapy.Request(url=’https://www.douban.com/accounts /’, ‘source’: ‘None’ } def start_requests(self): return [scrapy.Request(url=’https://www.douban.com/accounts ” return scrapy.Request(url=’https://www.douban.com/doumail/’, meta={‘cookiejar’: response.meta[‘cookiejar

    67320编辑于 2022-09-13
  • 来自专栏muller的测试分享

    软件测试|web自动化测试神器playwright教程(十九)

    pw.chromium.launch(headless=False, slow_mo=2000) page = browser.new_page() page.goto("https://www.douban.com pw.chromium.launch(headless=False, slow_mo=2000) page = browser.new_page() page.goto("https://www.douban.com pw.chromium.launch(headless=False, slow_mo=2000) page = browser.new_page() page.goto("https://www.douban.com

    58620编辑于 2023-07-31
  • 来自专栏我爱编程

    Day21第三方模块Pillow&requests

    使用requests 要通过GET访问一个页面,只需要几行代码: >>> import requests >>> r = requests.get('https://www.douban.com/') 对于带参的URL,传入一个dict作为params参数: r = requests.get('https://www.douban.com/',params={'q':'python','cat':'1001 '}) >>> r.url # 实际请求的URL 'https://www.douban.com/search? 需要传入HTTP Header时,我们传入一个dict作为`headers`参数: >>> r = requests.get('https://www.douban.com/', headers={'User-Agent

    90350发布于 2018-04-26
  • 来自专栏python进阶学习

    【无标题】

    以下是发送网络请求的代码: import requests url = "https://www.douban.com" response = requests.get(url) html_content 以下是一个简单的循环爬取的代码示例: for page in range(1, 6): url = f"https://www.douban.com/photos/album/123456? proxyHost}:{proxyPort}" proxies = { "http": proxyMeta, "https": proxyMeta, } url = "https://www.douban.com proxyMeta, "https": proxyMeta, } image_links = [] for page in range(1, 6): url = f"https://www.douban.com

    52710编辑于 2024-06-08
  • 来自专栏技术圈

    Python爬虫实现验证码登录

    urllib.request import http.cookiejar #from http.comkie import CookieJar 上面那句和这句等同 loginurl='https://www.douban.com params={} params['form_email']='用户名' params['form_password']='密码'#这里写上已有的用户名和密码 params['source']='http://www.douban.com urllib.parse.urlencode(params).encode('utf-8')) if response.geturl()=="https://www.douban.com

    3.3K10发布于 2019-08-21
  • 来自专栏小锋学长生活大爆炸

    [Python] 豆瓣自动回帖、顶帖源码

    . *") url_cookie = "https://www.douban.com/group/topic/123635599/? . *") url_ck = "https://www.douban.com/group/topic/123635599/? .* ") start_flag = True if(start_flag == True): urls = [r'https://www.douban.com r'https://www.douban.com/group/topic/123634625', r'https://www.douban.com/group/topic /123634843', r'https://www.douban.com/group/topic/123634950'

    1.3K30发布于 2020-08-13
  • 来自专栏SpringBoot

    一张图搞定OAuth2.0

    www.ruanyifeng.com/blog/2014/05/oauth_2_0.html 第一步:在豆瓣官网点击用qq登录   当你点击用qq登录的小图标时,实际上是向豆瓣的服务器发起了一个 http://www.douban.com callback=www.douban.com/callback ,再次访问。并注意到这次访问带了一个参数是callback,以便qq那边授权成功再次让浏览器发起这个callback请求。 callback=www.douban.com/callback   qq的服务器接受到了豆瓣访问的authorize,在次例中所给出的回应是跳转到qq的登录页面,用户输入账号密码点击授权并登录按钮后, 首先接上一步,QQ服务器在判断登录成功后,使页面重定向到之前豆瓣发来的callback并附上code授权码,即 callback=www.douban.com/callback  页面接到重定向,发起  http://www.douban.com/callback 请求 豆瓣服务器收到请求后,做了两件再次与QQ沟通的事,即模拟浏览器发起了两次请求。

    1.1K31发布于 2018-11-05
  • 来自专栏Python乱炖

    一起来豆瓣看书吧!

    首先我们看看我们要爬的网址: https://www.douban.com ? 那我们看看计算机相关的书籍: ? 再看看与深度学习相关的???: ? ok,不多说了,我们开始吧! Windows NT 6.2; Trident/6.0)'}] 下面我们开始获取图书信息了: 这里说明一下,我们要爬没个页数的时间采用随机休眠来控制反爬, 我们先来观察一下url: https://www.douban.com start=0 url中固定的是https://www.douban.com/tag/和/book? start= 那下面我们就来拼接url吧: url = 'http://www.douban.com/tag/' \ + urllib.parse.quote(book_tag) \ page_num = 0 book_list = [] try_times = 0 while True: # url拼接 url = 'http://www.douban.com

    53730发布于 2019-09-23
  • 来自专栏句小芒的学习专栏

    scrapy爬取数据并保存到文本

    from lxml import etree class DubaSpider(scrapy.Spider):     name = 'Duba'     allowed_domains = ['www.douban.com ']     start_urls = ['https://www.douban.com/']     def parse(self, response):         item = ScrapydemoItem

    89920编辑于 2022-12-29
  • 来自专栏全栈程序员必看

    python爬虫入门

    encoding=utf8代表使用utf8编码,这个在代码中有中文的时候特别有用   2.解析获取的网页中的元素,取得自己想要的,以豆瓣为例,我们想获取这个页面中的所有书籍名称(仅供学习交流)   http://www.douban.com focus=book   首先获取页面代码: #encoding=utf8 import urllib res = urllib.urlopen("http://www.douban.com/tag/ 代码如下:   #encoding=utf8 import urllib import BeautifulSoup res = urllib.urlopen("http://www.douban.com

    31810编辑于 2022-09-07
  • 来自专栏句小芒的学习专栏

    scrapy小实例

    -*- import scrapy class DubaSpider(scrapy.Spider):     name = 'Duba'     allowed_domains = ['www.douban.com ']     start_urls = ['https://www.douban.com/']     def parse(self, response):        print(response.body

    37020编辑于 2022-12-29
  • 来自专栏夜梦星尘的折腾日记

    【docker】Rss-Reader | 极简RSS在线浏览工具

    di=30", "https://www.douban.com/feed/review/book", "https://www.douban.com/feed/review

    59210编辑于 2024-08-20
  • 领券