搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
pyquery库的使用
PyQuery对象 html = '''
<a href="https://<em>www.douban.com</em>
41710编辑于 2022-09-01
来自专栏KKCHANNEL技术产品
豆瓣小组-文本数据爬虫
url形如https://www.douban.com/group/{小组id}/discussion 参数为start，即起始位置，每次返回约28条。字段解释字段名解释示例 title 讨论帖子的标题关于今天组内一位管理与几位组员之间的纠纷说明 elite 是否加精 1 url 帖子url https://www.douban.com/group /topic/258155059/ author-name 作者名 Miaaaaaaaa author-url 作者url https://www.douban.com/people/157497953 url形如https://www.douban.com/group/topic/{讨论贴id}/ 字段解释字段名解释示例 url 该讨论贴的url https://www.douban.com/group user 发表评论的用户 Σαπφώκορίτσι user_url 发表评论用户的url https://www.douban.com/people/Gra1989/ comment 评论内容好滴
3.4K40编辑于 2022-09-16
来自专栏Android干货
Python浅谈requests三方库
2、带参数的GET请求使用params ，内容为字典键值对的形式 >>> r = requests.get('https://www.douban.com/search', params={'q': 'python', 'cat': '1001'}) >>> r.url # 实际请求的URL 'https://www.douban.com/search? q=python&cat=1001' 3、带header的请求同样headers，内容为字典键值对的形式 >>> r = requests.get('https://www.douban.com/',
48820发布于 2018-12-04
来自专栏日常学python
python爬虫常用库之BeautifulSoup详解
使用到了lxml解析库 2)获取相关标签标签：豆瓣豆瓣 4)获取标签属性，有两种方法标签属性：豆瓣< https://www.douban.com 5)获取标签内的子标签子标签：
豆瓣

1K70发布于 2018-04-18

来自专栏用户5305560的专栏

模拟豆瓣登录

import requests # url = 'https://www.douban.com/accounts/login' # params = { # 'source':'index_nav 'form_password':'xxxx' # } # html = requests.post(url,params) # print(html.text) url = 'https://www.douban.com

1K20发布于 2021-08-11

来自专栏mall学习教程

你管这破玩意叫 OAuth2？

http:// www.douban.com/leadToAuthorize 豆瓣服务器会响应一个重定向地址，指向 qq 授权登录的页面地址。 callback=www.douban.com/callback 这跳回的地址是必然的嘛，不然 QQ 怎么知道在我这边登陆成功后我要干嘛，上杆子找人家 QQ 授权的网站那么多。 callback=www.douban.com/callback 自然没什么好说的，乖乖访问过去。这回访问的就是 QQ 的页面了。 ? 若校验成功，会响应给浏览器一个重定向地址 www.douban.com/callback 没错，就是上一步传给 QQ 服务器的 callback 参数！ www.douban.com/callback?

1.1K21发布于 2021-07-02

来自专栏腾讯云智能·AI公有云

使用BeautifulSoup解析豆瓣网站的HTML内容并查找图片链接

以下是发送网络请求的代码：import requestsurl = "https://www.douban.com"response = requests.get(url)html_content = 以下是一个简单的循环爬取的代码示例：for page in range(1, 6): url = f"https://www.douban.com/photos/album/123456? proxyPass}@{proxyHost}:{proxyPort}"proxies = { "http": proxyMeta, "https": proxyMeta,}url = "https://www.douban.com"response http": proxyMeta, "https": proxyMeta,}image_links = []for page in range(1, 6): url = f"https://www.douban.com

1.6K10编辑于 2023-10-23

来自专栏爬虫资料

豆瓣内容抓取：使用R、httr和XML库的完整教程

# 请求豆瓣主页内容douban_url <- "http://www.douban.com"response <- GET(douban_url, config = http_client)# 检查请求是否成功 href")# 初始化统计计数器internal_links <- 0external_links <- 0# 分类统计for (link in links) { if (grepl("^http://www.douban.com proxy_host, ":", proxy_port), username = proxy_user, password = proxy_pass)# 请求豆瓣主页内容douban_url <- "http://www.douban.com"response 初始化统计计数器 internal_links <- 0 external_links <- 0 # 分类统计 for (link in links) { if (grepl("^http://www.douban.com

71810编辑于 2024-05-22

来自专栏全栈程序员必看

python scrapy 爬虫实例_scrapy爬虫完整实例

= ‘douban-comment’ allowed_domains = [‘accounts.douban.com’, ‘douban.com’] start_urls = [ ‘https://www.douban.com form_password’: ‘你的密码’, # ‘captcha-solution’: ”, # ‘captcha-id’: ”, ‘login’: ‘登录’, ‘redir’: ‘https://www.douban.com /’, ‘source’: ‘None’ } def start_requests(self): return [scrapy.Request(url=’https://www.douban.com/accounts /’, ‘source’: ‘None’ } def start_requests(self): return [scrapy.Request(url=’https://www.douban.com/accounts ” return scrapy.Request(url=’https://www.douban.com/doumail/’, meta={‘cookiejar’: response.meta[‘cookiejar

67320编辑于 2022-09-13

来自专栏muller的测试分享

软件测试|web自动化测试神器playwright教程（十九）

pw.chromium.launch(headless=False, slow_mo=2000) page = browser.new_page() page.goto("https://www.douban.com pw.chromium.launch(headless=False, slow_mo=2000) page = browser.new_page() page.goto("https://www.douban.com pw.chromium.launch(headless=False, slow_mo=2000) page = browser.new_page() page.goto("https://www.douban.com

58620编辑于 2023-07-31

来自专栏我爱编程

Day21第三方模块Pillow&requests

使用requests 要通过GET访问一个页面，只需要几行代码： >>> import requests >>> r = requests.get('https://www.douban.com/') 对于带参的URL，传入一个dict作为params参数： r = requests.get('https://www.douban.com/',params={'q':'python','cat':'1001 '}) >>> r.url # 实际请求的URL 'https://www.douban.com/search? 需要传入HTTP Header时，我们传入一个dict作为`headers`参数： >>> r = requests.get('https://www.douban.com/', headers={'User-Agent

90350发布于 2018-04-26

来自专栏python进阶学习

【无标题】

以下是发送网络请求的代码： import requests url = "https://www.douban.com" response = requests.get(url) html_content 以下是一个简单的循环爬取的代码示例： for page in range(1, 6): url = f"https://www.douban.com/photos/album/123456? proxyHost}:{proxyPort}" proxies = { "http": proxyMeta, "https": proxyMeta, } url = "https://www.douban.com proxyMeta, "https": proxyMeta, } image_links = [] for page in range(1, 6): url = f"https://www.douban.com

52710编辑于 2024-06-08

来自专栏技术圈

Python爬虫实现验证码登录

urllib.request import http.cookiejar #from http.comkie import CookieJar 上面那句和这句等同 loginurl='https://www.douban.com params={} params['form_email']='用户名' params['form_password']='密码'#这里写上已有的用户名和密码 params['source']='http://www.douban.com urllib.parse.urlencode(params).encode('utf-8')) if response.geturl()=="https://www.douban.com

3.3K10发布于 2019-08-21

来自专栏小锋学长生活大爆炸

[Python] 豆瓣自动回帖、顶帖源码

. *") url_cookie = "https://www.douban.com/group/topic/123635599/? . *") url_ck = "https://www.douban.com/group/topic/123635599/? .* ") start_flag = True if(start_flag == True): urls = [r'https://www.douban.com r'https://www.douban.com/group/topic/123634625', r'https://www.douban.com/group/topic /123634843', r'https://www.douban.com/group/topic/123634950'

1.3K30发布于 2020-08-13

来自专栏SpringBoot

一张图搞定OAuth2.0

www.ruanyifeng.com/blog/2014/05/oauth_2_0.html 第一步：在豆瓣官网点击用qq登录　　当你点击用qq登录的小图标时，实际上是向豆瓣的服务器发起了一个 http://www.douban.com callback=www.douban.com/callback ，再次访问。并注意到这次访问带了一个参数是callback，以便qq那边授权成功再次让浏览器发起这个callback请求。 callback=www.douban.com/callback 　　qq的服务器接受到了豆瓣访问的authorize，在次例中所给出的回应是跳转到qq的登录页面，用户输入账号密码点击授权并登录按钮后，首先接上一步，QQ服务器在判断登录成功后，使页面重定向到之前豆瓣发来的callback并附上code授权码，即 callback=www.douban.com/callback 页面接到重定向，发起 http://www.douban.com/callback 请求豆瓣服务器收到请求后，做了两件再次与QQ沟通的事，即模拟浏览器发起了两次请求。

1.1K31发布于 2018-11-05

来自专栏Python乱炖

一起来豆瓣看书吧！

首先我们看看我们要爬的网址： https://www.douban.com ? 那我们看看计算机相关的书籍： ? 再看看与深度学习相关的？？？： ? ok，不多说了，我们开始吧！ Windows NT 6.2; Trident/6.0)'}] 下面我们开始获取图书信息了：这里说明一下，我们要爬没个页数的时间采用随机休眠来控制反爬，我们先来观察一下url： https://www.douban.com start=0 url中固定的是https://www.douban.com/tag/和/book? start= 那下面我们就来拼接url吧： url = 'http://www.douban.com/tag/' \ + urllib.parse.quote(book_tag) \ page_num = 0 book_list = [] try_times = 0 while True: # url拼接 url = 'http://www.douban.com

53730发布于 2019-09-23

来自专栏句小芒的学习专栏

scrapy爬取数据并保存到文本

from lxml import etree class DubaSpider(scrapy.Spider): name = 'Duba' allowed_domains = ['www.douban.com '] start_urls = ['https://www.douban.com/'] def parse(self, response): item = ScrapydemoItem

89920编辑于 2022-12-29

来自专栏全栈程序员必看

python爬虫入门

encoding=utf8代表使用utf8编码，这个在代码中有中文的时候特别有用　　2.解析获取的网页中的元素，取得自己想要的，以豆瓣为例，我们想获取这个页面中的所有书籍名称（仅供学习交流）　　http://www.douban.com focus=book 　　首先获取页面代码： #encoding=utf8 import urllib res = urllib.urlopen("http://www.douban.com/tag/ 代码如下：　　 #encoding=utf8 import urllib import BeautifulSoup res = urllib.urlopen("http://www.douban.com

31810编辑于 2022-09-07

来自专栏句小芒的学习专栏

scrapy小实例

-*- import scrapy class DubaSpider(scrapy.Spider): name = 'Duba' allowed_domains = ['www.douban.com '] start_urls = ['https://www.douban.com/'] def parse(self, response): print(response.body

37020编辑于 2022-12-29

来自专栏夜梦星尘的折腾日记

【docker】Rss-Reader | 极简RSS在线浏览工具

di=30", "https://www.douban.com/feed/review/book", "https://www.douban.com/feed/review

59210编辑于 2024-08-20

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

pyquery库的使用

豆瓣小组-文本数据爬虫

Python浅谈requests三方库

python爬虫常用库之BeautifulSoup详解