首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏睡不着所以学编程

    bs4学习

    /cinema/nowplaying/">影讯&购票 print(soup.find("li")) #

  • 影讯&购票
  • 选电影
  • 电视剧
""" print(soup.ul) # 结果同上 # 再放一次方便对照看结果
  • 影讯&购票 /movie.douban.com/tv/">电视剧] 嗯感觉更加理解了一丢丢,现在要继续往下学了,希望能早日学会爬虫,然后再学习点其他的东西,可能要开始学习html了 吧!

  • 54610编辑于 2022-09-20
  • 来自专栏快学Python

    Python爬虫:单线程、多线程和协程的爬虫性能对比

    /subject/26752564/ https://movie.douban.com/subject/35172699/ https://movie.douban.com/subject/34992142 / https://movie.douban.com/subject/30349667/ https://movie.douban.com/subject/30283209/ https://movie.douban.com / https://movie.douban.com/subject/27039358/ https://movie.douban.com/subject/30205667/ https://movie.douban.com / https://movie.douban.com/subject/26826330/ https://movie.douban.com/subject/26935283/ https://movie.douban.com / https://movie.douban.com/subject/34779692/ https://movie.douban.com/subject/35154209/ 爬到的文件: ?

    62440发布于 2021-08-09
  • 来自专栏日常学python

    python爬虫常用库之urllib详解

    /')) 4print(parse.urlparse('https://movie.douban.com/', scheme='http')) 5print(parse.urlparse('movie.douban.com /', scheme='http')) 6# 下面是结果 7ParseResult(scheme='https', netloc='movie.douban.com', path='/', params ='', query='', fragment='') 8ParseResult(scheme='https', netloc='movie.douban.com', path='/', params= '', query='', fragment='') 9ParseResult(scheme='http', netloc='', path='movie.douban.com/', params='' /', 'index')) 3print(parse.urljoin('https://movie.douban.com/', 'https://accounts.douban.com/login'))

    1K80发布于 2018-04-04
  • 来自专栏早起Python

    人人都能学会的 Python 多线程指南!

    sort=time&start=0', 'https://movie.douban.com/subject/1652587/reviews? sort=time&start=20', 'https://movie.douban.com/subject/1652587/reviews? sort=time&start=40', 'https://movie.douban.com/subject/1652587/reviews? sort=time&start=60', 'https://movie.douban.com/subject/1652587/reviews? sort=time&start=80', 'https://movie.douban.com/subject/1652587/reviews?

    65730编辑于 2022-09-21
  • 来自专栏Flaneur的文章分享

    Python爬虫--爬取豆瓣 TOP250 电影排行榜

    豆瓣还专门提供了一个 TOP250 的电影链接 -> https://movie.douban.com/top250 爬取思路 爬取的过程很好理解,这里只需要两个过程: ① 从服务器上下载所需页面 ② 我们可以分析每一页的链接: 第一页:https://movie.douban.com/top250 第二页:https://movie.douban.com/top250? start=25 第三页:https://movie.douban.com/top250?start=50 第四页:https://movie.douban.com/top250? start=75 第五页:https://movie.douban.com/top250? . … 我们可以发现这样的规律: 每一次的更新的 url = https://movie.douban.com/top250 + '/?

    3.6K22发布于 2020-03-25
  • 来自专栏苏生不惑

    不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜

    Python 抓取豆瓣电影 打开豆瓣电影top 250 主页 https://movie.douban.com/top250 ? ', 'Host': 'movie.douban.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64 return data if __name__ == '__main__': urls = ['https://movie.douban.com/top250? 豆瓣电影的分页链接为 https://movie.douban.com/top250? {"_id":"douban","startUrl":["https://movie.douban.com/top250?

    1.9K10发布于 2020-11-10
  • 来自专栏Python进阶之路

    Python爬虫 爬取豆瓣电影Top250信息

    文章目录 一、分析网页 翻页查看url变化规律: 第一页:https://movie.douban.com/top250? start=0&filter= 第二页:https://movie.douban.com/top250? start=25&filter= 第三页:https://movie.douban.com/top250? start=50&filter= 第十页:https://movie.douban.com/top250? start=225&filter= 分析可得页面url的规律: url_list = “https://movie.douban.com/top250?

    3.2K40发布于 2020-09-17
  • 来自专栏Python研发

    Python小爬虫-读取豆瓣电影名称导出csv

    , 'w', newline='') csvwriter = csv.writer(file) csvwriter.writerow(['名称', '年份']) links = ['https://movie.douban.com /subject/1292052/', 'https://movie.douban.com/subject/26752088/', 'https://movie.douban.com/subject/1962665

    1.1K20发布于 2019-06-22
  • 技术学习:Python(16)|爬虫篇|lxml模块和Xpath

    <a onclick="moreurl(this, {from:'mv_rk'})" href="https://<em>movie.douban.com</em> >>> >>> html_a = html_c16.xpath('//td/a[@href="https://movie.douban.com/subject/35408460/"]') >>> >>>

    55610编辑于 2023-10-10
  • 来自专栏数据STUDIO

    网络爬虫 | 动态渲染信息爬取--Ajax

    爬取豆瓣电影数据 url = https://movie.douban.com/explore#! https://movie.douban.com/j/search_subjects? type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0 https://movie.douban.com/ type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20 https://movie.douban.com data=pd.DataFrame() base_url = 'https://movie.douban.com/j/search_subjects?

    90030发布于 2021-06-24
  • 来自专栏火星娃统计

    python爬虫-八佰词云

    import requests import re import csv import jieba import wordcloud # 通过循环实现多页爬虫 # 观察页面链接规律 # https://movie.douban.com start=0&limit=20&sort=new_score&status=P # https://movie.douban.com/subject/26754233/comments? start=20&limit=20&sort=new_score&status=P # https://movie.douban.com/subject/26754233/comments? start=40&limit=20&sort=new_score&status=P # https://movie.douban.com/subject/26754233/comments? python\豆瓣八佰爬虫\短评.csv','a',newline='',encoding='utf-8') as f: for i in page: url='https://movie.douban.com

    1.8K30发布于 2020-09-15
  • 来自专栏马拉松程序员的专栏

    数据获取:​如何写一个基础爬虫

    下面我们打开豆瓣电影TOP250的链接:https://movie.douban.com/top250 在点开第一页评分最高的这部电影《肖申克的救赎》,这里面我们可以看到电影导演、评分、类型等等一些的信息 /subject/1292052/

    73130编辑于 2023-09-02
  • 来自专栏前端全栈开发者

    实战:小程序云开发之在云函数中使用Router

    type=${type}&tag=${tag}&page_limit=${limit}&page_start=${start}`, headers: { 'Host': 'movie.douban.com ', 'Referer': 'https://movie.douban.com/' }, json: true } return rp(options).then(res subject_id=${subjectId}`, headers: { 'Host': 'movie.douban.com', 'Referer': 'https:// movie.douban.com/' }, json: true } return rp(options).then((res) => { return rp(`https ://movie.douban.com/subject/${subjectId}/`) .then((html) => { const $ = cheerio.load(html

    1.4K42发布于 2019-12-27
  • 来自专栏前端全栈开发者

    【实战】小程序云开发,云函数中使用Router(附源码)

    const limit = event.limit || 50 const start = event.start || 0 const options = { uri: `https://movie.douban.com type=${type}&tag=${tag}&page_limit=${limit}&page_start=${start}`, headers: { 'Host': 'movie.douban.com ', 'Referer': 'https://movie.douban.com/' }, json: true } return rp(options).then(res => res subject_id=${subjectId}`, headers: { 'Host': 'movie.douban.com', 'Referer': 'https://movie.douban.com /' }, json: true } return rp(options).then((res) => { return rp(`https://movie.douban.com/subject

    1.5K31发布于 2019-12-23
  • 来自专栏小徐学爬虫

    Python爬虫入门案例详细教程

    定义目标URL和请求头(模拟浏览器访问)url = "https://movie.douban.com/top250"headers = { "User-Agent": "Mozilla/5.0 运行结果生成的 douban_top250.csv 文件内容示例:Title,Rating,Link肖申克的救赎,9.7,https://movie.douban.com/subject/1292052 /霸王别姬,9.6,https://movie.douban.com/subject/1291546/阿甘正传,9.5,https://movie.douban.com/subject/1292720/ ...扩展学习分页爬取 修改 URL 为 https://movie.douban.com/top250?

    73910编辑于 2025-04-03
  • 来自专栏Java

    一篇文章入门python爬虫(需要html,css基础)

    if response.ok: print(response.text) else: print("请求失败") 运行结果 爬取豆瓣top250数据案例 案例演示网址https://movie.douban.com 发送请求,获取响应 response = requests.get("https://movie.douban.com/top250") # 这是一个用于测试的网络链接 print(response.status_code 发送请求,获取响应 response = requests.get("https://movie.douban.com/top250", headers = headers) # 这是一个用于测试的网络链接 发送请求,获取响应 response = requests.get("https://movie.douban.com/top250", headers = headers) # 这是一个用于测试的网络链接 发送请求,获取响应 response = requests.get("https://movie.douban.com/top250", headers = headers) # 这是一个用于测试的网络链接

    22200编辑于 2025-01-21
  • 来自专栏不温卜火

    爬虫入门经典:如何爬取豆瓣电影Top250

    一、项目分析 1.1 单页分析 目标网站:https://movie.douban.com/top250 ? 我们先来分析下网页链接: https://movie.douban.com/top250?start=0&filter= https://movie.douban.com/top250? start=25&filter= https://movie.douban.com/top250?start=50&filter= 通过查看对比,我们发现其网页变化仅为start=? 分析完成了下面就可以来进行实现了: doubanUrl = 'https://movie.douban.com/top250? Version:1.0 ''' import requests from lxml import etree import csv # 豆瓣top250网址 doubanUrl = 'https://movie.douban.com

    1.7K10发布于 2020-10-28
  • 来自专栏机器学习AI算法工程

    [Python]从豆瓣批量获取看过电影的用户列表,并应用kNN算法预测用户性别

    链接分析 这是看过"模仿游戏"的豆瓣成员的网页链接:http://movie.douban.com/subject/10463953/collections。 当点击下一页时,当前连接变为:http://movie.douban.com/subject/10463953/collections?start=20。 因此,我们可以设定base_url='http://movie.douban.com/subject/10463953/collections? td=td_tags[0],a=td.a就可以得到 <img class="" src start=0 5 ##http://movie.douban.com/subject/26289144/collections?

    2.6K40发布于 2018-03-14
  • 来自专栏前端进阶学习交流

    一篇文章教会你利用Python网络爬虫实现豆瓣电影采集

    【三、涉及的库和网站】 1、网址如下: https://movie.douban.com/j/search_subjects? https://movie.douban.com/j/search_subjects? type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=0 https://movie.douban.com/j/ type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=20 https://movie.douban.com/j type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=40 https://movie.douban.com/j

    1.5K00发布于 2020-11-26
  • 来自专栏JavaGuide

    这几部适合程序员看的电影!一定要安利给你们!宅家必备

    参考资料 [1] 模仿游戏 The Imitation Game: https://movie.douban.com/subject/10463953/? of Silicon Valley: https://movie.douban.com/subject/1298084/ [4] 蝴蝶效应: https://movie.douban.com/subject from=subject-page [5] 源代码 Source Code: https://movie.douban.com/subject/3075287/ [6] 黑客帝国 The Matrix: https://movie.douban.com/subject/1291843/ [7] 盗梦空间 Inception: https://movie.douban.com/subject/3541415 / [8] 超验骇客 Transcendence: https://movie.douban.com/subject/10810745/ [9] 代码奔腾 Code Rush (2000): https

    1.5K10发布于 2021-03-10
  • 领券