首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏技术社区

    豆瓣电影api系列

    豆瓣电影api 1、获取正在热映的电影: 接口:https://api.douban.com/v2/movie/in_theaters? title string 值为 “正在上映的电影-广州” subjects 是电影列表,是一个 json 数组,里面存的是具体的电影信息,电影信息的格式为: key 类型 描述 rating json 对象 评分信息 genres json数组 电影类型 title string 电影名中文名 casts json数组 主演列表 collect_count int 观看人数 original_title string 电影原名 subtype string 数据类型 directors json数组 导演列表 year int 上映年份 images json对象 存放各种大小的电影图 alt string apikey=0b2bdeda43b5688921839c8ecb20399b 访问参数: 电影id 如:电影《神秘巨星》的电影id为:26942674,搜索此电影的详细信息: https://api.douban.com

    4.2K30编辑于 2022-06-16
  • 来自专栏毛利学Python

    豆瓣电影推荐系统

    豆瓣电影推荐系统——通过爬取电影数据和用户数据,再利用所爬取的数据设计并实现相关推荐算法对用户进行电影推荐。 然后设计出图形用户界面(GUI)进行交互,封装成电影推荐软件,针对数据集中的用户推荐相关电影

    1.2K10编辑于 2022-12-20
  • 来自专栏睡不着所以学编程

    爬取豆瓣电影

    嗯,今天还是挑战了爬取电影,因为我发现从别的页面进去就不是Ajax的页面了,步骤和书单差不多hhh 由于我在一边写一遍测试,就不停的运行,后来发现运行以后没有任何结果,我就测试了一下,应该是我发请求太频繁 data = [] # 获取电影名 movie_name = movies.xpath(". 短评这个只能以列表的形式打印出来,因为有几个电影是没有短评的,索引取不到会报错,并且只有242部电影,就是说那几部没短评的直接被pass掉了,我再想想办法,好累orz... 刚好250部电影!顺便还复习了一下try的用法,我太开心辣!!!!大功终于告成嘻嘻嘻,历时整整一天啊啊啊,从早到晚。 data = [] # 获取电影名 movie_name = movies.xpath(".

    1K10编辑于 2022-09-20
  • 来自专栏python3

    爬取豆瓣电影信息

    昨天写了一个小爬虫,爬取了豆瓣上2017年中国大陆的电影信息,网址为豆瓣选影视,爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接,并保存到MongoDB中。 else: yield item 2.items.py文件 import scrapy class DoubanItem(scrapy.Item): #电影名称

    1.6K20发布于 2020-01-20
  • 来自专栏我是思聪

    豆瓣电影数据分析

    ; 3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错; 概述 本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据 、瑞典,评分普遍偏高,均分超过了7分,箱体位置较高且下限较低,说明豆瓣收录的欧洲电影口碑较好。 c.非洲国家没有出现在图7中,是由于豆瓣电影数据中非洲国家电影数量较少,往往只有1部电影,最多的南非也只贡献了34条数据。 由于其他国家电影数目不及中国、美国,且相关性也较弱,在此我们推断是由中美两国的豆瓣电影数据引起了评分下降。 总结 本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论: 豆瓣电影影片时长主要集中在90-120

    4.4K30编辑于 2022-05-13
  • 来自专栏JackieZheng

    Java豆瓣电影爬虫——抓取电影详情和电影短评数据

    正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。 动机   采集豆瓣电影数据包括电影详情页数据和电影的短评数据。   电影详情页如下图所示   需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。    数据库设计   有了如上的需求,需要设计表,其实很简单,只需要一张电影详情表movie和一张电影短评表comments,另外还需要一张存储网页提取的超链接的记录表record。 Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据 Java豆瓣电影爬虫——小爬虫成长记(附源码)   程序爬取控制在豆瓣可接受范围内,不会给豆瓣服务器带来很大的压力,写此程序也是个人把玩 ,绝无恶意,万望豆瓣君谅解^_^ 如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!

    2.9K90发布于 2018-01-16
  • 来自专栏linux基础

    爬取豆瓣高分电影

    爬取豆瓣高分电影主要对豆瓣高分电影,按热度排序进行电影信息的爬取 分析 按F12打开开发者工具,点击XHR标签,因为他是通过ajax加载获取更多的电影信息的。 返回的信息是json格式的数据,包含了每部电影详情的链接信息,先获取这些信息加企鹅号裙764261140 页码每次最后的 page_start参数 加20可以换到下一页 下面是详细代码 import dict_ret = json.loads(json_str) print(dict_ret) content_list = dict_ret["subjects"] # 所有电影数据

    92530发布于 2020-08-12
  • 来自专栏JavaPark

    Python 爬取豆瓣电影当前上映电影信息

    目标 爬取当前时间段豆瓣电影中正在上映的电影的相关信息,如电影名、导演、演员表、上映时间、制作方等信息,然后再通过字典的方式,将其保存在本地文件当中,以便我们查询; Code #! : doubanMovie.py # @Software: PyCharm import pprint import requests from lxml import etree ''' 爬取豆瓣电影上当前正在上映的电影信息 演员表':actors, '海报':thumbnail } movies.append(movie) pprint.pprint(movies) with open('豆瓣正在上映 .txt', 'w', encoding='utf-8') as movie_file: for movie in movies: movie_file.write('电影名:' + movie['电影名'] + '\n') movie_file.write('评分:' + movie['评分'] + '\n') movie_file.write

    1K30编辑于 2022-06-15
  • 来自专栏web前端教室

    仿制 豆瓣电影 app beta(一)

    -- 需求:仿豆瓣电影 --> 用vueJs来搞定 <! -- 细化需求 --> 一,生成脚手架:vue-cli; 二,数据来源,豆瓣的开放api; 三,各个展示页面; 1、正在热映; 2、即将上映; 3、电影详情; 4、排行; 5、搜索; 6、收藏 2、正在热映、即将上映二个按钮分别调用公共axios方法,更新电影列表。 -- 下一步的功能规划 --> 收藏,应该是把数据保存在Localstorage中; 搜索嘛,看看豆瓣有没有公开的搜索接口,这个再看看网上有没有其它的实现方案。

    1K60发布于 2018-03-27
  • 来自专栏vincent随笔

    scrapy爬取豆瓣电影教程

    这个电影的整体评分,实时评分人数,各个星段的评价分布。由于这个评分是动态更新的,所以我们不是爬一次就完事了,要按照一定的时间间隔去爬取更新 ? 2. 这个文件里定义了对项目的各种设置(采用哪个middware,设置爬取时间间隔等等) spiders/ __init__.py 跟外面文件夹下的是一样的作用,留着不用改 创建完项目框架之后,我们来开始爬数据 豆瓣网址链接分析 我们以4月初上映的高分电影《头号玩家》为例, ? , like Gecko) Version/3.1.2 Mobile Safari/525.20.1", ] 每次随机选一个加在request的头部就好了 第二步,加上cookie模拟登录 比如在豆瓣 电影评分: ?

    3.4K31发布于 2021-08-18
  • 来自专栏全栈程序员必看

    python爬取豆瓣电影榜单

    python爬取豆瓣电影榜单 python爬取豆瓣电影榜单并保存到本地excel中,以后就不愁没片看了。 目标 确定我们想要抓取的电影的相关内容。 抓取豆瓣top250电影的排名、电影名、评价(总结很到位)、评分、点评人数及电影豆瓣页面。 抓取各种电影类型的排行榜前100。 编码 省略需求到编码中间的繁文缛节,直接上手编码。 Font, Alignment class DouBanMovieList1(): def __init__(self): self.path = r'D:\Download\豆瓣电影榜单 \豆瓣电影.xlsx' def get_moviedata(self): data = [] headers = { 'User-Agent': 'Mozilla \豆瓣电影.xlsx' self.type_dict = { 11: '剧情', 24: '喜剧', 5: '动作', 13: '爱情', 17: '科幻', 25: '动画',

    1.1K30编辑于 2022-09-01
  • 来自专栏用户5305560的专栏

    【爬虫】爬取豆瓣电影信息

    import requests from lxml import etree import re import pymysql import time conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mydb', port=3306, charset='utf8') cursor = conn.cursor() headers = { 'User-Agent':'Mozilla/5.0 (Win

    81620发布于 2021-08-11
  • 来自专栏userlyz学习记录

    豆瓣电影分类排名爬取

    豆瓣电影分类排名爬取: 今天晚上复习了一下python学习之百度翻译页面爬取 复习成果已经写在上一个博客了 这接下来就是requests模块学习之豆瓣电影分类排名进行数据爬取 我本来以为这个学会之后就可以对豆瓣呀,网易云上面的歌曲进行爬取了 开始学习之后标题给我整了一个豆瓣电影分类排名爬取 但是还是太年轻了,原来事情没有那么简单 下面就是一边听课一边编写的代码 '#对应ua检测的一个反反爬策略 #} #response=requests.get(url=url,kwargs=kwargs,) #接下来就是requests模块练习之爬取豆瓣电影分类排行 'type': '24', 'interval_id':'100:90', 'action':'' , 'start': '1',#从豆瓣库中的第几部电影去取

    89820编辑于 2022-08-18
  • 来自专栏wujunmin

    Power BI抓取豆瓣热门电影数据

    豆瓣电影首页有最近的热门推荐,如何将这些信息批量加载到Power BI当中? page_limit=20&page_start=0 在Power BI Desktop 点击主页-获取数据-Web,输入以上网址,即可看到下图中的信息: 可以看到已经非常智能,Power BI帮我们自动提取了电影的名称及豆瓣评分 上图左下角的“使用示例添加表”可以帮我们零代码轻松抓取电影海报,电影链接等内容。 点击“使用示例添加表”,在第一列输入两部电影,Power BI即自动识别其中规律,提取了该页20部电影的名字。 打开任一一部电影,发现豆瓣为每部电影进行了唯一编号,比如《绅士们》的编号是“30211998”。 可视化方面可以自行发挥,比如可以做个带超链接的表格(使用条件格式),链接到豆瓣详情页。

    1.7K40发布于 2021-09-07
  • 来自专栏Python基础、进阶与实战

    爬虫实战-豆瓣电影Top250

    摘要 本文通过requests和re库实现了豆瓣电影top250的爬取。 首先是对书上案例进行学习,了解如何定位网站中我们需要的信息,并使用re提供的正则表达式匹配我们的信息。 爬取top250电影。 网站分析 在使用代码爬取前,我们需要分析网站是怎么放置电影信息的: 这里我们先对作者搭建的一个网站进行爬取(学会后我们再对真实的豆瓣爬取): 进入网址https://ssr1.scrape.center 代码实现: 在上面的分析之后,我们得到如下思路: 1.进入电影列表页面,获取每个电影的详情URL。 2.对10页电影列表进行相同操作。 豆瓣TOP250 我们用同样的思路去爬取豆瓣TOP250 起始页: https://movie.douban.com/top250 翻页: https://movie.douban.com/top250

    95330编辑于 2022-12-06
  • 来自专栏毛利学Python

    爬虫篇| 爬取豆瓣电影(二)

    明确目标 爬取的是豆瓣电影,并保存到csv格式中 爬取豆瓣是非常的简单,因为没有任何反爬的机制 https://movie.douban.com/explore ? 分析网站 ? rate+ ',' + title + ',' + url + ',' +cover + '\n') if __name__ == '__main__': name = input('爬什么电影 ,在[热门 最新 经典 可播放 豆瓣高分 冷门佳片 华语 欧美 韩国 日本 动作 喜剧 爱情 科幻 悬疑 恐怖 治愈]中选') num = input('要爬几页{ }电影'.format(name)) if name == '最新': sort = 2 else: sort = input('按照什么排序[1:按热度排序

    1.5K70发布于 2019-08-29
  • 来自专栏spring源码深度学习

    Scrapy入门案例——爬取豆瓣电影

    我们要爬取的数据很简单,是豆瓣电影排行榜。之所以说它简单是因为它请求返回的数据我们可以转换成规整的json列表,并且获取分页链接也很简单。 我们只获得title和url的信息。

    94520发布于 2018-09-13
  • 来自专栏web前端教室

    【完工】仿制 豆瓣电影 app beta(二)

    然后用vueJs做的这个仿制豆瓣电影的web app,就算是搞定了,看下面的视频演示, 虽然界面依然是很简陋,但基本逻辑是实现了的。在目前阶段UI的美观程度并不是重点。 我看豆瓣给出了一大片的接口,各种各样的,我也没太细看。 仿制 豆瓣电影 app beta(一) 这二天我就感觉,现在做前端开发也太简单了,太容易了。

    1K70发布于 2018-03-27
  • 来自专栏about云

    使用Spark MLlib给豆瓣用户推荐电影

    下面我们就以实现一个豆瓣电影推荐系统为例看看如何使用Spark实现此类推荐系统。以此类推,你也可以尝试实现豆瓣图书,豆瓣音乐,京东电器商品推荐系统。 豆瓣数据集 一般学习Spark MLlib ALS会使用movielens数据集。这个数据集保存了用户对电影的评分。 但是这个数据集对于国内用户来说有点不接地气,事实上国内有一些网站可以提供这样的数据集,比如豆瓣,它的人气还是挺高的。 但是豆瓣并没有提供这样一个公开的数据集,所以我用抓取了一些数据做测试。 数据集分为两个文件: hot_movies.csv: 这个文件包含了热门电影的列表,一种166个热门电影。 这样我们就可以提供接口为指定的用户提供推荐的电影。 查看本例生成的推荐结果,下面是其中的一个片段,第一个字段是用户名,后面是五个推荐的电影(电影ID:电影名字) [XML] 纯文本查看 复制代码 ?

    2.2K70发布于 2018-03-27
  • 来自专栏一个默默无闻的工程师的日常

    获取豆瓣电影TOP 250并存入文件

    movie_quote_obj = movies_li.find('div', attrs={'class': 'bd'}).find('span', attrs={'class': 'inq'}) ### 发现某部电影评价为空 , encoding='utf_8_sig') as csvFile: writer = csv.writer(csvFile) writer.writerow((u'电影

    88830发布于 2018-07-16
领券