搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏python开发教程
python采集豆瓣网top250前10和后10电影短评并进行语义分析
今天收到一个订单需求，需要爬取豆瓣电影网top250中前10部和后10部的影评并对其进行语义分析比较这20部电影的质量，所以我们计划每部电影爬取100条短评并对评论进行语义分析，最后对其进行简单的数据可视化来比较其电影质量 0.8656266024493757三.使用matlibplot对数据进行简单的可视化import matplotlib.pyplot as plt x_data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
83030编辑于 2022-08-26
来自专栏用户5305560的专栏
模拟豆瓣登录
import requests # url = 'https://www.douban.com/accounts/login' # params = { # 'source':'index_nav', # 'form_email':'xxxxx', # 'form_password':'xxxx' # } # html = requests.post(url,params) # print(html.text) url = 'https://www.douban.com/' head
1.1K20发布于 2021-08-11
来自专栏技术社区
豆瓣电影api系列
豆瓣电影api 1、获取正在热映的电影：接口：https://api.douban.com/v2/movie/in_theaters? apikey=0b2bdeda43b5688921839c8ecb20399b 参数： start : 数据的开始项 count：单页条数 city：城市如：获取广州热映电影第一页 10条数据： apikey=0b2bdeda43b5688921839c8ecb20399b&city=广州&start=0&count=10 返回数据格式： key 类型描述 count int 单页条数 start apikey=0b2bdeda43b5688921839c8ecb20399b 访问参数： start : 数据的开始项 count：单页条数如：获取电影Top250 第一页 10条数据： https apikey=0b2bdeda43b5688921839c8ecb20399b 访问参数： start : 数据的开始项 count：单页条数如：获取即将上映电影第一页 10条数据： https:/
4.2K30编辑于 2022-06-16
来自专栏测试游记
爬虫练习-豆瓣读书
昨晚使用不熟悉的xpath语法解析百度新闻页面碰到了好多坑，今天继续通过简单的豆瓣图书进行练习 1.分析页面 ? 进入豆瓣首页https://www.douban.com/在第一行导航栏找到读书：https://book.douban.com/ 进入页面之后发现有很多内容，由于豆瓣没有反爬措施，所以多抓取些数据大致浏览后发现应该能通过标签查找到全部图书 39.50元
6 78.6 8 9
现代人内心流失的东西，这家杂货店能帮你找回——僻静的街道旁有一家杂货店， 10 html.xpath ('//[@id="content"]/div/div[1]/div[2]/div/table/tbody/tr/td/a') 10 price,time,score,book_info) 7VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s);" 8 #尝试插入数据 9 try: 10
76940发布于 2019-07-17

来自专栏python学习路

十、豆瓣读书爬虫

我的过程是：（python3） 1、先将豆瓣读书的所有标签以每行七个打印到页面上。 2、输入要爬取标签的名字，可以输入多个。 3、输入你想要爬取多少页。

1.5K50发布于 2018-04-16

来自专栏用户5305560的专栏

【爬虫】下载豆瓣图书

from lxml import etree import requests import csv fp = open('C://Users/LP/Desktop/doubanbook.csv','wt',newline='',encoding='utf-8') writer = csv.writer(fp) writer.writerow(('name', 'url', 'author', 'publisher', 'date', 'price', 'rate', 'comment')) urls

55920发布于 2021-08-11

来自专栏python爬虫与js逆向

豆瓣登录滑块分析

打开豆瓣的登录。连续点击登录大约10次，才会触发滑动。。。。这个风控有点。。。额。。可以作为滑块练习的网站。这里，先从图片入手，。分析图片是从哪里来的！！然后。。。然后他减去10，这个网易也是这么搞得。此处，他还有个骚操作。。用滑动距离除以0.5。。。下面这个r就是滑动轨迹。看着是不是非常难懂。那我们就进入这个函数瞅瞅。。

1.8K40编辑于 2022-06-02

来自专栏毛利学Python

豆瓣电影推荐系统

豆瓣电影推荐系统——通过爬取电影数据和用户数据，再利用所爬取的数据设计并实现相关推荐算法对用户进行电影推荐。

1.2K10编辑于 2022-12-20

来自专栏马拉松程序员的专栏

10月份上海租房类豆瓣小组的相关数据分析

我就拿豆瓣做实验，爬取了上海租房类小组的一个月的帖子的信息，然后做了一下简单的数据统计和分析。豆瓣反扒机制很厉害，当然为了绕过，花钱买的代理，目前为止被封了四个号。刚开始学习，写的不好勿喷。 1.总概采集有效数据量为：43663 发布者人数共计：11025 采集日期：2019年10月5日-10月31日前几天国庆节在家里做爬虫测试，有些数据采集不全，前几天的就删除了。所以说，在豆瓣中中介数量还是有一定的，这不难理解，有流量的地方就有广告，号称无中介租房只不过是号称罢了。好比你手里有1000万去挣10万块钱，和你手里10块钱去挣10万块钱的难度是不一样的，但是也不能觉得他有1000万不公平，这是人家上一辈积攒下来合理的财富。 10.最后网站具体功能：采集分析豆瓣小组（目前仅限上海）的数据提供查询使用，微信里不能打开外链接（链接在上面），最佳体验是在PC端谷歌浏览器。

99120编辑于 2022-04-26

来自专栏睡不着所以学编程

爬取豆瓣电影

嗯，今天还是挑战了爬取电影，因为我发现从别的页面进去就不是Ajax的页面了，步骤和书单差不多hhh

1K10编辑于 2022-09-20

来自专栏默认分类

豆瓣top250

`import requests import re url = "https://movie.douban.com/top250" headers = {

67910编辑于 2023-02-14

来自专栏北京马哥教育

豆瓣的基础架构

本文根据InfoQ中文站对豆瓣洪强宁（@hongqn）的沟通交流整理而成。洪强宁介绍了豆瓣的架构和组件，并分享了豆瓣基础平台部的一些团队经验。文中截图来自洪强宁在2013年CTO俱乐部中的分享。豆瓣整个基础架构可以粗略的分为在线和离线两大块。跟豆瓣其他工程团队一样，平台部也强制大家做code review。最后，对于新技术的引入上，豆瓣整体是比较偏激进的，我们鼓励大家去看看新的技术。这也是为什么豆瓣不太可能在重要的地方引入Java的原因，除非别无选择，我们一般都是Python、C和Go。

1.3K80发布于 2018-05-02

来自专栏罗超频道

豆瓣6.0来了！回归初心，豆瓣格局却变大了？

豆瓣正在回归初心。作为Web2.0时代的代表，豆瓣如何抓住移动互联网，一直是行业津津乐道的话题。在一度同时维护超过10个移动端豆瓣系App后，豆瓣最终改变策略聚焦到“豆瓣App”这款旗舰上。豆瓣在帮助用户发现感兴趣的书影音内容上做得更多，上线豆瓣榜单、豆瓣片单、豆瓣书单、个性化电影图书提醒功能等，整合为“豆瓣书影音助手”，用户会收到类似于“豆瓣又有8分以上的新电影了” “豆瓣电影TOP250 豆瓣1.0强调工具，主要是对书影音的评价；豆瓣2.0强调内容，整合了豆列、影视、旅行、时尚、科技宅等兴趣内容；豆瓣3.0强化社交；豆瓣4.0将工具、内容和社交更好地整合起来；豆瓣5.0则上线了豆瓣时间、当然，豆瓣此前也知道这种割裂给用户带来的困扰，它尝试推出过豆瓣FM和豆瓣阅读，来满足用户对音乐和书籍的需求。在版权大战的环境下，豆瓣这两个业务未能突破巨头的围堵。豆瓣，作为泛娱乐赛道的骨灰级玩家，自然不甘看着市场全部被后来者收割。 ? 剥离豆瓣音乐、豆瓣阅读独立发展，回归书影音的豆瓣，正在回归泛娱乐赛道。

65920发布于 2018-07-23

来自专栏Hank’s Blog

豆瓣数据分析

5 千与千寻 6 辛德勒的名单 7 盗梦空间 8 忠犬八公的故事 9 机器人总动员 10 value_counts() 8.7 49 8.8 37 8.6 28 8.5 26 8.9 23 9.0 22 9.2 19 9.1 18 9.3 10 import matplotlib.pyplot as plt %matplotlib inline plt.plot(mydata['评分'][:10]) [<matplotlib.lines.Line2D dtype: object data.min() 名称 2001太空漫游数量 59351 评分 8.3 短评 10年的完美句点。 max 1.244984e+06 9.600000 import numpy as np import matplotlib.pyplot as plt print(np.random.rand(10,5

57540发布于 2020-09-17

来自专栏IT架构圈

RN请求豆瓣数据

项目中使用豆瓣网提供的开放数据接口 http://www.jianshu.com/p/c5160fda1d38 Util工具类封装 Util工具类封装了获取设备屏幕宽高、网络请求成功或者失败回调函数、数据请求成功前的等待效果

1.3K30发布于 2018-05-31

来自专栏程序萌部落

重写Hexo豆瓣影评插件

不知道从什么时候开始，习惯于在豆瓣找电影看，到了后来，就偶尔写个电影观后感，随着看电影看的越来越多，可比较的东西就越来愈多，所以现在看完一部新电影，写写自己的感想就成了固定环节了，作为一种“动态”，能够搬到博客上与他人共享那是再好不过的了基于HEXO豆瓣插件 hexo-douban 的二次开发插，强烈建议先试用原插件，如果您觉得以下特性更能满足您的需要，那么再使用本插件。原插件 hexo-douban 的不足：书影音、大部分人就想放影评样式不好看，字体大小的一致性即颜色渲染全部观影记录，几百部电影会导致有几十页翻页，臃肿单纯的构造豆瓣原页面，在“已看”列表中，只会出现短评内容 user: 你的豆瓣ID.打开豆瓣，登入账户，然后在右上角点击 “个人主页” ，这时候地址栏的URL大概是这样：“https://www.douban.com/people/xxxxxx/” ，其中的" 去掉了影评页跳转的菜单按钮去掉了以上项目涉及的配置开关异常如果构建页面为空或404，且日志输出为 INFO 0 movies have been loaded in xx ms，这时怀疑您的IP由于多次请求豆瓣的页面而被豆瓣封禁了

1K00发布于 2020-12-22

来自专栏我是思聪

豆瓣电影数据分析

； 3.比起网上能搜到的其他豆瓣电影数据分析，它更为详细，可视化效果也不错；概述本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析，首先通过编写Python网络爬虫爬取了51375条电影数据图 9 中国各地区与全部地区年度均分对比： (a)中国各地区电影评分箱线图，(b) 全局与局部地区均分对比 3.电影数据的类型分析 3.1 不同类型电影的特点图 10 各类型电影评分、评论人数按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量，可以发现，15009名导演中有79.08%只拍过1-2部作品，46220名演员中有75.93% 执导电影总票房排名前30的导演表格 6参演电影总票房排名前30的演员 5.5 影片票房排名最后根据电影票房进行排名，得到票房排名前20的电影如表格7所示，可以看到绝大部分上榜电影都是中国电影，索引序号为3、10 总结本篇报告采集了1990-2020年间豆瓣电影29033组有效数据，从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价，主要有以下结论：豆瓣电影影片时长主要集中在90-120

4.4K30编辑于 2022-05-13

来自专栏python3

爬取豆瓣电影信息

昨天写了一个小爬虫，爬取了豆瓣上2017年中国大陆的电影信息，网址为豆瓣选影视，爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接，并保存到MongoDB中。 ITEM_PIPELINES = { 'douban.pipelines.DoubanPipeline': 300, } ROBOTSTXT_OBEY = False DOWNLOAD_TIMEOUT = 10 RETRY_ENABLED = True RETRY_TIMES = 10 程序共运行1小时20分21.473772秒，抓取到2986条数据。

1.6K20发布于 2020-01-20

来自专栏萝卜大杂烩

爬取豆瓣海王评论

“ 最近海王大火，今天就来看看豆瓣上对于海王这个大片的评论吧” Just Do It By Yourself 01.分析页面豆瓣的评论区如下可以看到这里需要进行翻页处理，通过观察发现，评论的URL 02.分别获取评论豆瓣的评论是分为三个等级的，这里分别获取，方便后面的继续分析其实可以看到，这里的三段区别主要在请求URL那里，分别对应豆瓣的好评，一般和差评。效果好评一般差评感觉爬取豆瓣还是比较简单的，毕竟并没有设置什么反爬手段，小伙伴们也可以一起动手试试

62820发布于 2019-07-17

来自专栏小锋学长生活大爆炸

豆瓣自动批量点赞

- [电脑端] 豆瓣自动顶贴下载：http://xfxuezhang.cn/WEB/SHARE/ => [电脑版]豆瓣自动顶贴 - [安卓端] 豆瓣自动顶贴下载：http://xfxuezhang.cn /WEB/SHARE/ [安卓版]豆瓣自动顶贴 - 自动顶贴教程：http://xfxuezhang.cn/index.php/archives/213/ - [电脑端] 豆瓣小组回帖机器人下载： http://xfxuezhang.cn/WEB/SHARE/ => [电脑版]豆瓣小组回帖机器人 - [安卓端] 豆瓣小组回帖机器人下载：http://xfxuezhang.cn/WEB/SHARE / => [安卓版]豆瓣小组回帖机器人 - 回帖机器人教程：http://xfxuezhang.cn/index.php/archives/137/ - [电脑端] 自动给指定评论点赞下载：http parseLike(self, page_arr): """ 解析数据包，执行点赞 :param page_arr: :param cookie: :return: """ 10

3.8K30发布于 2021-06-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

python采集豆瓣网top250前10和后10电影短评并进行语义分析

模拟豆瓣登录

豆瓣电影api系列

爬虫练习-豆瓣读书