搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏练手小项目
爬取豆瓣Top250 - 2
显示影片基本信息"""TODO 显示影片基本信息TODO 访问豆瓣电影Top250（https://movie.douban.com/top250? page_url in url_list: html_content = get_html(page_url) parser_html(html_content)结果显示访问豆瓣电影 Top250保存至本地文件"""TODO 访问豆瓣电影Top250（https://movie.douban.com/top250? # TODO 主演 spans = soup_detail.find_all("span", class_="attrs") actors = spans[2]
38821编辑于 2024-11-11
来自专栏大数据杂谈
Python 爬虫实践：《战狼2》豆瓣影评分析
前几天看了《战狼2》，发现它在最新上映的电影里面是排行第一的，如下图所示。准备把豆瓣上对它的影评做一个分析。 ? 可以看到和豆瓣网址上面是匹配的。这样就得到了最新电影的信息了。接下来就要进行对最新电影短评进行分析了。例如《战狼2》的短评网址为：https://movie.douban.com/subject/26363254/comments? 好的，至此我们已经爬取了豆瓣最近播放电影的评论数据，接下来就要对数据进行清洗和词云显示了。上图基本反映了《战狼2》这部电影的情况。
85850发布于 2018-06-11
来自专栏北京马哥教育
Python 爬虫实践：《战狼2》豆瓣影评分析
前几天看了《战狼2》，发现它在最新上映的电影里面是排行第一的，如下图所示。准备把豆瓣上对它的影评做一个分析。 hangzhou/') html_data = resp.read().decode('utf-8') 其中https://movie.douban.com/nowplaying/hangzhou/是豆瓣最新上映的电影页面例如《战狼2》的短评网址为：https://movie.douban.com/subject/26363254/comments? 如下图所示：好的，至此我们已经爬取了豆瓣最近播放电影的评论数据，接下来就要对数据进行清洗和词云显示了。 wordcloud=wordcloud.fit_words(word_frequence_list) plt.imshow(wordcloud) #主函数 main() 结果显示如下：上图基本反映了《战狼2》
1.3K40发布于 2018-05-02
来自专栏.NET开发那点事
豆瓣电台WP7客户端开发记录2
= this.ApplicationBar.Buttons[1] as ApplicationBarIconButton; btn_n = this.ApplicationBar.Buttons[2] as ApplicationBarIconButton; 2.因为MediaElement有个莫名其妙的问题，某个歌曲加载失败的时候会触发一个ERROR：2210 AG_E_INVALID_ARGUMENT
66820编辑于 2022-05-07
来自专栏用户5305560的专栏
模拟豆瓣登录
import requests # url = 'https://www.douban.com/accounts/login' # params = { # 'source':'index_nav', # 'form_email':'xxxxx', # 'form_password':'xxxx' # } # html = requests.post(url,params) # print(html.text) url = 'https://www.douban.com/' head
1.1K20发布于 2021-08-11
来自专栏技术社区
豆瓣电影api系列
豆瓣电影api 1、获取正在热映的电影：接口：https://api.douban.com/v2/movie/in_theaters? 2、获取电影Top250：接口：https://api.douban.com/v2/movie/top250? /v2/movie/coming_soon? /v2/movie/subject/:id? /v2/movie/subject/26942674?
4.2K30编辑于 2022-06-16
来自专栏测试游记
爬虫练习-豆瓣读书
昨晚使用不熟悉的xpath语法解析百度新闻页面碰到了好多坑，今天继续通过简单的豆瓣图书进行练习 1.分析页面 ? 进入豆瓣首页https://www.douban.com/在第一行导航栏找到读书：https://book.douban.com/ 进入页面之后发现有很多内容，由于豆瓣没有反爬措施，所以多抓取些数据大致浏览后发现应该能通过标签查找到全部图书 /div[2]/h2/a/@title')) 21 22 _book_press = book.xpath('. /div[2]/div[2]/span[2]/text()')) 33 #简介 34 item['book_info'] = ''.join( /div[2]/div[2]/span[2]/text()')) 50 #简介 51 item['book_info'] = ''.join(
76940发布于 2019-07-17
来自专栏python学习路
十、豆瓣读书爬虫
我的过程是：（python3） 1、先将豆瓣读书的所有标签以每行七个打印到页面上。 2、输入要爬取标签的名字，可以输入多个。 3、输入你想要爬取多少页。 in content: # 书名需要处理一下，split以空格分隔，移除空字符串，返回一个列表 f_title = book_info.select('.info h2' strip() desc_list = pub_info.split('/') book_url = '图书链接地址' + book_info.select('.info h2 except: rating = '0.0' try: # people_num = book_info.findAll('span')[2] 2、获取的标签列表很多，不能每个标签打印一次，独占一行。也不能一次都打出，这么多标签占一行：有点像网页分页的问题，自己也是按照这种思路解决的，用切片的方式从列表中取出
1.5K50发布于 2018-04-16
来自专栏用户5305560的专栏
【爬虫】下载豆瓣图书
book_infos.split('/')[0] publisher = book_infos.split('/')[-3] date = book_infos.split('/')[-2] price = book_infos.split('/')[-1] rate = info.xpath('td/div/span[2]/text()')[0]
55920发布于 2021-08-11
来自专栏python爬虫与js逆向
豆瓣登录滑块分析
2代的。。 2代基本上扣代码就行了。全是单个函数。。没有控制扁平化。。或者搭个环境，就能跑了。。这里就不多说了，，毕竟已经淘汰的版本。。还有前几天，一个读者给我发了个js文件。。打开豆瓣的登录。连续点击登录大约10次，才会触发滑动。。。。这个风控有点。。。额。。可以作为滑块练习的网站。这里，先从图片入手，。分析图片是从哪里来的！！然后。。。
1.8K40编辑于 2022-06-02
来自专栏毛利学Python
豆瓣电影推荐系统
豆瓣电影推荐系统——通过爬取电影数据和用户数据，再利用所爬取的数据设计并实现相关推荐算法对用户进行电影推荐。
1.2K10编辑于 2022-12-20
来自专栏睡不着所以学编程
爬取豆瓣电影
//div[@class='star']/span[2]/text()")[0] #这里也是！！ //div[@class='star']/span[2]/text()")[0] data.append(movie_rating) # 评价人数 remark_number 2.注意返回数据的类型，有些是列表的需用索引提取 3.要自信！！！不要一直发请求，会被封ip！！
1K10编辑于 2022-09-20
来自专栏默认分类
豆瓣top250
`import requests import re url = "https://movie.douban.com/top250" headers = {
67910编辑于 2023-02-14
来自专栏北京马哥教育
豆瓣的基础架构
本文根据InfoQ中文站对豆瓣洪强宁（@hongqn）的沟通交流整理而成。洪强宁介绍了豆瓣的架构和组件，并分享了豆瓣基础平台部的一些团队经验。文中截图来自洪强宁在2013年CTO俱乐部中的分享。豆瓣整个基础架构可以粗略的分为在线和离线两大块。跟豆瓣其他工程团队一样，平台部也强制大家做code review。最后，对于新技术的引入上，豆瓣整体是比较偏激进的，我们鼓励大家去看看新的技术。这也是为什么豆瓣不太可能在重要的地方引入Java的原因，除非别无选择，我们一般都是Python、C和Go。
1.3K80发布于 2018-05-02
来自专栏罗超频道
豆瓣6.0来了！回归初心，豆瓣格局却变大了？
豆瓣正在回归初心。作为Web2.0时代的代表，豆瓣如何抓住移动互联网，一直是行业津津乐道的话题。在一度同时维护超过10个移动端豆瓣系App后，豆瓣最终改变策略聚焦到“豆瓣App”这款旗舰上。豆瓣在帮助用户发现感兴趣的书影音内容上做得更多，上线豆瓣榜单、豆瓣片单、豆瓣书单、个性化电影图书提醒功能等，整合为“豆瓣书影音助手”，用户会收到类似于“豆瓣又有8分以上的新电影了” “豆瓣电影TOP250 豆瓣1.0强调工具，主要是对书影音的评价；豆瓣2.0强调内容，整合了豆列、影视、旅行、时尚、科技宅等兴趣内容；豆瓣3.0强化社交；豆瓣4.0将工具、内容和社交更好地整合起来；豆瓣5.0则上线了豆瓣时间、豆瓣拥有2亿注册用户，而且都是精准的泛娱乐以及文化内容消费用户，有巨大的分发价值。这意味着，豆瓣可以成为“内容平台的平台”，成为分发入口，这跟以前比，有更大的格局。第二，豆瓣可以探索更多商业模式。不过，长期来看，只要豆瓣愿意与第三方内容平台协作，相信各大内容平台都不会忽视豆瓣的2亿精准泛娱乐用户，如今拿到新用户越来越难，豆瓣将用户与内容平台共享，同时也是与平台共享其内容，可谓双赢，当然，最终如何玩
65920发布于 2018-07-23
来自专栏JackieZheng
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
Word2Ve是google 推出的做词嵌入（word embedding）的开源工具。这里使用Word2Vec的大致流程如下：　　　　1. 获取数据（这里是豆瓣电影短评数据）　　　　2. 数据处理（将短评数据使用分词器分词，并以空格连接分词结果）　　　　3. ，2万多条，对应的大概是2000多部的电影，一部电影抓的短评数在10条左右。训练数据　　有了上述的分词后的文件，就可以作为Word2Vec算法的输入用来训练模型了。　　这部分代码可以参看上面的GitHub代码中的Word2VEC.java类。至此，我们明白了 Word2Vec是什么，有什么用，怎么用常用的中文分词器以及具体用法，如何加载停用词库等 Word2Vec如何训练数据得到模型 Word2Vec如何使用训练的模型分析有趣的维度如果您觉得阅读本文对您有帮助
1.9K91发布于 2018-01-16
来自专栏Hank’s Blog
豆瓣数据分析
2 阿甘正传 1072395 9.4 一部美国近现代史。 2 阿甘正传 1072395 9.4 一部美国近现代史。 at 0x11564f828>, <matplotlib.lines.Line2D at 0x1156b0240>, <matplotlib.lines.Line2D at 0x1156b0390 >, <matplotlib.lines.Line2D at 0x1156b04e0>, <matplotlib.lines.Line2D at 0x1156b0630>] ? plt.plot(data['评分'][:20]) [<matplotlib.lines.Line2D at 0x11576a5c0>] ?
57540发布于 2020-09-17
来自专栏IT架构圈
RN请求豆瓣数据
项目中使用豆瓣网提供的开放数据接口 http://www.jianshu.com/p/c5160fda1d38 Util工具类封装 Util工具类封装了获取设备屏幕宽高、网络请求成功或者失败回调函数、数据请求成功前的等待效果 this.setState({ show: false }); // 请求数据 var that = this; //https://api.douban.com/v2/
1.3K30发布于 2018-05-31
来自专栏程序萌部落
重写Hexo豆瓣影评插件
基于HEXO豆瓣插件 hexo-douban 的二次开发插，强烈建议先试用原插件，如果您觉得以下特性更能满足您的需要，那么再使用本插件。 user: ID（数字或字幕|无需引号） builtin: true movie: title: '生成页面的标题' quote: '生成页面的内容的导语' length: 2 user: 你的豆瓣ID.打开豆瓣，登入账户，然后在右上角点击 “个人主页” ，这时候地址栏的URL大概是这样：“https://www.douban.com/people/xxxxxx/” ，其中的" length: 默认值为2，非页数，可以自由尝试（建议取值:2-4）。去掉了影评页跳转的菜单按钮去掉了以上项目涉及的配置开关异常如果构建页面为空或404，且日志输出为 INFO 0 movies have been loaded in xx ms，这时怀疑您的IP由于多次请求豆瓣的页面而被豆瓣封禁了
1K00发布于 2020-12-22
来自专栏python3
爬取豆瓣电影信息
昨天写了一个小爬虫，爬取了豆瓣上2017年中国大陆的电影信息，网址为豆瓣选影视，爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接，并保存到MongoDB中。 /text()").extract_first() item["director"] = response.xpath("//div[@id='info']/span[1]/span[2] /a/text()").extract_first() item["scriptwriter"] = response.xpath("///div[@id='info']/span[2] /span[2]/a/text()").extract() item["starring"] = response.xpath("//div[@id='info']/span[3]/span [2]/a[position()<6]/text()").extract() item["type"] = response.xpath("//div[@id='info']/span[
1.6K20发布于 2020-01-20

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬取豆瓣Top250 - 2

Python 爬虫实践：《战狼2》豆瓣影评分析

Python 爬虫实践：《战狼2》豆瓣影评分析

豆瓣电台WP7客户端开发记录2

模拟豆瓣登录

豆瓣电影api系列

爬虫练习-豆瓣读书

十、豆瓣读书爬虫

【爬虫】下载豆瓣图书

豆瓣登录滑块分析

豆瓣电影推荐系统

爬取豆瓣电影

豆瓣top250

豆瓣的基础架构

豆瓣6.0来了！回归初心，豆瓣格局却变大了？

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

豆瓣数据分析

RN请求豆瓣数据

重写Hexo豆瓣影评插件

爬取豆瓣电影信息

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

爬取豆瓣Top250 - 2

Python 爬虫实践：《战狼2》豆瓣影评分析

Python 爬虫实践：《战狼2》豆瓣影评分析

豆瓣电台WP7客户端 开发记录2

模拟豆瓣登录

豆瓣电影api系列

爬虫练习-豆瓣读书

十、豆瓣读书爬虫

【爬虫】下载豆瓣图书

豆瓣登录滑块分析

豆瓣电影推荐系统

爬取豆瓣电影

豆瓣top250

豆瓣的基础架构

豆瓣6.0来了！回归初心，豆瓣格局却变大了？

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

豆瓣数据分析

RN请求豆瓣数据

重写Hexo豆瓣影评插件

爬取豆瓣电影信息

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

豆瓣电台WP7客户端开发记录2