首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏JackieZheng

    Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

      在上篇实现了电影详情和短评数据的抓取。到目前为止,已经抓了2000多部电影电视以及20000多的短评数据。   数据本身没有规律和价值,需要通过分析提炼成知识才有意义。 抱着试试玩的想法,准备做一个有关情感分析方面的统计,看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影,怀着何种心情写下的短评。    这里使用Word2Vec的大致流程如下:     1. 获取数据(这里是豆瓣电影短评数据)     2. 数据处理(将短评数据使用分词器分词,并以空格连接分词结果)     3. 载入训练模型,分析感兴趣的维度(比如,近义词分词,关联词分析)     Github: https://github.com/NLPchina/Word2VEC_java 获取数据   数据就用短评数据 ,2万多条,对应的大概是2000多部的电影,一部电影抓的短评数在10条左右。

    1.9K91发布于 2018-01-16
  • 来自专栏我是思聪

    豆瓣电影数据分析

    即便有着这些缺点,我还是想把它挂上来,主要是因为: 1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明; 2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主 基本框架 1.电影数据的评分、时长分析 1.1 电影数据总体描述 1.2 时长分布 1.3 评分分布 1.4 评分与时长、评论人数的关系 2.电影数据的地区分析 2.1 2.电影数据的地区分析 2.1 全球电影数量分布 图 6 各个地区电影数量分布 表格 2 电影数量前十的国家 根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一 按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93% 只主演过1-2部作品。

    4.4K30编辑于 2022-05-13
  • 来自专栏Soul Joy Hub

    移动电影售票系统案例分析

    系统没有检索到所需电影 3a1. 系统显示“没有找到适合条件的电影” 企业规则 1. 电影详细信息包括:名称、导演、演员以及类别 2. 会员请求评价留言 2. 会员选择已观看的电影 3. 会员输入评价信息内容 4. 商户请求发布电影信息 2. 系统显示发布电影信息界面 3. 商户输入电影信息 4. 系统检查输入的电影信息 5. 电影信息包括:名称、导演、演员、类别、观影时间、价格、座位量 2. 面向对象 什么是面向对象的分析? 面向对象的分析(Object Oriented Analysis,OOA)强调的是在问题域内发现和描述对象(或概念)。

    2.4K50发布于 2019-02-13
  • 来自专栏毛利学Python

    多模型电影短评情感分析

    多模型电影短评情感分析 首先,从传统的特征提取方面对比了BOW、TF-IDF、N-Gram技术,并使用不同的机器学习算法构建了不同的子模型,然后又采用了Stacking模型融合技术对短评情感进行了进一步的探索 言归正传,下面一起来看看电影短评情感分析的结果吧! 者将从以下几个大方向构建电影短评情感分析模型: 基于Bag-Of-Words特征的文本分类模型 基于TF-IDF特征的文本分类模型 基于Stacking模型融合的情感分析 基于深度学习的短评情感分析 基于 数据集说明 data目录里面的数据,只有2万行, 本项目为电影短评情感分析项目,代码文件说明: code/preprocessing.py]: 预处理文件 code/stacking.py: stacking code/dl_sa.py: 基于深度学习的情感分析模型。

    62020编辑于 2022-12-20
  • 来自专栏毛利学Python

    TMDB电影数据分析报告

    TMDB电影数据分析报告 前言 数据分析的基本流程: 提出问题 理解数据 数据清洗 构建模型 数据可视化 形成报告 一、提出问题 本次报告的主要任务是:根据历史电影数据,分析哪种电影收益能力更好 导入数据集后,通过对数据的查看,并结合要分析的问题,筛选出以下9个要重点分析的变量: |序号|变量名|说明 |------ |1|budget|电影预算(单位:美元) |2|genres|电影风格 |3 (fontsize=15) ax2.set_ylabel('收益率', fontsize=15) plt.grid(False) 不同电影风格的平均收益能力分析: #不同电影风格的平均收益能力分析 = 15) plt.xticks(np.arange(11)) plt.grid(True) plt.show() 原创电影与改编电影对比分析: #原创电影与改编电影对比分析 original_novel VS 改编电影:占比分析', fontsize=15) ax2 = plt.subplot(1, 2, 2) ax2 = org_vs_novel['profit'].plot.bar() plt.xticks

    1.3K50编辑于 2022-09-22
  • 来自专栏一英里广度一英寸深度的学习

    SparkSQL 电影评价数据分析

    approximately 3,900 movies made by 6,040 MovieLens users who joined MovieLens in 2000. 2000年,100万条电影评价数据集 ,包括3900部电影和6040个用户。 line.split("::"); return new User(Long.parseLong(arr[0]), arr[1],Integer.parseInt(arr[2] M| 176| | 2| F| 91| | 3| F| 100| | 3 ; else return false; } ) 总结 本文通过电影数据集分析代码

    1.2K30发布于 2018-09-12
  • 来自专栏Python小二

    Python 分析电影《南方车站的聚会》

    《南方车站的聚会》由刁亦男执导,主要演员包括:胡歌、桂纶镁、廖凡、万茜等,该片于 2019 年 5 月 18 在戛纳电影节首映,2019 年 12 月 6 日在中国正式上映。 影片上映了一周多,票房接近 2 亿,作为一部文艺片,这个表现应该算是属于中上水平了。 我们可以看到有 5 万多条影评,目前豆瓣对查看影评数据的限制是:未登录最多可以查看 200 条数据,登录用户最多可以查看 500 条数据,我们要做的是通过 Python 爬取豆瓣 500 条影评数据,然后进行数据分析 //h3/span[2]/span[2]/@class')[0][7] # 获取时间 t = comment.xpath('. 上面我们只使用了评论内容信息,还有时间和星级信息没有使用,最后我们可以用这两项数据分析下随着时间的变化影片星级的波动情况,以月为单位统计影片从首映(2019 年 5 月)到当前时间(2019 年 12月

    83530发布于 2020-08-18
  • 来自专栏ATYUN订阅号

    利用机器学习分析电影偏好,探究电影情感历程以优化剧本

    他们的研究重点是电影的情感历程,调查这些是否属于不同的类别,以及它们是否与电影的成功有关。 他们使用自然语言处理(NLP)算法,分析电影脚本以确定情感历程,然后利用这些结果在收入与公众接受度方面探讨电影的情感历程与其成功之间的关系。 《Rags to Riches》:“持续的情绪上升”(例如,肖申克的救赎,土拨鼠日,圣诞节前的梦魇) 2.《Riches to Rags》:“持续的情绪下降”(例如,惊魂记,玩具总动员3) 3. 《灰姑娘》:“上升,下降,再上升”(例如,青春年少,Babe,蜘蛛侠2) 6.《俄狄浦斯》:“下降,上升,再下降”(例如,关于我母亲的一切,尽善尽美,小美人鱼) ? “在未来,我们希望创建可靠的方法来分析所有媒体中的情绪弧线,包括纪录片等非小说类作品以及YouTube上的短片等视频。一旦我们对这个工具进行了优化,我们就可以将该公司的业务商业化。”

    80810发布于 2018-07-27
  • 来自专栏CDA数据分析师

    手把手教你用Python分析电影 | 以《蚁人2》为例

    作者: 唐绍祖 本文为 CDA 数据分析师原创作品,转载需授权 《蚁人2》自8月24日在中国大陆上映以来,已经有将近一个月。 作为《复仇者联盟3》之后漫威出品的首部电影,《蚁人2》对漫威宇宙电影的剧情承转起着关键作用。 首先用浏览器打开猫眼电影的蚁人2电影网址: http://maoyan.com/films/343208 然后按F12,在进入app窗口模式之后,点击查看app端的所有评论。 ? 2.评分星级比例分析 作评分星级比例分析,用到的只有pyecharts里面的Pie组间,但是这里需要注意的是我们在获取评论的过程中,很可能会有以下报错: ? 从以上分析可见,《蚁人2》作为一部老少咸宜的喜剧科幻电影,虽然在剧情上有所不足,但是总体来讲算是一部广受欢迎的高分之作,可以说是一家老小周末欢聚时可选的佳作。

    1.2K20发布于 2018-10-25
  • 来自专栏小馒头学Python

    【Python数据分析五十个小案例】电影评分分析:使用Pandas分析电影评分数据,探索评分的分布、热门电影、用户偏好

    例如,分析评分分布可以帮助我们识别评分过低或过高的电影,探索评分高的电影类型,进而为推荐系统提供优化建议。本文将通过Pandas库分析电影评分数据,帮助大家探索以下问题:电影评分的分布是怎样的? 电影评分分布分析各评分区间的电影数量分析我们可以根据评分区间对电影进行分类,统计各个区间的电影数量。例如,评分为1-3、4-6、7-9和10分的电影各有多少部。 (df) * 100:.2f}%")热门电影分析根据评分数筛选热门电影热门电影通常有大量的评分,我们可以通过num_ratings(评分数)来筛选这些电影。 df) * 100:.2f}%")# 6. 结论print("\n数据分析完成!")print("1. 评分分布:电影评分大多集中在7-9分之间。")print("2. 热门电影:高评分和大量评分数的电影通常会更受欢迎。")print("3.

    1K00编辑于 2024-11-28
  • 来自专栏AI.NET极客圈

    AI重塑动画电影未来:《哪吒2》开启动画电影新时代

    如今,其续集《哪吒2》的票房正在高歌猛进,它不仅承载着观众的无限期待,也肩负着推动中国动画电影产业进一步发展的重任。 在这一背景下,人工智能(AI)技术的迅猛进步为动画电影制作带来了革命性的可能性。 剧本创作与故事板绘制 剧本创作是动画电影的灵魂所在。AI可以通过分析海量文学作品、电影剧本和观众喜好数据,生成富有创意的情节框架或对话。 2. 绑定与动画 绑定(Rigging)是为模型添加骨骼系统的过程,传统上需要技术人员手工调整。AI可以通过分析模型的几何结构,自动预测关节位置并生成绑定系统,从而节省时间。 AI可以通过分析剧情节奏和情感高点,自动生成初步剪辑版本。例如,在《哪吒2》的决战场景中,AI可以根据动作频率和音乐节奏推荐最佳剪辑点。 五、以《哪吒2》为例的AI应用展望 《哪吒2》作为一部万众瞩目的续集,再加上当下AI的盛行,我们可以从以下方面思考动画电影可能的应用与挑战: 1.

    75410编辑于 2025-03-20
  • 来自专栏Python自动化测试

    豆瓣电影评分数据分析

    在前面对接口测试的知识体系相对来说写了很多的文章,今晚就结合部分的知识体系,把获取到的知识体系,结合pyecharts来数据进行一个简单的分析。 实现的思路是访问豆瓣最新的电影,然后使用requests库对它进行请求,获取到服务端返回的数据后,依据获取的数据,分别取出电影的名称,电影的评分,然后形成可视化的东西,这样在可视化的界面中,就可以看到最近电影哪些是比较受欢迎的并且它的评分比较高 ,对我们出去看电影来说,也是一个刚需。 ,和电影相对应的评分,见实现的源码: #! movies)) titleRates=[] for rate in rates: titleRates.append(int(float(rate))) bar=Bar('豆瓣电影评分数据分析

    1.6K20发布于 2018-12-25
  • 来自专栏醉生梦死

    java抓取豆瓣电影数据,分析电影评分,生成统计图表 ---servlet

        最近花时间学习了一下使用Java获取网站数据的方法,自己也亲自动手实践一下;共获取3000+数据,去除重复的数据剩余2000+,使用JFreeChart根据电影评分做出几张简单的统计图。 电影评分统计图:     JFreeChart生成图片 ? ? ?     使用jsoup获取该网站的电影数据信息,此网站动态加载数据,如果直接查看网页源代码是看不到数据的。 部分代码如下: movieServlet.java     主要的功能为:获取网站的电影数据     首先获取每一个电影分类的链接: ? }else { net.sf.ehcache.Element element2 = new net.sf.ehcache.Element(keyID,name); cache.put(element2 } } catch (SQLException e) { e.printStackTrace(); } i++; } return mapCount; } 获取每个电影评分的电影数量

    3.1K40发布于 2018-11-05
  • 来自专栏Python中文社区

    Python分析《羞羞的铁拳》电影观众评论

    这也使它成为继《战狼2》、《美人鱼》和《捉妖记》后第四部票房过 20 亿的国产电影,在国内票房史上排第6位啊啊啊~ 猫眼数据 那么面对这么一部票房收割机,投资人肯定是笑的合不拢腿【大雾】嘴了 ——让数据分析告诉你】 另外,每天凌晨2点-6点之间的评论是最少的,毕竟夜猫子还是少数啊。 看来有不少人的睡眠时间是在1点左右,而且有相当一部分朋友喜欢在睡前看看豆瓣~ 至于上映时间嘛,我看了下电影是在9月30日上映的,所以从30日开始评论数量激增,在10月1日2日的时候达到顶峰,7日开始逐渐下降 我本来是想看看一部电影的热度大概能持续多久,不过由于《羞羞的铁拳》是一部上映没多久的电影,所以用它来分析不太合适。 了解数据的情况对于下一步情感分析会起到一定的帮助,比如我们从目前得到信息可以发现,大家对这部电影的评分还是比较高的,情感普遍倾向于正面。

    1.4K70发布于 2018-02-01
  • 来自专栏机器学习养成记

    商业分析python实战(二):电影智能推荐

    这时,可以利用相关数据,研究用户兴趣偏好,分析用户的需求和行为,引导用户发现需求信息,将内容准确推荐给用户。 本例通过943名用户对1664部电影的评分数据,构建协同过滤模型,进而推荐电影供用户观看。 步骤 1、获取数据; 2、数据探索分析; 3、构建智能推荐模型; 4、评估推荐系统模型。 NO.2 数据探索分析 导入的数据共有99416行,3列,第一列为用户id,第二列为电影名字,第三列为打分。 同时,为了进行每部电影的打分数据探索分析,将movie列中的电影名转换为列名,转换后,可观察每部电影的评分用户数及分数的基本分布。 数据探索分析 print("#step2:数据探索分析") datafile.info()#数据基本信息 datafile.score.isna().sum()#数据缺失值数量 datafile = datafile.dropna

    1.8K40编辑于 2023-08-31
  • 来自专栏日常学python

    Python数据可视化:2018年电影分析

    有态度地学习 双11已经过去,双12即将来临,离2018年的结束也就2个月不到,还记得年初立下的flag吗? 完成了多少?相信很多人和我一样,抱头痛哭... 本次利用猫眼电影,实现对2018年的电影大数据进行分析。 ? / 01 / 网页分析 01 标签 ? 通过点击猫眼电影已经归类好的标签,得到网址信息。 02 索引页 ? ', 'uniF125', 'uniF83F', 'uniE9E2', 'uniEEA6', 'uniEEC2', 'uniED38', 'uniE538', 'uniF8E7'] for i 08 电影名利双收TOP10 ? 计算公式是,把某部电影的评分在所有电影评分中的排名与这部电影的票房在所有票房中的排名加起来,再除以电影总数。 除了「侏罗纪世界2」「无双」「捉妖记2」,我都看过啦! 09 电影叫座不叫好TOP10 ? 计算公式是,把某部电影的票房排名减去某部电影的评分排名加起来,再除以电影总数。

    1.1K30发布于 2018-12-13
  • 来自专栏宏伦工作室

    豆瓣电影数据分析和可视化

    前一段时间出于个人兴趣做了个小demo,主要内容是以豆瓣电影上提供的电影数据为例,完整地展示网络数据从获取、处理到分析、可视化这一过程。纯当练手,也为感兴趣的小伙伴提供相关的技术介绍。 数据获取 用python写爬虫,Scrapy和urllib2都是比较好的选择,由于我对功能的要求比较简单,故选择后者即可。 我的主要分析字段是电影数量和平均评分,看它们和电影分类、语言、上映国家、上映时间、时长等其他字段之间有何关联。 数据可视化 俗话说,“一图胜千言”,所以数据分析的结果以可视化网站的形式给出。 我用Flask搭建了一个简单的网站,用Echarts绘制了一些简单的图标来展示分析的结果,可视化网站地址请参见文末。 网站包含三个子菜单:统计、评分、搜索。“统计”展示了和电影数量相关的分析结果。 “评分”展示了和电影评分相关的分析结果。 ? “搜索”则提供了一个简单的基于关键词匹配的搜索功能。 ? 总结 这次开发任务主要出于个人兴趣,顺便抛砖引玉地和大家介绍一些基本的方法和技术。

    3.4K70发布于 2018-06-07
  • 来自专栏JackieZheng

    Java豆瓣电影爬虫——抓取电影详情和电影短评数据

      一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。 动机   采集豆瓣电影数据包括电影详情页数据和电影的短评数据。   电影详情页如下图所示   需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。    ="rating_per">2.1%
    2 <div class="power Java豆瓣<em>电影</em>爬虫——使用Word<em>2</em>Vec<em>分析</em><em>电影</em>短评数据 Java豆瓣<em>电影</em>爬虫——小爬虫成长记(附源码)   程序爬取控制在豆瓣可接受范围内,不会给豆瓣服务器带来很大的压力,写此程序也是个人把玩

    2.9K90发布于 2018-01-16
  • 来自专栏Python绿色通道

    用Python分析国庆最火的电影,20万数据分析

    今年的国庆假期,电影院里最受大家瞩目的电影想必就是《我和我的祖国》了吧,这部电影无论从题材还是参演阵容来说,都非常值得大家去观看,这部电影的评价也非常的好,因此,小编决定来分析一波,看看大家对于这部电影的评价如何 得到数据后,接下来便是对于数据的分析,首先我们来看一下大家最为关心的,评分的分布情况,如下图所示。 ? 可以看出,大家对于这部电影的评分几乎全都是在5分,满分的评价。而且评分在3分以下的非常少。 可以看出,上映当天,由于还是上班日,因此观影人数较十月1日和十月2日假期来说偏少,而随着假期的继续,观影人数呈现缓慢的下滑趋势。 接下来我们针对于大家的评论做一个词云的展示,如下图所示。 ? 这里小编依旧采用jieba来进行分词,但是分词完成后 ,小编采取了数据处理,将数字少于2个的字给剔除,并且采用pyecharts库自带的wordcloud类进行词云的制作,从上图可以看出,大家对于祖国的由衷祝福 ---- 以上就是小编为大家带来的《我和我的祖国》分析,通过分析,我们发现,大家对于这部剧是抱着非常高的爱国情怀去观看的,虽然演员有小鲜肉也有老戏骨,但是在国家面前,其他的都是微不足道的。

    74500发布于 2019-10-10
  • 来自专栏有趣的Python和你

    爬取豆瓣电影top250并简单分析代码:简单分析

    quote.get_text() } top250.insert_one(info) for url in urls: get_info(url) 实际爬取243条电影 然后导出excel表格,进行分析 简单分析 ? 1.电影拿走不谢,请叫我雷锋 2.美国,日本,中国上榜电影拍前三 3.主要的电影内容:信仰,青春,科幻,情怀等 4.电影数最多的几年为1995~2013,近几年电影较少,原因大概为:虽然制片投入和电影效果越来越好

    50620发布于 2018-07-03
领券