首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据杂谈

    Python 爬虫实践:《战狼2》豆瓣影评分析

    前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。 ? 例如《战狼2》的短评网址为:https://movie.douban.com/subject/26363254/comments? eachCommentList.append(item.find_all('p')[0].string) 使用print(eachCommentList)查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评 上图基本反映了《战狼2》这部电影的情况。

    85850发布于 2018-06-11
  • 来自专栏北京马哥教育

    Python 爬虫实践:《战狼2》豆瓣影评分析

    前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。 例如《战狼2》的短评网址为:https://movie.douban.com/subject/26363254/comments? eachCommentList.append(item.find_all('p')[0].string) 使用print(eachCommentList)查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评 wordcloud=wordcloud.fit_words(word_frequence_list) plt.imshow(wordcloud) #主函数 main() 结果显示如下: 上图基本反映了《战狼2

    1.3K40发布于 2018-05-02
  • 来自专栏数据分析与挖掘

    IMDB影评数据集预处理(使用word2vec)

    unlabeledTrain=[line.strip().split("\t") for line in fp.readlines() if len(line.strip().split("\t"))==2] 将影评中的所有特殊字符替换为“ ”,并且全部转换为小写 def cleanReview(subject):    # 数据处理函数 beau = BeautifulSoup(subject) class gensim.models.word2vec.Word2Vec(sentences=None, corpus_file=None, size=100, alpha=0.025, window 2) size:词向量的维度,默认值是100。这个维度的取值一般与我们的语料的大小相关,如果是不大的语料,比如小于100M的文本语料,则使用默认值一般就可以了。 4) sg:即我们的word2vec两个模型的选择了。如果是0, 则是CBOW模型;是1则是Skip-Gram模型;默认是0即CBOW模型。     

    2.2K20发布于 2020-08-26
  • 来自专栏程序萌部落

    重写Hexo豆瓣影评插件

    ,长影评是另外的部分 构造的页面目录较深,和博客其他部分关联度不够 主题兼容性问题,valine部分的缺失 移动端界面不适配/合适 对应的应对措施: 砍掉多余部分 适当的美化了CSS 设置拉取列表的长度控制 : 原项目固有特性; 重构模板页面,支持移动适配; 补全列表影评内容,支持短评和长影评(核心); 支持生成指定长度的列表(对于观影数量较多的用户); 样式inline化,允许直接嵌入同源其他页面;<div user: ID(数字或字幕|无需引号) builtin: true movie: title: '生成页面的标题' quote: '生成页面的内容的导语' length: 2 length: 默认值为2,非页数,可以自由尝试(建议取值:2-4)。 测试 执行 hexo clean && hexo generate && hexo server,之后访问 localhost:4000/movies 即可访问生成的影评页面。

    1K00发布于 2020-12-22
  • 来自专栏软件研发

    IMDB影评数据集入门

    IMDB影评数据集入门在自然语言处理(NLP)领域中,IMDB影评数据集是一个非常流行的数据集,它包含了来自IMDB网站的电影影评,其中包括了正面评价和负面评价。 ,解压后我们可以得到一个名为 ​​IMDB Dataset.csv​​ 的文件,该文件包含了50,000条电影影评以及每条影评的正面或负面标签。 IMDB影评数据集是一个常用的情感分析数据集,它包含了大量的电影评论和对应的情感标签(正面或负面)。尽管IMDB影评数据集在情感分析任务上非常有价值,但它也有一些缺点。 以下是IMDB影评数据集的一些缺点以及类似数据集的介绍:标签质量问题:IMDB影评数据集的情感标签由人工标注,因此存在标签质量可能不一致的问题。 类似于IMDB影评数据集的其他情感分析数据集包括:Amazon电影评论数据集:这个数据集与IMDB类似,包含大量的电影评论和情感标签。

    3.6K30编辑于 2023-10-19
  • 来自专栏机器学习/数据可视化

    深度学习实战-电影评论分类

    第一个深度学习实战案例:电影评论分类 开始深度学习的内容,本文是《Python深度学习》一书中的实战案例:电影评论的二分类问题。 训练集和测试集 这是一个典型的二分类问题。 25000条,测试也是25000条 In [1]: import pandas as pd import numpy as np from keras.datasets import imdb In [2] 7]: 9999 数据还原 将数值还原到对应的评论中 In [8]: # 步骤1:单词和数值组成的字典 word_index = imdb.get_word_index() In [9]: # 步骤2: 10000, ))) # 隐藏层1 model.add(tf.keras.layers.Dense(16, activation="relu")) # 隐藏层2 ==========] - 5s 142ms/step - loss: 0.5198 - acc: 0.7864 - val_loss: 0.4005 - val_acc: 0.8677 Epoch 2/

    38510编辑于 2023-08-23
  • 来自专栏python学习指南

    Python爬虫(二十)_动态爬取影评信息

    if isRelease: ''' isRelease:0 很长时间都不会上映的电影;1 已经上映的电影; 2 __parser_no_release(page_url, value, isRelease = 2)) return self. __parser_no_release(page_url, value, isRelease = 2) else: #解析还有很长时间才能上映的电影 = SpiderMain() spier.crawl('http://theater.mtime.com/China_Jiangsu_Province_Nanjing/') 参考: 爬取时光网影评

    1.2K90发布于 2018-01-17
  • 来自专栏量化小白上分记

    爬来爬去(一):《蚁人2》豆瓣影评爬虫+简单情感分析+词云

    今天是《蚁人2》国内上映的第19天,作为练手,打算把豆瓣上的短评爬下来作为分析的素材。 ? 豆瓣上的影评分两种,一种是长篇大论的影评,还有一种是短评,类似上图中,这次爬虫的目标就是上图中红色框线中的短评,信息包括用户名,星级评价,日期,有用数,评论正文,虽说主页显示45576条,但其实可见的只有 /h3/span[2]/span[2]").get_attribute('title')) articles['date'] = articles.web.apply(lambda x: AllArticle = AllArticle.reset_index(drop = True) return AllArticle 调用以上两个函数爬取数据,其实对于豆瓣上别的电影影评 2. 文本分析 描述统计分析 首先看一看拿到的样本中各星级评价的分布情况,None表示没有星级评价。 ? ? 整体来看,三星四星评价巨多,说明大家对于蚁人2整体评价还不错。

    1.3K20发布于 2019-08-29
  • 来自专栏毛利学Python

    回顾——keras电影评价预测

    学习一时爽,一直学习一直爽 回顾以前的笔记 (于3月份记录的) 在keras中,内置了imdb电影评分数据集,来进行评价预测 安装keras conda install keras conda就帮依赖全部搞定

    83430发布于 2019-10-12
  • 来自专栏ReganYue's Blog

    【爬虫】豆瓣影评爬虫使用教程

    1.本爬虫需要填写你的cookies,下面讲诉如何获取cookies: 2.需要安装editcookies,安装完后打开豆瓣电影网站,然后点击editthecookies插件,复制gr_user_id 4.获取电影id的方法:打开电影简介,然后查看网址,下面圈出的部分就是电影id; 5.然后就爬取了影评,保存在csv文件中。

    2.1K30发布于 2021-09-16
  • 来自专栏一英里广度一英寸深度的学习

    SparkSQL 电影评价数据分析

    approximately 3,900 movies made by 6,040 MovieLens users who joined MovieLens in 2000. 2000年,100万条电影评价数据集 line.split("::"); return new User(Long.parseLong(arr[0]), arr[1],Integer.parseInt(arr[2] F| 232| | 1| F| 209| | 1| M| 319| | 2| M| 176| | 2| F| 91| | 3| F| 100| | 3 6| 102| 134| | 5| 31| 81| | 4| 234| 525| | 3| 100| 73| | 2|

    1.2K30发布于 2018-09-12
  • 来自专栏若城技术专栏

    Python selenium爬取影评生成词云图

    使用双线性差值算法平滑显示 plt.axis('off') # 不显示坐标轴 plt.show() # 显示图像 字体素材 链接: https://pan.baidu.com/s/1-nXL9-8NRbWPd2m4AGOUNw off') # 不显示坐标轴 plt.show() # 显示图像 字体素材 链接: https://pan.baidu.com/s/1-nXL9-8NRbWPd2m4AGOUNw 提取码: esf2

    56910编辑于 2024-02-29
  • 来自专栏数据科学和人工智能

    数据集 | IMDB电影评论数据集

    下载数据集请登录爱数科(www.idatascience.cn) 本数据集为由斯坦福大学发布的IMDB电影评论数据集,包含25000条英文的电影评论及其情感标签,可用于情感分析任务。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 http://ai.stanford.edu/~amaas/data/sentiment/

    1.6K30编辑于 2022-03-30
  • 来自专栏AI 算法笔记

    Python登录豆瓣并爬取影评

    而豆瓣口碑一直不错,有些书或者电影的推荐都很不错,所以我们今天来爬取下豆瓣的影评,然后生成词云,看看效果如何吧! 二、功能描述 我们使用requests库登录豆瓣,然后爬取影评,最后生成词云! 2.代码实现登录豆瓣 得到登录请求URL和参数后,我们就可以来用requests库来写一个登录功能! ? 然后下拉找到影评,调出调试窗口,找到加载影评的URL ? 2.爬取一条影评数据 ? 但是爬取下来的是一个HTML网页数据,我们需要将影评数据提取出来 ? 3.影评内容提取 上图中我们可以看到爬取返回的是html,而影评数据便是嵌套在html标签中,如何提取影评内容呢? 1.使用结巴分词 因为我们下载的影评是一段一段的文字,而我们做的词云是统计单词出现的次数,所以需要先分词! ? 2.使用词云分析 ? 最终成果: ?

    1.9K20发布于 2019-08-16
  • 来自专栏云深之无迹

    AI崩坏 AI崩壊 (2020)影评

    其实说了AI崩坏,到不如说是人的崩坏.就是有一对夫妇,是搞深度学习的.收集很多指标,来辅助植物体生长.然后女友说,那植物ojbk了!是不是人类基因也ojbk了?然后男主,嗯嗯啊啊啊啊啊,你说对.

    71310发布于 2021-04-14
  • 来自专栏Michael阿明学习之路

    影评

    题目 2. 解题 1. 查找在 2020 年 2 月 平均评分最高 的电影名称。 如果出现平局,返回字典序较小的电影名称。 | | 2 | 2 | 2 | 2020-02-01 | | 2 | 3 | 2 Frozen 2 和 Joker 在 2 月的评分都是 3.5, 但是 Frozen 2 的字典序比较小。 2.

    53020发布于 2021-02-19
  • 来自专栏小红豆的数据分析

    《超神学院》《雄兵连》影评

    每一个时代都有它独特的记忆风景。我不能说我青春的回忆就是英雄联盟,一是我的青春还未逝去,二是那样说也显得我的记忆太过苍白。可我永远也无法忘记和室友们一起去开黑的日子。

    1.7K30发布于 2018-10-10
  • 来自专栏Python自动化测试

    豆瓣电影评分数据分析

    movies)) titleRates=[] for rate in rates: titleRates.append(int(float(rate))) bar=Bar('豆瓣电影评分数据分析

    1.6K20发布于 2018-12-25
  • 来自专栏Python中文社区

    《战狼Ⅱ》豆瓣十二万影评浅析

    2017年8月11日凌晨,《战狼2》票房(含服务费)突破40亿元,打破《美人鱼》此前创下的33.92亿元记录,打破国产电影历史最高票房纪录。 电影上映过后,大家褒贬不一。 这个是影评的起始页:豆瓣影评 以下是Python爬虫的代码: ? 以上代码注意设置你自己的User-Agent,Cookie,CSV保存路径等。 爬取的内容保存成CSV格式的文件。 五角星的个数对应5个等级,5颗星代表力荐,4颗星代表推荐,3颗星代表还行,2颗星代表较差,1颗星代表很差。通过五角星的评论显而易见。我们有理由相信绝大部分观看者对这部影片持满意态度。 2.推荐的评论人的评论云图 ? 3.还行的评论人的评论云图 ? 4.较差的评论人的评论云图 ? 5.很差的评论人的评论云图 ? 结论: 从不同的评论的分词结果来看,他们都有一个共同的话题:爱国。

    78170发布于 2018-02-01
  • 来自专栏陶陶计算机

    NLP项目实战01--电影评论分类

    具体而言,我们将关注情感分析任务,即通过分析电影评论的情感来判断评论是正面的、负面的。 展示: 训练展示如下: 实际使用如下: 实现方式: 选择PyTorch作为深度学习框架,使用电影评论IMDB数据集,并结合torchtext对数据进行预处理。 torchdata==0.7.1 torchtext==0.9.2 torchvision==0.9.2+cu102 实现思路: 1、数据集 本次使用的是IMDB数据集,IMDB是一个含有50000条关于电影评论的数据集     def forward(self,x):         embedded = self.embedding(x)         embedded = embedded.permute(1,0,2)         pooled = F.avg_pool2d(embedded, (embedded.shape1, 1)).squeeze(1)         pooled = self.relu

    72610编辑于 2023-12-09
领券