今天给大家分享一款简单到有点简陋的微博评论专门的爬取下载小工具。很多同学写论文、自媒创作想要从微博上去爬取一些素材,总是感到力不从心,有了这款小工具,相信以后就再也不用发愁了。 言归正传,下面我们就来看看这款小工具:简单或者说简陋的界面我们先打开更新cookie的教程链接,更新一下软件目录下的weibo_cookie,因为微博是需要登录后才可以显示更多内容的。 cookie文件cookie值要复制到文件当中,过期了要更新一下这个Mid,也就是博文采集表格当中的这列字段,对应后面的评论数,我们随便找一个。复制一下,粘贴到软件当中,回车,软件就自动运行了。 另外,我们发现这个软件的收费版还有一个支持多个mid一起批量采集下载的功能,软件提示如果有需求,可以将多个mid输入到软件目录下的mid_list.txt文本当中,一行一个,然后启动软件,回车采集即可。 打包好的下载地址:点这里
,可是一页页整理,难以想象 所以想下载,然后进行提取处理,转为文档。 我们关注的: 1.微博正文+评论内容 2.图片 3.视频链接 用Python实现 思路: 1.脚本模拟登陆新浪微博,保存cookie 2.有了cookie信息后,访问收藏页面url 3.从第一页开始,逐步访问 ,直到最后,脚本中进行了两步处理 A.直接下载网页(下载到本地,当然,要看的时候需要联网,因为js,图片神马的,都还在) B.解析出微博需要的内容,目前只是存下来,还没有处理 后续会用lxml (困了,明后天接着写) 模拟登陆微博采用是http://www.douban.com/note/201767245/ 里面很详细,直接拉来用了 步骤: 1.进入自己的微博,右侧,收藏,进入收藏页面 http 其中,带序号的,只能连网时点击打开有效 tmpcontent是包含所有微博内容信息,但目前还没有处理(还没想好提取成什么格式,容后再说) ? 附上脚本 ? ?
一:获取app-key 和 app-secret 使用自己的微博账号登录微博开放平台,在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key 在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。 三:安装微博 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪微博SDK 2:python有个简单的安装方式:直接在命令行下键入 : sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新微博 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth 以下为我的关注用户的微博: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?
全文简介 本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。 环境介绍 Python3 Windows-10-64位 微博移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。
想用nodejs写个微博客户端发微博,无奈新浪微博的nodejs sdk是OAuth1.0的。 只能自己根据OAuth1.0 改了改。 ", passwd = "微博密码"; var baseurl = "https://api.weibo.com/2/"; var weibo = module.exports = function response_type'] = "code"; params['action'] = "submit"; params['userId'] = userId; // 微博帐号 //statuses/destroy 删除微博信息 //statuses/update 发布一条微博信息 //statuses/upload 上传图片并发布一条微博 //statuses /* args参数: * id : 微博id * status : 转发文本 * is_comment 0-不发评论 1-发评论给当前微博 2-发评论给原微博
下饭:微博子域名跳转到腾讯 如图所示: ? 新浪微博子域名 help.weibo.com 解析到 1.1.1.1 并且设置跳转 t.qq.com(腾讯微博)。 起因: 今天找回新浪微博密码时候访问到 help.weibo.com,结果是如下页面。 ? (发现时是不能访问的,至于跳转到腾讯微博,是后面help.weibo.com做了一些操作。) ? 为什么会这样? 当然最终的锅还是在微博上,(也许他的内网在用1.1.1.1?) 就等同于此人拥有了help.weibo.com的解析权,于是这位就带来了今天的下饭操作:跳转到腾讯微博。可能微博会找实习生背锅吧。 我们应该如何避免? 当然,这种行为是不恰当的。
参考:http://blog.csdn.net/k1988/article/details/6684114
接下来就是新浪微博的抓取,一般的http访问新浪微博网站得到的html都是很简略的,因为新浪微博主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门 ,也就是访问新浪微博的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪微博的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。 首先需要导入依赖的包,WebController的ja包与selenium的jar包 下载地址:http://download.csdn.net/detail/u013407099/9409372 利用 Selenium获取登陆新浪微博weibo.cn的cookie(WeiboCN.java) 利用WebCollector和获取的cookie爬取新浪微博并抽取数据(WeiboCrawler.java) weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪微博的cookie,这个方法针对weibo.cn
引言 随着微博成为中国最受欢迎的社交平台之一,其内容已经变得丰富多彩,特别是视频内容吸引了大量用户的关注。然而,尽管用户对微博上的视频内容感兴趣,但却面临着无法直接下载这些视频的难题。 本文旨在介绍一个基于Perl的解决方案,以帮助用户轻松地下载微博视频,并深入探讨这一解决方案的实现原理和操作方法。 通过这种方法,我们可以有效地获取微博视频的实际下载地址,并利用爬虫代理IP技术来规避可能存在的访问限制,从而确保下载的顺利进行。 配置代理服务器,以确保通过爬虫代理IP进行视频下载。 利用多线程技术,提高下载效率,使用户能够更快地获取所需的微博视频内容。 在良好的网络环境下,下载速度明显提升,用户体验得到了显著改善。 讨论 然而,我们也需要注意到,该方法的有效性取决于微博页面结构的稳定性。如果微博更新了页面结构,代码可能需要相应的调整。
参考:http://open.weibo.com/wiki/%E7%A4%BA%E4%BE%8B%E4%BB%A3%E7%A0%81 微博开放平台给出的代码有很多bug,在此纠正 如乱码问题的解决: String
首先感谢新浪微博提供的免费图床(对外链无限制),以及吊炸天的cdn图片加速服务,从此妈妈再也不用担心我的图床不能用了 微博图床原理: 访问 http://weibo.com/minipublish 使用新浪微博账号登陆 进入到发微博的界面: ? 不需要发布微博,图片只要上传就会存在于图床中 实用微博图床推荐 新浪微博图床 - Chrome 网上应用店 围脖是个好图床 - Chrome 网上应用店 实用云图床推荐 https网页一建生产图床
使用node.js爬虫每天从「新浪微博」上爬取一定数量的微博。主要实现登录,抓取发布微博,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。 weibo_crawler 第一部分是准备数据,随机爬取50w左右的微博用户,然后每天爬取他们前一天发布的微博作为本项目的数据源。 由于新浪微博对爬虫有限制,因此爬取用户微博的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而微博爬虫的难点就在于用户登录。 对抓取微博失败的,Retry 5次 2. 放弃非人类 什么是非人类呢? 微博分词 Big Bang 分词就是把一句话变成一个一个单词的过程。举个栗子吧: 我是中国人。
首先感谢新浪微博提供的免费图床(对外链无限制),以及吊炸天的cdn图片加速服务,从此妈妈再也不用担心我的图床不能用了 微博图床原理: 访问 http://weibo.com/minipublish 使用新浪微博账号登陆 进入到发微博的界面: ? 不需要发布微博,图片只要上传就会存在于图床中 实用微博图床推荐 新浪微博图床 - Chrome 网上应用店 围脖是个好图床 - Chrome 网上应用店 实用云图床推荐 https网页一建生产图床
最近几天做了一下新浪微博的sdkdemo。其实也就是把管网上给的demo下下来运行一下。顺便看了一些bug。 首先要了解Oauth2.0授权认证,和SSO 登录功能。 Constants.java 问题: 1.通过Code获取Token部分,WeiboAuth这个类根本没有封装在里面,导致无法响应AuthListener,功能失效 2.短信验证只能3次,3次以后就不能用了 ------微博分享 openapi.WBUserAPIActivity" />------获取<1>用户昵称<2>用户信息(粉丝数) <activity android:name=".openapi.WBStatusAPIActivity" />------获取微博状态 <activity android:name=".openapi.WBCommentAPIActivity" />------获取某条微博的评论列表 <activity android:name=".
这个扩展将每500条微博(会展开长微博)存为一个HTML文件, 也可以在选项设置调整。 ? 稍等一会会在浏览器下载里生成2个HTML文件 :1.76MB的文件 歌手李健_01.html ? 9B%B8%E5%86%8C%E6%89%B9%E9%87%8F%E4%B8%8B%E8%BD%BD/cdimdlckbkfelaogjhfbkjcfncbpngkn 微博相册下载 进入微博主页,这里选择王菲的微博 https://www.weibo.com/u/1629810574 ,天后已经5年不更新微博了, 点击扩展图标,点击需要下载的相册 。 选择头像相册,有6张图片,很快下载好了,备份其他相册类似。 ? 麋鹿微博工具箱 如果你不想微博哪天被人挖坟,可以将微博批量删除、设置仅自己可见、仅好友可见,这里推荐一个工具麋鹿微博工具箱。 先下载软件(公众号内回复 微博 获取软件)到本地直接运行,浏览器会访问 http://127.0.0.1:8083/ ? 需要先登录微博 。 ? 用微博扫码登录就行。 ?
(Python) PC 登录新浪微博时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。 由于要用的一部分微博数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。 接下来再请求这个URL,这样就成功登录到微博了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #! 很多豆友反馈有模拟登录新浪微博抓取数据的需求,其实对于一般的微博数据获取,如用户信息、微博内容等,使用微博开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。 熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录微博。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪微博以实现模拟登录。
微博经历了6年的发展,已经成为了国内社交媒体的中坚力量。本文从微博的角度出发,对微博中用户模型的目的、维度和建模任务进行描述,并作为后续微博用户模型相关文章的总述。 从微博自身的角度来讲,构建用户模型的目的包括: (1) 完善及扩充微博用户信息 用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。 (2) 分析微博生态 除了了解用户,还需要了解自己。在掌握用户信息的基础上,平台就可以对自身的状况进行分析,从相对宏观的基础上把握微博的生态环境,为后续的优化和发展提供方向性。 接下来主要介绍一下微博画像中兴趣维度的构建方法。 2. 微博用户兴趣分析 (1) 标签来源 用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。 小结 用户画像的目的是将用户信息标签化,本文中介绍针对微博本身的特点介绍微博用户画像的构建,该用户画像主要还是从微博的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
引言 微博(Weibo)是一种通过关注机制分享简短实时信息的广播式社交网络平台。微博用户通过关注来订阅内容,在这种场景下,推荐系统可以很好地和订阅分发体系进行融合,相互促进。 微博两个核心基础点:一是用户关系构建,二是内容传播,微博推荐一直致力于优化这两点,促进微博发展。如图1所示: ? 图1 微博推荐的使命 在微博推荐发展的过程中遇到体系方向的变化、业务的不断更迭、目标的重新树立,其产品思路、架构以及算法也随之进行变迁。 为了便于理解微博推荐架构演进,在介绍之前需要陈述一下微博推荐在流程上的构成,其实这个和微博本身没有关系,理论上业内推荐所存在的流程基本都是相同的。 [微博内部使用的一种数据队列] ?
4月4日消息,今日晚间微博管理员发消息称,为了增强用户对自己账号内容的自主性和处理能力,站方新增了“仅半年内微博可见”的用户功能。 ? 据悉,用户开启该设置后,发布时间超过6个月的微博将被设置为“仅博主可见”,其他用户无法查看。该设置在信息流、个人主页、搜索场景生效。 设置入口如下并见图: 打开微博客户端-我-隐私设置-微博可见时间范围中,勾选最近半年选项即可成功设置。 如何恢复成内容全部可见: 在微博客户端-我-隐私设置-微博可见时间范围中,勾选全部,即可变为全部内容对用户可见。 ? ? ?