有小伙伴反映,马蜂窝网站的景点点评,无论有多少数量,都只给加载5页内容,写个论文想采集来做分析,发现无法采集全。 点评数量 就没有办法了吗? 当然有了,这不,我们在网站搜索发现这个小工具:马蜂窝评论采集助手,网站介绍说显示的点评多少,就可以采集多少,是不是有点厉害?!那么是真的可以爬取更多页吗?我们来试试。 小工具运行截图 马蜂窝评论采集后导出的表格 实测的确是可以爬取更多页数,但因为时间的原因,我们没有爬取到最后,不过,看页面的说明,因为不是走pc端的页面,而是小程序端的接口。 文章来源: 马蜂窝评论采集助手-评论信息一键采集小工具,不受网站最多加载5页的限制 – 富泰科 (futaike.net)
马蜂窝之旅游问答 上图为马蜂窝的旅游问答页(http://www.mafengwo.cn/wenda/area-10206.html? 马蜂窝的游记有两个接口,一个是最热游记,一个是最新游记。最热游记只给提供300页共3000条;最新游记则是有多少给你看多少。所以只需爬取最新游记就可以全部抓取。 马蜂窝之景点 关于马蜂窝的景点数据,也是需要各个参数和_sn保持一致的。这里以四川的景点为例说明。 先抓包,在xhr中点击一次下一页,就有生成三个页面。其中所需要的内容在router.php中。 马蜂窝之当地玩乐 关于马蜂窝的当地玩乐部分(http://www.mafengwo.cn/localdeals/0-0-M12703-0-0-0-0-0.html),没有页数的限制,可以不断的请求下一页 关于马蜂窝就做到这里啦。有遗漏的地方欢迎补充
(马蜂窝技术原创内容,公众号ID:mfwtech) 为了更好地支持交易业务的快速发展,马蜂窝支付中心从最初只支持基础支付和退款的「刀耕火种」阶段,经历了架构调整的「刮骨疗伤」阶段,完成了到实现综合产品平台形态的 目前,马蜂窝支付中心集成了包括基础订单、收银台、路由管理、支付通道、清算核对、报表统计等多种能力,为马蜂窝度假(平台、定制)、交通(机票、火车票、用车)、酒店(开放平台、代理商)等近 20 条业务线提供服务 可以在不打断用户体验的场景下进行便捷支付 信用支付:用户可以选择花呗等分期产品进行透支支付 境外支付:用户可以选择境外支付通道完成境外产品的购买 线下支付:用户可以选择 ToB 通道完成特定场景的支付 针对马蜂窝业务的特点 三、总结 & 展望 目前,马蜂窝支付中心已经具备支持多业务、多场景、多支付方式的能力,但想要实现一个真正意义上「百花齐放」的平台,还有很多地方需要改进和完善。 伴随马蜂窝「内容+交易」的战略升级,支付中心也会探索更多的支付方式和能力,持续为各业务线赋能。 本文作者:马蜂窝电商支付结算团队。
今天的朋友圈被《我承认,我们是有组织攻击马蜂窝的》刷屏了。 自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」,通过爬虫技术结合大数据分析,披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据,被马蜂窝以名誉权纠纷为由状告法院 ,涉嫌造假的 1000 多万条数据分分钟就清完了(给马蜂窝未雨绸缪的技术架构点个赞)。 马蜂窝估计也考虑到这个问题了,今天下午 5 点 38 分 42 秒(Last-Modified: Tue, 23 Oct 2018 09:38:42 GMT)更新了站点的 robots.txt 协议,将原来未做限制的爬虫 不知马蜂窝大佬接下来将如何应对? 我相信,借助技术和法律的力量,小个体总有扳倒大集团的那一天。
因此可以认为,UGC内容对马蜂窝而言,跟用户一样重要,相对于携程等OTA平台而言,马蜂窝更加依赖这些内容,因为它的核心价值就是内容服务。 但要注意的是,马蜂窝本次被曝出造假的数据主要是点评数据,用马蜂窝官方的话说,“点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量在整体用户中的占比更是微乎其微。 马蜂窝已对这部分账号进行清理。”就是说,马蜂窝的核心内容目前尚未被发现存在大规模造假行为。 马蜂窝对此也充满自信,马蜂窝旅游网副总裁于卓10月23日在中国澳门出席活动时表示,此次内容事件不会影响公司正常运营,希望未来两至三年内完成IPO。 或许是因为在融资close的重要关口,急于回应的马蜂窝选择了一个两败俱伤的解决方案,或许是对自己的业务足够自信?你是马蜂窝的用户吗?是否会离开它呢?欢迎留言。
当pm制定完下一版本需求,打开马蜂窝旅游app准备出去嗨一圈的时候 ,看到了马蜂窝旅游app的一个用户头像动画后。。。 strip] 到这里整个动画流程到这里就结束了,当然在内存的管理上还没有做到极致 大家可以去自由发挥, 希望这篇水文能帮助到那些有类似需求的同学,我们应该把时间拿去做一些更有用的事情,不过截止到目前 马蜂窝最新版
作者:王小敏 联席合伙人,聂昊 律师助理 本文经授权转自 云端数据IP法律观察(YDdatalaw) 前言 马蜂窝陷抄袭点评丑闻 2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城 文中称百亿体量的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。 马蜂窝回应称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量更是微乎其微,并已经进行清理。但恐怕已无法洗脱自己存在爬虫行为的嫌疑。 而网络爬虫又分为善意爬虫和恶意爬虫,搜索引擎的爬虫就属于善意爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛(Baiduspider)。 在社交领域,恶意爬虫的主要目标是在各类点评App及网站,前文所述的“马蜂窝抄袭点评”就是恶意爬虫应用在点评方面最好的例证。
01 前言:马蜂窝陷抄袭点评丑闻 2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章一出世便走红网络。 文中称百亿体量的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。 马蜂窝回应称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量更是微乎其微,并已经进行清理。但恐怕已无法洗脱自己存在爬虫行为的嫌疑。 02 恶意爬虫是什么? 而网络爬虫又分为善意爬虫和恶意爬虫,搜索引擎的爬虫就属于善意爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛(Baiduspider)。 在社交领域,恶意爬虫的主要目标是在各类点评App及网站,前文所述的“马蜂窝抄袭点评”就是恶意爬虫应用在点评方面最好的例证。
向崇尚自由的加勒比海盗致敬 马蜂窝火了,有人说,它正由"向崇尚自由的加勒比海盗致敬",变为一个盗窃他人平台内容的搬运工,一时网上充斥着无数批评声和反击的辩解声。 ? 无论马蜂窝的2100万条“真实点评”来自哪里,不管它是否存在造假行为、也不考虑它是不是“良心的”文字搬运工,总之,这类事情,之前见惯不惯,不足为奇,只是如今这层纸已被捅破了。 ? 马蜂窝被扒了... ? 第一时间进行的辩解 ? 其实水军、刷量这些现象,基本是互联网行业里公开的秘密,在电商、网约车、社交、内容分发和视频播放平台,都能找到刷量、刷评论的造假事件。 ?
之前写了一篇国庆出游攻略 今天再来一篇那些你需要绕开的旅游景点 前言 思考 统计结果 爬虫技术分析 爬虫代码实现 爬虫分析实现 后记 前言 举国欢庆的国庆节马上就要到来了,你想好去哪里看人山人海了吗? 弘扬一下社会主义核心价值观 思考 (此段可跳过)要抓取出行方面的数据还不简单,直接去看看携程旅游、马蜂窝这类网站看看有没有数据抓取。 top40-50 爬虫技术分析 请求库:selenium HTML 解析:使用正则匹配 数据可视化:pyecharts 数据库:MongoDB 数据库连接:pymongo 爬虫分析实现 此次文章能够实现参考效果 首先是选取爬虫来源,携程与马蜂窝没有结构化的数据,我们就换一种思路。首先是想到百度指数,如图: ? 当然,你执意要使用百度指数,这里也是有方法的,抓取到数据之后,使用图像识别来识别文中的数据,提供一篇有思路的文章 [爬虫实战——四大指数之百度指数(三)]。
概述 前言 思考 统计结果 爬虫技术分析 爬虫代码实现 爬虫分析实现 后记 前言 举国欢庆的国庆节马上就要到来了,你想好去哪里看人山人海了吗?还是窝在家里充电学习呢? 弘扬一下社会主义核心价值观 思考 (此段可跳过)要抓取出行方面的数据还不简单,直接去看看携程旅游、马蜂窝这类网站看看有没有数据抓取。 top40-50 爬虫技术分析 请求库:selenium HTML 解析:使用正则匹配 数据可视化:pyecharts 数据库:MongoDB 数据库连接:pymongo 爬虫分析实现 此次文章能够实现参考效果 首先是选取爬虫来源,携程与马蜂窝没有结构化的数据,我们就换一种思路。 当然,你执意要使用百度指数,这里也是有方法的,抓取到数据之后,使用图像识别来识别文中的数据,提供一篇有思路的文章 [爬虫实战——四大指数之百度指数(三)。
MES 是马蜂窝统一实时计算平台,为各条业务线提供稳定、高效的实时数据计算和查询服务。在整体设计方面,MES 借鉴了 Lambda 架构的思想。本篇文章,我们将从四个方面了解 MES: 1. 马蜂窝实时计算平台 MES 为了保证 MES 实时计算平台的性能,我们结合马蜂窝的实际业务场景,主要围绕低延迟,高吞吐、容灾能力和 Exacty Once 的流式语义这四点,来进行架构设计和技术选型。 技术选型 结合马蜂窝的业务需求,我们对三大主流实时计算引擎 Storm、Spark Streaming、Flink 进行了选型对比。 图 6:优化结果对比 未来规划 马蜂窝实时计算平台的发展还需要不断探索,未来我们主要会在以下几个方面重点推进: 1. 实时计算任务统一资源管理和任务调度 2.
马蜂窝大数据显示,近一周马蜂窝站内“五一出境游”相关热度上涨超过110%,泰国、马来西亚、印度尼西亚、日本、西班牙位居目前五一假期订单量最高的境外目的地前五。 要实现这样让人满意的攻略唯有python爬虫,所以这里我们就通过使用python爬取去哪儿有关出国游的各种攻略来制定自己的一份满意的出游路线。 爬取数据过程中最重要的就是解决反爬机制的问题,一般网站都是从3个方面进行反爬限制,用户请求的Headers、 用户行为、 网站目录和数据加载方式,其中比较常见的就是基于用户行为的反爬,特别是同一IP短时间内多次访问的限制,对于这种情况直接使用爬虫代理 代理在爬虫程序里面的实现方法这里可以分享下: // 要访问的目标页面 string targetUrl = "https://www.qunar.com/"; // 代理服务器(产品官网 www.16yun.cn
思考 (此段可跳过)要抓取出行方面的数据还不简单,直接去看看携程旅游、马蜂窝这类网站看看有没有数据抓取。但是实际上这些网站并没有比较好的格式化的数据供我们抓取,或许是我没找到吧。 top40-50 爬虫技术分析 请求库:selenium HTML 解析:使用正则匹配 数据可视化:pyecharts 数据库:MongoDB 数据库连接:pymongo 爬虫分析实现 此次文章能够实现参考效果 首先是选取爬虫来源,携程与马蜂窝没有结构化的数据,我们就换一种思路。首先是想到百度指数,如图: ? 当然,你执意要使用百度指数,这里也是有方法的,抓取到数据之后,使用图像识别来识别文中的数据,提供一篇有思路的文章 [爬虫实战——四大指数之百度指数(三)]。 self.show_line("各景点 30 天内平均搜索量", atts, values) os.rename("render.html", file_name) 爬虫代码实现
弘扬一下社会主义核心价值观 思考 (此段可跳过)要抓取出行方面的数据还不简单,直接去看看携程旅游、马蜂窝这类网站看看有没有数据抓取。 top40-50 爬虫技术分析 请求库:selenium HTML 解析:使用正则匹配 数据可视化:pyecharts 数据库:MongoDB 数据库连接:pymongo 爬虫分析实现 此次文章能够实现参考效果 首先是选取爬虫来源,携程与马蜂窝没有结构化的数据,我们就换一种思路。首先是想到百度指数,如图: ? 当然,你执意要使用百度指数,这里也是有方法的,抓取到数据之后,使用图像识别来识别文中的数据,提供一篇有思路的文章 [爬虫实战——四大指数之百度指数(三) 链接:https://zhuanlan.zhihu.com self.show_line("各景点 30 天内平均搜索量", atts, values) os.rename("render.html", file_name) 爬虫代码实现
(马蜂窝技术原创内容,公众号ID:mfwtech) 一、马蜂窝数据仓库与数据中台 最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。 数据中台到底是什么? 在这样的思想下,我们结合自身业务特点建设了马蜂窝的数据中台,核心架构如下: 在中台建设之前,马蜂窝已经建立了自己的大数据平台,并积累了一些通用、组件化的工具,这些可以支撑数据中台的快速搭建。 作为中台的另一大核心部分,马蜂窝数据仓库主要承担数据统一化建设的工作,包括统一数据模型,统一指标体系等。下面介绍马蜂窝在数据仓库建设方面的具体实践。 马蜂窝订单交易模型的构建就采用了这种方式,下文将进行详细介绍。 3.2 设计目标 马蜂窝数据仓库在模型设计上以准确性、易用性、及时性为设计目标,以满足业务人员对数据的多样需求。 如何将新兴技术能力应用到数据仓库的建设,如何以有限的成本高效解决企业在数据建设中面临的问题,将是马蜂窝数仓建设一直的思考。 本文作者:颜博,马蜂窝数据仓库研发负责人。
作者 | 董红帅,马蜂窝微服务体系建设以及基础服务能力建设专家。 马蜂窝作为旅行社交平台,是数据驱动的新型旅行电商。 基于十余年的内容积累,马蜂窝通过 AI 技术与大数据算法,将个性化旅行信息与来自全球各地的旅游产品供应商实现连接,为用户提供与众不同的旅行体验。 随着业务的发展,马蜂窝架构也在跟随技术步伐进行更迭,开始基于 Kubernetes 进行更多的延展。 微服务 1.0 模式现状 目前马蜂窝内部的微服务架构经历了两次迭代,本文中将针对原有架构的第一次调整定义为 1.0 版本。 总结与发展 马蜂窝当前是基于 Kubernetes 容器部署以及基于 Consul 的机器部署场景,自建 Atlas 服务发现中心,同时,在 Java 生态、微服务网关,微服务体系的流量泳道,以及监控体系做对接和适配
MES 是马蜂窝统一实时计算平台,为各条业务线提供稳定、高效的实时数据计算和查询服务。在整体设计方面,MES 借鉴了 Lambda 架构的思想。 马蜂窝实时计算平台MES 为了保证 MES 实时计算平台的性能,我们结合马蜂窝的实际业务场景,主要围绕低延迟,高吞吐、容灾能力和 Exacty Once 的流式语义这四点,来进行架构设计和技术选型。 2.2 MES 实时计算引擎 2.2.1 技术选型 结合马蜂窝的业务需求,我们对三大主流实时计算引擎 Storm、Spark Streaming、Flink 进行了选型对比。 CEP 规则系统 作者:董良,马蜂窝大数据平台研发技术专家。 2017年加入马蜂窝,现负责马蜂窝实时计算平台和数据中台服务。2008年毕业于西安邮电大学,曾在Talend、神州专车等公司工作,先后从事数据集成中间件,数据仓库,实时计算平台等方向的研发工作。
正如马蜂窝 CEO 陈罡在接受专访时所说:「有些东西是需要 Sense,但大部分东西是可以用 Science 来做判断的。」 说到 ABTest 相信很多读者都不陌生。 这里分享一个ABTest 在马蜂窝的应用案例: 如图所示,之前我们交易中心的电商业务团队希望优化一个关于「滑雪」的搜索列表。可以看到优化之前的页面显示从感觉上是比较单薄的。 总结看来,马蜂窝 ABTest 分流系统重点在以下几个方面取得了一些效果: 采用流量拦截分发的方式,摒弃了原有接口的形式,对业务代码没有侵入,性能没有明显影响,且不会产生二次流量。 本文作者:李培,马蜂窝基础平台信息化研发技术专家;张立虎,马蜂窝酒店研发静态数据团队工程师。
Part.1 马蜂窝数据仓库与数据中台 最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。 数据中台到底是什么?要不要建?和数据仓库有什么本质的区别? 在这样的思想下,我们结合自身业务特点建设了马蜂窝的数据中台,核心架构如下: ? 在中台建设之前,马蜂窝已经建立了自己的大数据平台,并积累了一些通用、组件化的工具,这些可以支撑数据中台的快速搭建。 作为中台的另一大核心部分,马蜂窝数据仓库主要承担数据统一化建设的工作,包括统一数据模型,统一指标体系等。下面介绍马蜂窝在数据仓库建设方面的具体实践。 马蜂窝订单交易模型的构建就采用了这种方式,下文将进行详细介绍。 3.2 设计目标 马蜂窝数据仓库在模型设计上以准确性、易用性、及时性为设计目标,以满足业务人员对数据的多样需求。 最终建立一个整合旅游、交通、酒店等各业务线与各业务节点信息的马蜂窝全流程订单模型。