首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法与数据之美

    字体反爬之汽车之家

    前几天我们说到这个猫眼的字体反爬,其自定义字体定义的都是数字,而今天我们要尝试破解的是汽车之家的汉字字体反爬,现在就来一探究竟吧! ?

    1.6K20发布于 2020-01-17
  • 来自专栏Reinvent Data Science

    相似问答检索——汽车之家的 Milvus 实践

    ✏️ 作者介绍: 王寒&翟羽佳- 汽车之家认知智能组 NLP 算法工程师 | 项目背景 汽车之家作为中国汽车互联网平台,拥有全球最大的汽车社区论坛。 但汽车垂直领域的文本具有表达多样化、用语不规范(如:车型车系用语存在大量缩写、简写、语序颠倒等现象)、歧义性强(如:“北京”可能指汽车品牌,也可能指城市)等特点,这给传统基于关键词匹配的搜索方法带来了很大挑战 精华问答库是由人工收集、总结、整理的,涵盖了大量汽车领域的常用问答。整体流程主要分为两个阶段:召回和排序。 召回阶段我们采用两路召回的方式,分别是关键词召回和向量召回。 模型的网络结构如下图所示: 模型训练方面,我们先利用汽车之家汽车领域语料进行模型预训练,然后利用人工标注数据对 Sentence-BERT 进行微调,模型结果可以达到业务要求。 | 结语 本文介绍了汽车之家在相似问答检索上的实践,我们采用召回 + 排序的两阶段处理流程。在召回阶段,关键词和语义方面的两路召回能够取得较高的召回率,为下一阶段打好基础。

    1.7K20发布于 2020-09-08
  • 来自专栏火丁笔记

    如何抓取汽车之家的车型库

    实际上,关于「如何抓取汽车之家的车型库」,我已经在「使用 Mitmproxy 分析接口」一文中给出了方法,不过那篇文章里讲的是利用 API 接口来抓取数据,一般来说,因为接口不会频繁改动,相对 WEB 在抓取汽车之家的车型库之前,我们应该对其结构有一个大致的了解,按照百科中的描述,其大致分为四个级别,分别是品牌、厂商、车系、车型。本文主要关注车系和车型两个级别的数据。 就抓取汽车之家的车型库这个任务而言,使用 spider 就可以实现,不过鉴于 crawl 在功能上更强大,本文选择 crawl 来实现,其工作流程大致如下:通过 start_urls 设置起始页,通过 意思是说,在使用 crawl 的时候,应该避免覆盖 parse 方法,不过本文的源代码中恰恰重写了 parse 方法,究其原因是因为汽车之家的字母页存在不规范的地方: shell> curl -I http 通过抓取竟然还帮助汽车之家找到一个 BUG,真是醉了。

    2.2K30编辑于 2021-12-14
  • 来自专栏python进阶学习

    python通过爬取汽车之家分析新能源汽车趋势

    新能源汽车的趋势已经越来越明显了,不管是家用车,还是商用车,新能源汽车都成了首选。从最新的汽车销售排行榜上看,排前10的车型中,新能源已经占据了一大半。 目前新能源汽车的渗透率已经达到35%,明年就会超过50%。新能源汽车不管从配置,性能,驾驶感,使用成本等各方面来看都对燃油车形成了降维打击,国内的车企已经开始把发展重点转向新能源汽车。 图片但是不管是新能源车汽车还是燃油车,大家都有不同的使用感受和选择的重点,那么我们就通过python大数据;来了解下,这2种车型大家都是怎么评价的吧?是否燃油车真的有要退出市场的趋势。 数据来源于汽车之家论坛评论。但是大家都清楚汽车之家的反爬虫措施做得相当好。也是为了保护个人权益的原因或者是保护用户的信息吧。所以为了完成任务就必须要反反爬虫。 threading # 导入threading库,用于多线程 import time # 导入time库,用于延时#要访问的目标页面targetUrl = “https://www.baidu.com” # 修改为汽车之家

    1.5K30编辑于 2023-04-13
  • 来自专栏小小挖掘机

    汽车之家推荐系统排序算法迭代之路

    文章作者:李晨旭 汽车之家 内容编辑:Hoh 内容来源:作者授权 出品平台:DataFun 导读:汽车之家的推荐系统紧随前沿技术,在支持内部多个推荐场景的同时,对外也有了一定的输出。 本次分享的主题为汽车之家推荐系统排序算法迭代之路,主要包括: 汽车之家推荐系统 排序模型 特征及训练样本 未来计划的优化方向 01. 汽车之家推荐系统 1. 概述 汽车之家推荐系统上线已有近5年历史,主要给用户推荐个性化的汽车之家资源。推荐系统的上线是汽车之家 APP 生态内容以分类体系分发转变为个性化推荐的重要里程碑。 汽车之家推荐的资源主要包括:专业编辑、汽车大V、论坛用户生产的文章、视频、图片,以及车系物品等,总量上亿。 作者介绍: 李晨旭,汽车之家高级算法工程师。2014年加入汽车之家,先后从事搜索意图分析、文本挖掘、推荐排序等工作。

    1.7K10发布于 2020-03-05
  • 来自专栏毛利学Python

    Scrapy爬取汽车之家某品牌图片

    需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html#pvareaid=3454450

    90530编辑于 2022-08-18
  • 来自专栏Python学习心得

    ​Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

    目标分析: 这次我们要爬的是汽车之家:car.autohome.com.cn。最近喜欢吉利博越,所以看了不少这款车的资料。 我们就点开博越汽车的图片网站: https://car.autohome.com.cn/pic/series/3788.html [pic1.png] 传统的Scrapy框架图片下载 Scrapy 框架的实施

    1K00发布于 2018-12-19
  • 来自专栏Pythonista

    爬虫之汽车之家抽屉新热榜煎蛋网

    汽车之家新闻: import requests from bs4 import BeautifulSoup import os # 模拟浏览器发请求 r1 = requests.get(url='https

    74930发布于 2018-08-31
  • 来自专栏緣來來來

    Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

    目标分析: 这次我们要爬的是 汽车之家:car.autohome.com.cn 最近喜欢吉利博越,所以看了不少这款车的资料。。。。 我们就点开博越汽车的图片网站: https://car.autohome.com.cn/pic/series/3788.html ?

    93610发布于 2018-09-18
  • Python 网络爬虫:Scrapy 解析汽车之家报价与评测

    汽车消费数字化的当下,汽车之家作为国内头部汽车资讯平台,汇聚了海量的车型报价、用户评测、配置参数等核心数据。 本文将从环境搭建、爬虫架构设计、数据解析到持久化存储,完整讲解如何基于 Scrapy 实现汽车之家报价与评测数据的爬取。 XPath/CSS Selector:汽车之家页面结构规整,通过 XPath 可精准定位报价、评测等核心数据节点,是解析 HTML 的最优选择。 六、总结本文基于 Scrapy 框架实现了汽车之家紧凑型车报价与评测数据的爬取,从项目搭建、数据解析到持久化存储,完整覆盖了爬虫开发的核心流程。 同时,汽车之家的页面结构可能会更新,需定期维护 XPath 表达式和爬虫逻辑,确保爬虫的稳定性。

    24210编辑于 2025-12-29
  • 来自专栏北京马哥教育

    Python神技能 | 使用爬虫获取汽车之家全车型数据

    汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。 (感谢汽车之家的大大们这么用心地做数据,仰慕) 俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。 准备工作 安装python,版本是2.7 安装scrapy模块, 版本是1.4.0 参考 汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree/ 我的目标是获取汽车的品牌、车系、车型数据,先从品牌开始。 在汽车之家的页面中寻觅一番后,找到了一个爬虫的切入点,汽车之家车型大全。这个页面里有所有品牌的数据,正是我的目标。 总结 以上就实现了一个简单的汽车之家的车型数据爬虫,其中用到了scrapy中的部分元素,当然还有很多元素没有涉及到,不过对于一个简单爬虫来说足矣。

    2.3K90发布于 2018-05-03
  • 来自专栏好好学习

    用Scrapy爬取汽车之家的网站图片就是爽

    前言 本文将介绍如何使用scrapy框架来快速爬取某网站汽车的图片,并将爬取到的图片保存到本地。

    1.7K20编辑于 2022-03-31
  • 来自专栏linux、Python学习

    Python神技能 | 使用爬虫获取汽车之家全车型数据

    汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。 (感谢汽车之家的大大们这么用心地做数据,仰慕) 俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。 准备工作 1.安装python,版本是2.7 2.安装scrapy模块, 版本是1.4.0 参考 汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree 我的目标是获取汽车的品牌、车系、车型数据,先从品牌开始。 在汽车之家的页面中寻觅一番后,找到了一个爬虫的切入点,汽车之家车型大全。这个页面里有所有品牌的数据,正是我的目标。 总结 以上就实现了一个简单的汽车之家的车型数据爬虫,其中用到了scrapy中的部分元素,当然还有很多元素没有涉及到,不过对于一个简单爬虫来说足矣。

    1.7K50发布于 2019-01-16
  • 来自专栏有趣的django

    21天打造分布式爬虫-下载汽车之家图片(九)

    9.1.下载汽车之家图片 新建项目 scrapy startproject bmx scrapy genspider bmx5 "car.autohome.com.cn" bmx5.py # -*-

    53530发布于 2018-08-10
  • 来自专栏深度学习与python

    Flink在汽车之家实时计算场景中的落地实践

    基于上述提到的问题,我们邀请了汽车之家智能数据中心的数据工程师王刚老师,来为大家分享 Apache Flink 在汽车之家的核心实践内容。 大家好,我叫王刚,目前负责汽车之家实时计算平台、实时接入平台及数据湖相关的设计开发及维护工作。 但是仔细想想,在汽车之家数据的数量级下,我们应用 Flink 遇到的绝大部分问题都是在使用的过程中,或是资源应用不当导致的小麻烦,这得益于 Flink 优秀的设计和其背后强大的社区。 嘉宾简介 王刚 汽车之家 智能数据中心数据工程师 毕业于沈阳航空航天大学计算机科学与技术专业。 2018 年加入汽车之家,重新设计并开发了日志采集平台,从 0 到 1 设计开发了基于 Apache Flink 的实时计算平台、实时接入平台;2020 年开始探索并落地湖仓一体架构,主导 Apache

    65530编辑于 2022-03-24
  • 来自专栏刘旷专栏

    赴港二次上市,汽车之家启动新“增”程

    在C端市场,汽车之家通过车型对比、直播、AR全景看车、智能买车、汽车金融等相关服务,吸引汽车消费者。 二来,汽车之家汽车媒体服务、线索服务、在线营销及其他三大业务,满足了B端和C端群体的需求。同时,汽车之家秉承创新发展的理念,为B、C端用户提供更多服务场景,拓宽业务边界,不断挖掘新增长点。 拉长增长曲线,重构长期价值 伴随着汽车之家赴港二次上市之后,资本市场对汽车之家的认可度会越来越高,这也将推动汽车之家进一步实现快速增长。 值得一提的是,汽车之家在线营销及其他服务营收占比不断上升,驱动了汽车之家整体营收的增长。 有了新的资金,汽车之家新业务将得以快速落地。 重要的是,在竞争日益激烈的汽车服务市场,汽车之家拥有足够的场景和生态支持自身业务的扩展,以及延长营收增长曲线。

    40240发布于 2021-03-15
  • 来自专栏云飞学编程

    Python小伙抓取汽车之家,做自驾游最强攻略!

    小编在浏览汽车之家的时候,发现一个很好玩的地方,就是里面的“旅行家”板块,为什么说好玩呢,因为这里是各个车主分享的自己的自驾游的游记,特别的精彩,正好小编也有做自驾游的想法,那就来爬一波吧╮(╯▽╰)╭ 具体过程呢,小编也不细说了,大致有几个点要注意: 1、汽车之家网页可以用json模块直接抓取 2、保存本地时,因为存在文本和图片的形式,所以小编使用了python-docx模块,没有的小伙伴需要安装下哦

    78220发布于 2018-09-13
  • 来自专栏深度学习与python

    汽车之家电商系统架构演进与平台化架构实践

    作者 | 方利 编辑 | 贾亚宁   本文由大厂案例转载自汽车之家主机厂事业部 - 技术部高级研发工程师方利首发于之家技术公众号的文章。 汽车之家电商系统诞生在 2014 年,成长于 2016~2019 年,并经历多年双 11、818 晚会的洪峰考验,沉淀了稳定可靠、性能卓越的在线交易能力。 一、架构演进 这个部分主要讲一下汽车之家电商系统的架构发展历程,每个阶段的业务状况、技术挑战和技术体系的应对策略。 1. 在 2013 年“双十一”期间,汽车之家推出购车服务,将交易环节作为一个重要发展方向 [2]。 在业务起步阶段对技术的要求就是快速迭代上线,验证产品可行性。 bs=list&id=130 [4] 之家学宫: 百万级汽车电商交易系统构建之路 https://atu.corpautohome.com/course/detail/?

    1.8K21编辑于 2023-03-29
  • 来自专栏刘旷专栏

    从爆款IP到独家IP,汽车之家内容战略如何登高?

    基于核心IP战略,汽车之家造爆款IP、优质IP的功力越发娴熟,《远行笔记》之外,《超级测试》、《事故检察官》、《几分钟义务教室》等IP不仅出圈成功,而且共同组成超级IP内容生态,助推汽车之家用户持续增长 可以说,凭借愈来愈多爆款、独家IP的成功,汽车之家已然筑起了一条相当宽广的独特内容护城河,傲视整个汽车内容行业。优质IP难创虽说汽车之家频出爆款IP,可内容产业的IP生产现状却不那么乐观。 其一,此次可可西里篇的制作非常特殊,汽车之家成为首家跟随可可西里巡护队进行巡护工作的汽车媒体,所以这一季的《远行笔记》内容也成为全网唯一,是汽车之家的独家内容。 战略势能放大去年汽车之家推出“生态化”战略,在C端确立“三多”策略,即开拓更多玩法、创建更多场景和覆盖更多人群,这为汽车之家提供了更多的增长动力。 而在这个优质IP背后,我们更加清晰地看见汽车之家IP基因的持续进化,以及内容生态全面走向高质高门槛发展阶段。不仅IP出圈,场景出圈,汽车之家本身也实现了出圈。

    44510编辑于 2022-10-27
  • 爬取汽车之家评论并利用NLP进行关键词提取

    汽车之家作为国内知名的汽车信息平台,其用户评论中蕴含着丰富的市场信息。通过爬取这些评论并运用自然语言处理(NLP)技术提取关键词,不仅可以帮助汽车厂商更好地了解消费者反馈,还能为市场研究提供数据支持。 本文将详细介绍如何使用 Python 爬取汽车之家评论,并利用 NLP 技术进行关键词提取的完整过程。 例如,汽车之家的评论可能通过一个类似 https://api.autohome.com.cn/reply/ 的接口加载。 三、案例分析与应用通过上述爬虫和关键词提取流程,我们可以对汽车之家的评论数据进行深度分析。 四、总结本文通过 Python 爬虫技术爬取了汽车之家的用户评论,并利用自然语言处理(NLP)技术提取了评论中的关键词。

    51510编辑于 2025-06-11
领券