搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏算法与数据之美
字体反爬之汽车之家
前几天我们说到这个猫眼的字体反爬，其自定义字体定义的都是数字，而今天我们要尝试破解的是汽车之家的汉字字体反爬，现在就来一探究竟吧！ ?
1.6K20发布于 2020-01-17
来自专栏Reinvent Data Science
相似问答检索——汽车之家的 Milvus 实践
✏️ 作者介绍：王寒&翟羽佳- 汽车之家认知智能组 NLP 算法工程师 | 项目背景汽车之家作为中国汽车互联网平台，拥有全球最大的汽车社区论坛。但汽车垂直领域的文本具有表达多样化、用语不规范（如：车型车系用语存在大量缩写、简写、语序颠倒等现象）、歧义性强（如：“北京”可能指汽车品牌，也可能指城市）等特点，这给传统基于关键词匹配的搜索方法带来了很大挑战精华问答库是由人工收集、总结、整理的，涵盖了大量汽车领域的常用问答。整体流程主要分为两个阶段：召回和排序。召回阶段我们采用两路召回的方式，分别是关键词召回和向量召回。模型的网络结构如下图所示：模型训练方面，我们先利用汽车之家的汽车领域语料进行模型预训练，然后利用人工标注数据对 Sentence-BERT 进行微调，模型结果可以达到业务要求。 | 结语本文介绍了汽车之家在相似问答检索上的实践，我们采用召回 + 排序的两阶段处理流程。在召回阶段，关键词和语义方面的两路召回能够取得较高的召回率，为下一阶段打好基础。
1.7K20发布于 2020-09-08
来自专栏火丁笔记
如何抓取汽车之家的车型库
实际上，关于「如何抓取汽车之家的车型库」，我已经在「使用 Mitmproxy 分析接口」一文中给出了方法，不过那篇文章里讲的是利用 API 接口来抓取数据，一般来说，因为接口不会频繁改动，相对 WEB 在抓取汽车之家的车型库之前，我们应该对其结构有一个大致的了解，按照百科中的描述，其大致分为四个级别，分别是品牌、厂商、车系、车型。本文主要关注车系和车型两个级别的数据。就抓取汽车之家的车型库这个任务而言，使用 spider 就可以实现，不过鉴于 crawl 在功能上更强大，本文选择 crawl 来实现，其工作流程大致如下：通过 start_urls 设置起始页，通过意思是说，在使用 crawl 的时候，应该避免覆盖 parse 方法，不过本文的源代码中恰恰重写了 parse 方法，究其原因是因为汽车之家的字母页存在不规范的地方： shell> curl -I http 通过抓取竟然还帮助汽车之家找到一个 BUG，真是醉了。
2.2K30编辑于 2021-12-14
来自专栏python进阶学习
python通过爬取汽车之家分析新能源汽车趋势
新能源汽车的趋势已经越来越明显了，不管是家用车，还是商用车，新能源汽车都成了首选。从最新的汽车销售排行榜上看，排前10的车型中，新能源已经占据了一大半。目前新能源汽车的渗透率已经达到35%，明年就会超过50%。新能源汽车不管从配置，性能，驾驶感，使用成本等各方面来看都对燃油车形成了降维打击，国内的车企已经开始把发展重点转向新能源汽车。图片但是不管是新能源车汽车还是燃油车，大家都有不同的使用感受和选择的重点，那么我们就通过python大数据；来了解下，这2种车型大家都是怎么评价的吧？是否燃油车真的有要退出市场的趋势。数据来源于汽车之家论坛评论。但是大家都清楚汽车之家的反爬虫措施做得相当好。也是为了保护个人权益的原因或者是保护用户的信息吧。所以为了完成任务就必须要反反爬虫。 threading # 导入threading库，用于多线程 import time # 导入time库，用于延时#要访问的目标页面targetUrl = “https://www.baidu.com” # 修改为汽车之家
1.5K30编辑于 2023-04-13
来自专栏小小挖掘机
汽车之家推荐系统排序算法迭代之路
文章作者：李晨旭汽车之家内容编辑：Hoh 内容来源：作者授权出品平台：DataFun 导读：汽车之家的推荐系统紧随前沿技术，在支持内部多个推荐场景的同时，对外也有了一定的输出。本次分享的主题为汽车之家推荐系统排序算法迭代之路，主要包括：汽车之家推荐系统排序模型特征及训练样本未来计划的优化方向 01. 汽车之家推荐系统 1. 概述汽车之家推荐系统上线已有近5年历史，主要给用户推荐个性化的汽车之家资源。推荐系统的上线是汽车之家 APP 生态内容以分类体系分发转变为个性化推荐的重要里程碑。汽车之家推荐的资源主要包括：专业编辑、汽车大V、论坛用户生产的文章、视频、图片，以及车系物品等，总量上亿。作者介绍：李晨旭，汽车之家高级算法工程师。2014年加入汽车之家，先后从事搜索意图分析、文本挖掘、推荐排序等工作。
1.7K10发布于 2020-03-05
来自专栏毛利学Python
Scrapy爬取汽车之家某品牌图片
需求爬取汽车之家某品牌的汽车图片目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html#pvareaid=3454450
90530编辑于 2022-08-18
来自专栏Python学习心得
Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践
目标分析：这次我们要爬的是汽车之家：car.autohome.com.cn。最近喜欢吉利博越，所以看了不少这款车的资料。我们就点开博越汽车的图片网站： https://car.autohome.com.cn/pic/series/3788.html [pic1.png] 传统的Scrapy框架图片下载 Scrapy 框架的实施
1K00发布于 2018-12-19
来自专栏Pythonista
爬虫之汽车之家抽屉新热榜煎蛋网
汽车之家新闻： import requests from bs4 import BeautifulSoup import os # 模拟浏览器发请求 r1 = requests.get(url='https
74930发布于 2018-08-31
来自专栏緣來來來
Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践
目标分析：这次我们要爬的是汽车之家：car.autohome.com.cn 最近喜欢吉利博越，所以看了不少这款车的资料。。。。我们就点开博越汽车的图片网站： https://car.autohome.com.cn/pic/series/3788.html ?
93610发布于 2018-09-18
Python 网络爬虫：Scrapy 解析汽车之家报价与评测
在汽车消费数字化的当下，汽车之家作为国内头部汽车资讯平台，汇聚了海量的车型报价、用户评测、配置参数等核心数据。本文将从环境搭建、爬虫架构设计、数据解析到持久化存储，完整讲解如何基于 Scrapy 实现汽车之家报价与评测数据的爬取。 XPath/CSS Selector：汽车之家页面结构规整，通过 XPath 可精准定位报价、评测等核心数据节点，是解析 HTML 的最优选择。六、总结本文基于 Scrapy 框架实现了汽车之家紧凑型车报价与评测数据的爬取，从项目搭建、数据解析到持久化存储，完整覆盖了爬虫开发的核心流程。同时，汽车之家的页面结构可能会更新，需定期维护 XPath 表达式和爬虫逻辑，确保爬虫的稳定性。
24210编辑于 2025-12-29
来自专栏北京马哥教育
Python神技能 | 使用爬虫获取汽车之家全车型数据
汽车之家是大家公认的数据做的比较好的汽车网站，所以就用它吧。（感谢汽车之家的大大们这么用心地做数据，仰慕）俗话说的好，“十爬虫九python”，作为一只java狗，我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。准备工作安装python，版本是2.7 安装scrapy模块, 版本是1.4.0 参考汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree/ 我的目标是获取汽车的品牌、车系、车型数据，先从品牌开始。在汽车之家的页面中寻觅一番后，找到了一个爬虫的切入点，汽车之家车型大全。这个页面里有所有品牌的数据，正是我的目标。总结以上就实现了一个简单的汽车之家的车型数据爬虫，其中用到了scrapy中的部分元素，当然还有很多元素没有涉及到，不过对于一个简单爬虫来说足矣。
2.3K90发布于 2018-05-03
来自专栏好好学习
用Scrapy爬取汽车之家的网站图片就是爽
前言本文将介绍如何使用scrapy框架来快速爬取某网站汽车的图片，并将爬取到的图片保存到本地。
1.7K20编辑于 2022-03-31
来自专栏linux、Python学习
Python神技能 | 使用爬虫获取汽车之家全车型数据
汽车之家是大家公认的数据做的比较好的汽车网站，所以就用它吧。（感谢汽车之家的大大们这么用心地做数据，仰慕）俗话说的好，“十爬虫九python”，作为一只java狗，我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。准备工作 1.安装python，版本是2.7 2.安装scrapy模块, 版本是1.4.0 参考汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree 我的目标是获取汽车的品牌、车系、车型数据，先从品牌开始。在汽车之家的页面中寻觅一番后，找到了一个爬虫的切入点，汽车之家车型大全。这个页面里有所有品牌的数据，正是我的目标。总结以上就实现了一个简单的汽车之家的车型数据爬虫，其中用到了scrapy中的部分元素，当然还有很多元素没有涉及到，不过对于一个简单爬虫来说足矣。
1.7K50发布于 2019-01-16
来自专栏有趣的django
21天打造分布式爬虫-下载汽车之家图片（九）
9.1.下载汽车之家图片新建项目 scrapy startproject bmx scrapy genspider bmx5 "car.autohome.com.cn" bmx5.py # -*-
53530发布于 2018-08-10
来自专栏深度学习与python
Flink在汽车之家实时计算场景中的落地实践
基于上述提到的问题，我们邀请了汽车之家智能数据中心的数据工程师王刚老师，来为大家分享 Apache Flink 在汽车之家的核心实践内容。大家好，我叫王刚，目前负责汽车之家实时计算平台、实时接入平台及数据湖相关的设计开发及维护工作。但是仔细想想，在汽车之家数据的数量级下，我们应用 Flink 遇到的绝大部分问题都是在使用的过程中，或是资源应用不当导致的小麻烦，这得益于 Flink 优秀的设计和其背后强大的社区。嘉宾简介王刚汽车之家智能数据中心数据工程师毕业于沈阳航空航天大学计算机科学与技术专业。 2018 年加入汽车之家，重新设计并开发了日志采集平台，从 0 到 1 设计开发了基于 Apache Flink 的实时计算平台、实时接入平台；2020 年开始探索并落地湖仓一体架构，主导 Apache
65530编辑于 2022-03-24
来自专栏刘旷专栏
赴港二次上市，汽车之家启动新“增”程
在C端市场，汽车之家通过车型对比、直播、AR全景看车、智能买车、汽车金融等相关服务，吸引汽车消费者。二来，汽车之家汽车媒体服务、线索服务、在线营销及其他三大业务，满足了B端和C端群体的需求。同时，汽车之家秉承创新发展的理念，为B、C端用户提供更多服务场景，拓宽业务边界，不断挖掘新增长点。拉长增长曲线，重构长期价值伴随着汽车之家赴港二次上市之后，资本市场对汽车之家的认可度会越来越高，这也将推动汽车之家进一步实现快速增长。值得一提的是，汽车之家在线营销及其他服务营收占比不断上升，驱动了汽车之家整体营收的增长。有了新的资金，汽车之家新业务将得以快速落地。重要的是，在竞争日益激烈的汽车服务市场，汽车之家拥有足够的场景和生态支持自身业务的扩展，以及延长营收增长曲线。
40240发布于 2021-03-15
来自专栏云飞学编程
Python小伙抓取汽车之家，做自驾游最强攻略！
小编在浏览汽车之家的时候，发现一个很好玩的地方，就是里面的“旅行家”板块，为什么说好玩呢，因为这里是各个车主分享的自己的自驾游的游记，特别的精彩，正好小编也有做自驾游的想法，那就来爬一波吧╮(╯▽╰)╭ 具体过程呢，小编也不细说了，大致有几个点要注意： 1、汽车之家网页可以用json模块直接抓取 2、保存本地时，因为存在文本和图片的形式，所以小编使用了python-docx模块，没有的小伙伴需要安装下哦
78220发布于 2018-09-13
来自专栏深度学习与python
汽车之家电商系统架构演进与平台化架构实践
作者 | 方利编辑 | 贾亚宁本文由大厂案例转载自汽车之家主机厂事业部 - 技术部高级研发工程师方利首发于之家技术公众号的文章。汽车之家电商系统诞生在 2014 年，成长于 2016~2019 年，并经历多年双 11、818 晚会的洪峰考验，沉淀了稳定可靠、性能卓越的在线交易能力。一、架构演进这个部分主要讲一下汽车之家电商系统的架构发展历程，每个阶段的业务状况、技术挑战和技术体系的应对策略。 1. 在 2013 年“双十一”期间，汽车之家推出购车服务，将交易环节作为一个重要发展方向 [2]。在业务起步阶段对技术的要求就是快速迭代上线，验证产品可行性。 bs=list&id=130 [4] 之家学宫: 百万级汽车电商交易系统构建之路 https://atu.corpautohome.com/course/detail/?
1.8K21编辑于 2023-03-29
来自专栏刘旷专栏
从爆款IP到独家IP，汽车之家内容战略如何登高？
基于核心IP战略，汽车之家造爆款IP、优质IP的功力越发娴熟，《远行笔记》之外，《超级测试》、《事故检察官》、《几分钟义务教室》等IP不仅出圈成功，而且共同组成超级IP内容生态，助推汽车之家用户持续增长可以说，凭借愈来愈多爆款、独家IP的成功，汽车之家已然筑起了一条相当宽广的独特内容护城河，傲视整个汽车内容行业。优质IP难创虽说汽车之家频出爆款IP，可内容产业的IP生产现状却不那么乐观。其一，此次可可西里篇的制作非常特殊，汽车之家成为首家跟随可可西里巡护队进行巡护工作的汽车媒体，所以这一季的《远行笔记》内容也成为全网唯一，是汽车之家的独家内容。战略势能放大去年汽车之家推出“生态化”战略，在C端确立“三多”策略，即开拓更多玩法、创建更多场景和覆盖更多人群，这为汽车之家提供了更多的增长动力。而在这个优质IP背后，我们更加清晰地看见汽车之家IP基因的持续进化，以及内容生态全面走向高质高门槛发展阶段。不仅IP出圈，场景出圈，汽车之家本身也实现了出圈。
44510编辑于 2022-10-27
爬取汽车之家评论并利用NLP进行关键词提取
汽车之家作为国内知名的汽车信息平台，其用户评论中蕴含着丰富的市场信息。通过爬取这些评论并运用自然语言处理（NLP）技术提取关键词，不仅可以帮助汽车厂商更好地了解消费者反馈，还能为市场研究提供数据支持。本文将详细介绍如何使用 Python 爬取汽车之家评论，并利用 NLP 技术进行关键词提取的完整过程。例如，汽车之家的评论可能通过一个类似 https://api.autohome.com.cn/reply/ 的接口加载。三、案例分析与应用通过上述爬虫和关键词提取流程，我们可以对汽车之家的评论数据进行深度分析。四、总结本文通过 Python 爬虫技术爬取了汽车之家的用户评论，并利用自然语言处理（NLP）技术提取了评论中的关键词。
51510编辑于 2025-06-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

字体反爬之汽车之家

相似问答检索——汽车之家的 Milvus 实践

如何抓取汽车之家的车型库

python通过爬取汽车之家分析新能源汽车趋势

汽车之家推荐系统排序算法迭代之路

Scrapy爬取汽车之家某品牌图片

Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

爬虫之汽车之家抽屉新热榜煎蛋网

Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

Python 网络爬虫：Scrapy 解析汽车之家报价与评测

Python神技能 | 使用爬虫获取汽车之家全车型数据

用Scrapy爬取汽车之家的网站图片就是爽

Python神技能 | 使用爬虫获取汽车之家全车型数据

21天打造分布式爬虫-下载汽车之家图片（九）

Flink在汽车之家实时计算场景中的落地实践

赴港二次上市，汽车之家启动新“增”程

Python小伙抓取汽车之家，做自驾游最强攻略！

汽车之家电商系统架构演进与平台化架构实践

从爆款IP到独家IP，汽车之家内容战略如何登高？

爬取汽车之家评论并利用NLP进行关键词提取

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

字体反爬之汽车之家

相似问答检索——汽车之家的 Milvus 实践

如何抓取汽车之家的车型库

python通过爬取汽车之家分析新能源汽车趋势

汽车之家推荐系统排序算法迭代之路

Scrapy爬取汽车之家某品牌图片

​Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

爬虫之汽车之家抽屉新热榜煎蛋网

Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

Python 网络爬虫：Scrapy 解析汽车之家报价与评测

Python神技能 | 使用爬虫获取汽车之家全车型数据

用Scrapy爬取汽车之家的网站图片就是爽

Python神技能 | 使用爬虫获取汽车之家全车型数据

21天打造分布式爬虫-下载汽车之家图片（九）

Flink在汽车之家实时计算场景中的落地实践

赴港二次上市，汽车之家启动新“增”程

Python小伙抓取汽车之家，做自驾游最强攻略！

汽车之家电商系统架构演进与平台化架构实践

从爆款IP到独家IP，汽车之家内容战略如何登高？

爬取汽车之家评论并利用NLP进行关键词提取

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践