首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法与数据之美

    字体反爬之汽车之家

    前几天我们说到这个猫眼的字体反爬,其自定义字体定义的都是数字,而今天我们要尝试破解的是汽车之家的汉字字体反爬,现在就来一探究竟吧! ? -c2[i][0])<50 and abs(c1[i][1]-c2[i][1])<50: pass else: return , 'uniEDC3', 'uniEDCC', 'uniEDCD', 'uniEDDD', 'uniEDE8', 'uniEDF9'] uniname_list2=font2.getGlyphNames [] for i in uniname_list2: coordinate=font2['glyf'][i].coordinates coordinate_list2 .append(list(coordinate)) index2=-1 new_dict={} for name2 in coordinate_list2: index2

    1.7K20发布于 2020-01-17
  • 来自专栏Reinvent Data Science

    相似问答检索——汽车之家的 Milvus 实践

    ✏️ 作者介绍: 王寒&翟羽佳- 汽车之家认知智能组 NLP 算法工程师 | 项目背景 汽车之家作为中国汽车互联网平台,拥有全球最大的汽车社区论坛。 但汽车垂直领域的文本具有表达多样化、用语不规范(如:车型车系用语存在大量缩写、简写、语序颠倒等现象)、歧义性强(如:“北京”可能指汽车品牌,也可能指城市)等特点,这给传统基于关键词匹配的搜索方法带来了很大挑战 模型的网络结构如下图所示: 模型训练方面,我们先利用汽车之家汽车领域语料进行模型预训练,然后利用人工标注数据对 Sentence-BERT 进行微调,模型结果可以达到业务要求。 在这里我们参考了 IBM Watson 问答机器人在判断潜在答案是否正确上所做的工作[2][3]。该工作的主要任务是判断问题和答案之间的关系,与我们的任务相似。 | 结语 本文介绍了汽车之家在相似问答检索上的实践,我们采用召回 + 排序的两阶段处理流程。在召回阶段,关键词和语义方面的两路召回能够取得较高的召回率,为下一阶段打好基础。

    1.7K20发布于 2020-09-08
  • 来自专栏火丁笔记

    如何抓取汽车之家的车型库

    实际上,关于「如何抓取汽车之家的车型库」,我已经在「使用 Mitmproxy 分析接口」一文中给出了方法,不过那篇文章里讲的是利用 API 接口来抓取数据,一般来说,因为接口不会频繁改动,相对 WEB 在抓取汽车之家的车型库之前,我们应该对其结构有一个大致的了解,按照百科中的描述,其大致分为四个级别,分别是品牌、厂商、车系、车型。本文主要关注车系和车型两个级别的数据。 就抓取汽车之家的车型库这个任务而言,使用 spider 就可以实现,不过鉴于 crawl 在功能上更强大,本文选择 crawl 来实现,其工作流程大致如下:通过 start_urls 设置起始页,通过 意思是说,在使用 crawl 的时候,应该避免覆盖 parse 方法,不过本文的源代码中恰恰重写了 parse 方法,究其原因是因为汽车之家的字母页存在不规范的地方: shell> curl -I http 通过抓取竟然还帮助汽车之家找到一个 BUG,真是醉了。

    2.2K30编辑于 2021-12-14
  • 来自专栏python进阶学习

    python通过爬取汽车之家分析新能源汽车趋势

    新能源汽车的趋势已经越来越明显了,不管是家用车,还是商用车,新能源汽车都成了首选。从最新的汽车销售排行榜上看,排前10的车型中,新能源已经占据了一大半。 目前新能源汽车的渗透率已经达到35%,明年就会超过50%。新能源汽车不管从配置,性能,驾驶感,使用成本等各方面来看都对燃油车形成了降维打击,国内的车企已经开始把发展重点转向新能源汽车。 图片但是不管是新能源车汽车还是燃油车,大家都有不同的使用感受和选择的重点,那么我们就通过python大数据;来了解下,这2种车型大家都是怎么评价的吧?是否燃油车真的有要退出市场的趋势。 数据来源于汽车之家论坛评论。但是大家都清楚汽车之家的反爬虫措施做得相当好。也是为了保护个人权益的原因或者是保护用户的信息吧。所以为了完成任务就必须要反反爬虫。 threading # 导入threading库,用于多线程 import time # 导入time库,用于延时#要访问的目标页面targetUrl = “https://www.baidu.com” # 修改为汽车之家

    1.5K30编辑于 2023-04-13
  • 来自专栏小小挖掘机

    汽车之家推荐系统排序算法迭代之路

    文章作者:李晨旭 汽车之家 内容编辑:Hoh 内容来源:作者授权 出品平台:DataFun 导读:汽车之家的推荐系统紧随前沿技术,在支持内部多个推荐场景的同时,对外也有了一定的输出。 本次分享的主题为汽车之家推荐系统排序算法迭代之路,主要包括: 汽车之家推荐系统 排序模型 特征及训练样本 未来计划的优化方向 01. 汽车之家推荐系统 1. 概述 汽车之家推荐系统上线已有近5年历史,主要给用户推荐个性化的汽车之家资源。推荐系统的上线是汽车之家 APP 生态内容以分类体系分发转变为个性化推荐的重要里程碑。 汽车之家推荐的资源主要包括:专业编辑、汽车大V、论坛用户生产的文章、视频、图片,以及车系物品等,总量上亿。 作者介绍: 李晨旭,汽车之家高级算法工程师。2014年加入汽车之家,先后从事搜索意图分析、文本挖掘、推荐排序等工作。

    1.7K10发布于 2020-03-05
  • 来自专栏毛利学Python

    Scrapy爬取汽车之家某品牌图片

    需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html#pvareaid=3454450 第2页的url:https://car.autohome.com.cn/photolist/series/65/p2/ 第3页的url:https://car.autohome.com.cn/photolist 我们发现有些图片的的地址在src2中,直接用src获取不到图片的真正地址。这个时候要进行一个判断。 /a/img/@src2').get() except: item['src'] = 'http:' + li.xpath('. /a/img/@src').get() print(item) 先对src2进行判断,如果有就用里面的内容,否则就用src里的内容,这样得到图片的url就是正常的了。

    91330编辑于 2022-08-18
  • 来自专栏Python学习心得

    ​Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

    目标分析: 这次我们要爬的是汽车之家:car.autohome.com.cn。最近喜欢吉利博越,所以看了不少这款车的资料。 我们就点开博越汽车的图片网站: https://car.autohome.com.cn/pic/series/3788.html [pic1.png] 传统的Scrapy框架图片下载 Scrapy 框架的实施 创建scrapy项目和爬虫: $ scrapy startproject Geely $ cd Geely $ scrapy genspider BoYue car.autohome.com.cn 2. = os.path.dirname(__file__) #下载图片存储位置 IMAGES_STORE = os.path.join(project_dir, 'images') 2. [sitl15b2bn.png]

    1K00发布于 2018-12-19
  • 来自专栏Pythonista

    爬虫之汽车之家抽屉新热榜煎蛋网

    汽车之家新闻: import requests from bs4 import BeautifulSoup import os # 模拟浏览器发请求 r1 = requests.get(url='https 简介:', summary.text) print('url:', url) print('图片地址:', img_url) print('-' * 100) # 保存图片 r2 maxsplit=1)[1] file_path = os.path.join('imgs', file_name) with open(file_path, 'wb')as f: f.write(r2. not img_url: continue img_url = "https:" + img_url print(img_url) # 下载缩略图 r2 =img_url ) file_namne = img_url.rsplit("/", maxsplit=1)[1] file_path = os.path.join("img2"

    75030发布于 2018-08-31
  • 来自专栏緣來來來

    Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

    目标分析: 这次我们要爬的是 汽车之家:car.autohome.com.cn 最近喜欢吉利博越,所以看了不少这款车的资料。。。。 我们就点开博越汽车的图片网站: https://car.autohome.com.cn/pic/series/3788.html ?

    94110发布于 2018-09-18
  • Python 网络爬虫:Scrapy 解析汽车之家报价与评测

    汽车消费数字化的当下,汽车之家作为国内头部汽车资讯平台,汇聚了海量的车型报价、用户评测、配置参数等核心数据。 本文将从环境搭建、爬虫架构设计、数据解析到持久化存储,完整讲解如何基于 Scrapy 实现汽车之家报价与评测数据的爬取。 XPath/CSS Selector:汽车之家页面结构规整,通过 XPath 可精准定位报价、评测等核心数据节点,是解析 HTML 的最优选择。 六、总结本文基于 Scrapy 框架实现了汽车之家紧凑型车报价与评测数据的爬取,从项目搭建、数据解析到持久化存储,完整覆盖了爬虫开发的核心流程。 同时,汽车之家的页面结构可能会更新,需定期维护 XPath 表达式和爬虫逻辑,确保爬虫的稳定性。

    26910编辑于 2025-12-29
  • 来自专栏北京马哥教育

    Python神技能 | 使用爬虫获取汽车之家全车型数据

    汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。 (感谢汽车之家的大大们这么用心地做数据,仰慕) 俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。 准备工作 安装python,版本是2.7 安装scrapy模块, 版本是1.4.0 参考 汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree/ 我的目标是获取汽车的品牌、车系、车型数据,先从品牌开始。 在汽车之家的页面中寻觅一番后,找到了一个爬虫的切入点,汽车之家车型大全。这个页面里有所有品牌的数据,正是我的目标。 总结 以上就实现了一个简单的汽车之家的车型数据爬虫,其中用到了scrapy中的部分元素,当然还有很多元素没有涉及到,不过对于一个简单爬虫来说足矣。

    2.4K90发布于 2018-05-03
  • 来自专栏linux、Python学习

    Python神技能 | 使用爬虫获取汽车之家全车型数据

    汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。 (感谢汽车之家的大大们这么用心地做数据,仰慕) 俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。 准备工作 1.安装python,版本是2.7 2.安装scrapy模块, 版本是1.4.0 参考 汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree 我的目标是获取汽车的品牌、车系、车型数据,先从品牌开始。 在汽车之家的页面中寻觅一番后,找到了一个爬虫的切入点,汽车之家车型大全。这个页面里有所有品牌的数据,正是我的目标。 总结 以上就实现了一个简单的汽车之家的车型数据爬虫,其中用到了scrapy中的部分元素,当然还有很多元素没有涉及到,不过对于一个简单爬虫来说足矣。

    1.7K50发布于 2019-01-16
  • 来自专栏好好学习

    用Scrapy爬取汽车之家的网站图片就是爽

    前言 本文将介绍如何使用scrapy框架来快速爬取某网站汽车的图片,并将爬取到的图片保存到本地。 cardfs/product/g27/M01/8C/16/480x360_0_q95_c42_autohomecar__ChxkmWGegTaAJjHFACpeMVzBTpk896.jpg', '//car2. 2. 修改bba3Spider类,将下载的图片路径放到image_urls中。 for request_obj in request_objs: request_obj.item = item return request_objs 2. 2. 编写爬虫代码 这里自定义了一个名为bba3Spider类,该类继承自CrawlSpider。

    1.7K20编辑于 2022-03-31
  • 来自专栏有趣的django

    21天打造分布式爬虫-下载汽车之家图片(九)

    9.1.下载汽车之家图片 新建项目 scrapy startproject bmx scrapy genspider bmx5 "car.autohome.com.cn" bmx5.py # -*-

    53930发布于 2018-08-10
  • 来自专栏深度学习与python

    Flink在汽车之家实时计算场景中的落地实践

    基于上述提到的问题,我们邀请了汽车之家智能数据中心的数据工程师王刚老师,来为大家分享 Apache Flink 在汽车之家的核心实践内容。 大家好,我叫王刚,目前负责汽车之家实时计算平台、实时接入平台及数据湖相关的设计开发及维护工作。 但是仔细想想,在汽车之家数据的数量级下,我们应用 Flink 遇到的绝大部分问题都是在使用的过程中,或是资源应用不当导致的小麻烦,这得益于 Flink 优秀的设计和其背后强大的社区。 嘉宾简介 王刚 汽车之家 智能数据中心数据工程师 毕业于沈阳航空航天大学计算机科学与技术专业。 2018 年加入汽车之家,重新设计并开发了日志采集平台,从 0 到 1 设计开发了基于 Apache Flink 的实时计算平台、实时接入平台;2020 年开始探索并落地湖仓一体架构,主导 Apache

    65630编辑于 2022-03-24
  • 来自专栏深度学习与python

    汽车之家电商系统架构演进与平台化架构实践

    作者 | 方利 编辑 | 贾亚宁   本文由大厂案例转载自汽车之家主机厂事业部 - 技术部高级研发工程师方利首发于之家技术公众号的文章。 汽车之家电商系统诞生在 2014 年,成长于 2016~2019 年,并经历多年双 11、818 晚会的洪峰考验,沉淀了稳定可靠、性能卓越的在线交易能力。 一、架构演进 这个部分主要讲一下汽车之家电商系统的架构发展历程,每个阶段的业务状况、技术挑战和技术体系的应对策略。 1. 在 2013 年“双十一”期间,汽车之家推出购车服务,将交易环节作为一个重要发展方向 [2]。 在业务起步阶段对技术的要求就是快速迭代上线,验证产品可行性。 引用 [1] 盘点:2010-2020 年互联网的十大战役 http://www.knowledgeatwharton.com.cn/article/7795/ [2] 汽车之家:从“吸引眼球”向“电商平台

    1.8K21编辑于 2023-03-29
  • 来自专栏云飞学编程

    Python小伙抓取汽车之家,做自驾游最强攻略!

    小编在浏览汽车之家的时候,发现一个很好玩的地方,就是里面的“旅行家”板块,为什么说好玩呢,因为这里是各个车主分享的自己的自驾游的游记,特别的精彩,正好小编也有做自驾游的想法,那就来爬一波吧╮(╯▽╰)╭ 具体过程呢,小编也不细说了,大致有几个点要注意: 1、汽车之家网页可以用json模块直接抓取 2、保存本地时,因为存在文本和图片的形式,所以小编使用了python-docx模块,没有的小伙伴需要安装下哦

    78420发布于 2018-09-13
  • 来自专栏刘旷专栏

    赴港二次上市,汽车之家启动新“增”程

    中国乘联会发布的数据显示,2021年1月新能源乘用车零售销量15.8万辆,同比增长281.4%;2 月新能源乘用车零售销量达到9. 7 万辆,同比增长675.0%。 拉长增长曲线,重构长期价值 伴随着汽车之家赴港二次上市之后,资本市场对汽车之家的认可度会越来越高,这也将推动汽车之家进一步实现快速增长。 招股书数据显示,2018年媒体服务收入为3,508,254元人民币,占总收入的48.5%,2020年媒体服务收入为3,455,056元人民币,占总收入的39.9%;2018年线索服务收入为2,870,996 值得一提的是,汽车之家在线营销及其他服务营收占比不断上升,驱动了汽车之家整体营收的增长。 招股书数据,2018年在线营销及其他收入为853,901元人民币,占总收入的11.8%,2020年在线营销及其他收入为2,004,671元人民币,占总收入的23.2%。

    40540发布于 2021-03-15
  • 来自专栏刘旷专栏

    从爆款IP到独家IP,汽车之家内容战略如何登高?

    基于核心IP战略,汽车之家造爆款IP、优质IP的功力越发娴熟,《远行笔记》之外,《超级测试》、《事故检察官》、《几分钟义务教室》等IP不仅出圈成功,而且共同组成超级IP内容生态,助推汽车之家用户持续增长 可以说,凭借愈来愈多爆款、独家IP的成功,汽车之家已然筑起了一条相当宽广的独特内容护城河,傲视整个汽车内容行业。优质IP难创虽说汽车之家频出爆款IP,可内容产业的IP生产现状却不那么乐观。 其一,此次可可西里篇的制作非常特殊,汽车之家成为首家跟随可可西里巡护队进行巡护工作的汽车媒体,所以这一季的《远行笔记》内容也成为全网唯一,是汽车之家的独家内容。 战略势能放大去年汽车之家推出“生态化”战略,在C端确立“三多”策略,即开拓更多玩法、创建更多场景和覆盖更多人群,这为汽车之家提供了更多的增长动力。 而在这个优质IP背后,我们更加清晰地看见汽车之家IP基因的持续进化,以及内容生态全面走向高质高门槛发展阶段。不仅IP出圈,场景出圈,汽车之家本身也实现了出圈。

    44710编辑于 2022-10-27
  • 来自专栏科技向令说

    赛事+内容IP齐发力,汽车之家打破Z世代次元壁

    2 开局即王炸, 汽车之家为何让年轻人上头? 汽车之家两大赛事IP开局即王炸,看似偶然,实则是厚积薄发的必然,原因有三。 首先是“圈层共振”。 与消费者同行,才能找到机会。 过去多年,汽车之家青少年团队通过丰富多彩的线上线下活动,深耕青少年和高校学生等年轻用户,让汽车之家成为年轻用户分享汽车、生活和观点的主要阵地。 以汽车之家首届汽车创意设计大赛“Z世代梦想车”为例。 总的来看,2021年汽车之家变得更加年轻了。 【完】 曾响铃 1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者; 2 虎啸奖评委; 3 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者; 4 《中国经营报》《商界》《商界评论》

    38920编辑于 2022-01-26
领券