首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据挖掘

    链家二手房楼盘爬虫

    前言 想看下最近房价是否能入手,抓取链家 二手房 、 新房 的信息,发现广州有些精装修 88平米 的 3房2厅 首付只要 29 万!平均 1.1万/平: ? 新房': '/bj/loupan/fang/', '找小区': '/bj/xiaoqu/', '查成交': '/bj/chengjiao/', '租房': '/chuzu/bj/zufang/', '二手房 cs/', '临高': '/lg/', '石家庄': '/sjz/', '许昌': '/xc/', '镇江': '/zj/', '乐山': '/leshan/', '贵阳': '/gy/'} 模拟请求二手房 点击二手房链接进入二手房列表页面,发现列表页面的 url 是 https://m.lianjia.com/bj/ershoufang/index/ ,把网页往下拉进行翻页,发现下一页的 url 构造为 获取信息的部分代码为: # 获取二手房的详细信息 def getInfoErshoufang(html): detailArr = [] soup = BeautifulSoup(html

    1.8K30发布于 2019-07-01
  • 来自专栏谭小谭

    python采集链家二手房信息

    说到爬虫,前面也有说过,无非就三个主要的步骤 1、获取目标网页或接口 2、从目标网页或接口中解析并提炼出你要的数据字段 3、数据保存 我们今天就以链家平台上北京地区二手房为例,首先是打开目标网页。

    1.2K30发布于 2019-06-03
  • 来自专栏吉吉的机器学习乐园

    Python二手房价格预测(一)——数据获取

    01 前言 ---- 二手房价格预测问题一直作为基础的数据分析入门课题,有许多开源的房价预测数据集。这些数据虽为经典,但时效上有所不足。 因此我将在此记录Python从0到1的二手房房价预测过程,从数据获取开始。 02 获取单个二手房售卖链接 ---- 以链家网为例 我们需要获取对应城市的二手房售卖链接,图中红色框起来的就是一条链接。 houseIdSet.add(a.get("href")) # print(a.get("href")) return list(houseIdSet) 02 获取单个二手房售卖链接 ---- 进入到单个的二手房售卖页面,以下几张图中,红色框起来的部分是我们要获取的内容。 03 获取该城市所有的数据 ---- 我们将某城市二手房页面拉到最底,似乎只能显示100页,每页有30条二手房售卖链接。

    1.3K10编辑于 2022-07-13
  • 来自专栏XINDOO的专栏

    python爬虫爬取链家二手房信息

    我用scrapy实现了一个爬取链家二手房的爬虫,全部源码我已经放到github上了https://github.com/xindoo/ershoufang。 问题二   我代码里只爬取了3000套二手房价格,北京市实际在售的二手房大概有两万套,不是我不想全爬,只是链家只展示100页(3000套)的内容,排序方式我也并不清楚。 http://bj.lianjia.com/ershoufang/pg1/,一直爬取到100页, 我在代码里注释掉的 start_urls包含了北京市所有的区,如果不被ban,理论上是可以拿到北京市所有的二手房信息的 2.房屋均价上个月7万,这个月大概下降3-5k。 3.北京最便宜房屋单价1.6万/平方米,最贵14.9万/平方米(最贵和最便宜的一直都没卖出去)。 说明房市稍有降温。

    1.6K10发布于 2021-01-22
  • 来自专栏python学习教程

    Python爬虫 爬取北京二手房数据

    房价高是北漂们一直关心的话题,本文就对北京的二手房数据进行了分析。 本文主要分为两部分:Python爬取赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考。 Python爬取赶集网北京二手房数据 入门爬虫一个月,所以对每一个网站都使用了Xpath、Beautiful Soup、正则三种方法分别爬取,用于练习巩固。数据来源如下: ? R对爬取的二手房房价做一般线性回归分析 下面我们用R对抓取的赶集网北京二手房数据做一些简单的分析。 1 0 ##5个客厅只有一个个体,我们这里将其排出 DATA<-DATA[-(which(DATA$Halls %in% "5")),] table(DATA$Halls) 0

    1.2K50发布于 2019-07-10
  • 来自专栏凹凸玩数据

    二手房价格及信息爬取

    爬取准备 某家网站里有新房、二手房、租房等待。如果买房,尤其是在北京的首套,可能二手房是选择之一,那我就针对二手房研究一下。 上图是某家二手房展示页面其中一套房的信息,我需要提取它的:位置、几室几厅、平米数、朝向、装修风格、层数、建造年份、建筑形式、售价。 , '地区', '厅','平米数','方向','状态','层','build-year','形式','钱','单位','网址','推荐语'] # 如果文件由第一行,就不用了 with open('链家二手房 把提取的信息写入刚刚说的csv文件 5. 为了方便知道进度,在每页结尾加上打印,知道进度 6. 为了防止"给链家服务器带来压力“选择每页隔几秒再切换下页 7. writer.writerow(house_all) file.close() print(f'---第{i}页---') times = choice([3, 4, 5,

    68120发布于 2019-12-24
  • 来自专栏小明的博客

    房天下二手房交易数据爬取

    本次是爬取西安房天下上的二手房交易数据,主要面临的困难有: 网页的重定向问题的识别 不完全规则网页的匹配规则书写问题 爬虫效率问题 滑块验证问题 import requests from scrapy.selector xpath( '//div[@class="trl-item1 w182"]/div/text()').extract_first() # 单价 x5 /h4/text()').extract_first() datas.append([x1, x2, x3, x4, x5, x6, x7, x27, x8, x9, x10, x11, url并非链接地址栏显示的url,据我观察链接地址栏的url会在一段时间后失效,具体的机理分析仍有待进一步的深入学习 终稿 经过一番重塑修改,对代码的逻辑进行进一步优化,最后写出了最终版本的房天下二手房交易数据爬取 = se(text=data).xpath( '//div[@class="tt"]/text()').extract()[1] # 朝向 x5

    1.1K10编辑于 2022-09-06
  • 来自专栏网络爬虫

    各地二手房指导价之后的市场情况

    今年房价热点地区,陆续推出二手房交易指导价格机制,使得二手房成交量下降,交易周期变长。同时部分地区限购,导致二手房市场客户较难向一手房市场转化。 银行部分由于贷款额度限制,优先保障新房,相应二手房住房按揭贷款使用额度不断减少,贷款周期变长,甚至部分地区银行已经暂缓二手房贷款。 已经实施二手房交易实施指导价的城市有深圳、成都、西安、上海。 深圳和成都的二手房指导价力度相对较大,因此最最近几个月的二手房交易量和面积、单价都下降明显。其中6月深圳二手房过户2575套,同比下跌75%,成都6月的二手房过户低于4000套,连续三个月大幅下降。 目前看二手房指导价的政策,对二手市场的影响还是很大的,具体可以通过爬虫程序采集房产信息数据,动态了解市场行情: package main import (

    48310发布于 2021-07-13
  • 来自专栏猪圈子

    如何用Python爬取分析北京二手房数据?

    背锅侠 一个有个性的订阅号 ---- 近期,有个朋友联系我,想统计一下北京二手房的相关的数据,而自己用Excel统计工作量太过于繁杂,问我用Python该如何实现。 构造要访问的URL 这里,我试着抓取北京海淀区二手房的相关数据。首先,是观察一下URL的结构,如下: ? 通过构建这100个URL,可以抓取海淀正在出售的二手房的相关的信息。 观察这个页面,可以发现每页有30个房子的信息,因为房子的详细信息肯定存储在子链接中。但是如何获取这些房子的链接呢? 南 北平层/精装 127285元/平米 4 54.5平米1987年建/板塔结合 北洼西里 465万 2室1厅高楼层/共17层 西南简装 85321元/平米 5 永泰园 535万 2室1厅中楼层/共6层 南 北简装 69862元/平米 24 54.7平米1984年建/板楼 翠微南里 528万 2室1厅中楼层/共5

    1.2K10发布于 2019-07-24
  • 来自专栏Python数据科学

    数据分析实战—北京二手房房价分析

    二手房房数量:从数量统计上来看,目前二手房市场上比较火热的区域。海淀区和朝阳区二手房数量最多,差不多都接近3000套,毕竟大区,需求量也大。然后是丰台区,近几年正在改造建设,有赶超之势。 Size特征分析 f, [ax1,ax2] = plt.subplots(1, 2, figsize=(15, 5)) # 建房时间的分布情况 sns.distplot(df['Size'], bins = '南北'), 'Renovation'] # 画幅设置 f, [ax1,ax2,ax3] = plt.subplots(1, 3, figsize=(20, 5)) sns.countplot(df 年以前有很明显的价格上涨; 1980年之前几乎不存在有电梯二手房数据,说明1980年之前还没有大面积安装电梯; 1980年之前无电梯二手房中,简装二手房占绝大多数,精装反而很少; Floor 特征分析 f, ax1= plt.subplots(figsize=(20,5)) sns.countplot(x='Floor', data=df, ax=ax1) ax1.set_title('房屋户型',fontsize

    2.2K30发布于 2018-08-06
  • 来自专栏机器学习AI算法工程

    Python抓取上海各地区房价平均值

    /xuhui/o', '4':'http://wap.ganji.com/sh/fang5/changning/o', '5':'http://wap.ganji.com/sh/fang5/ 当前抓取到的价格如下: 浦东新区共获取二手房数量:655,平均房价为:3.35万元每平方 闵行区共获取二手房数量:640,平均房价为:2.52万元每平方 徐汇区共获取二手房数量:640,平均房价为 :3.95万元每平方 长宁区共获取二手房数量:643,平均房价为:3.57万元每平方 普陀区共获取二手房数量:647,平均房价为:2.91万元每平方 静安区共获取二手房数量:559,平均房价为:5.19 虹口区共获取二手房数量:641,平均房价为:3.15万元每平方 杨浦区共获取二手房数量:647,平均房价为:3.1万元每平方 宝山区共获取二手房数量:650,平均房价为:2.16万元每平方 嘉定区共获取二手房数量 :644,平均房价为:1.47万元每平方 青浦区共获取二手房数量:641,平均房价为:1.51万元每平方 松江区共获取二手房数量:640,平均房价为:1.68万元每平方 金山区共获取二手房数量:638

    1.1K50发布于 2018-03-13
  • 来自专栏迪迪的Python专栏

    用Python分析广州房地产市场

    土地成交结构 近10年广州土地招拍挂成交土地类型占比(%) [66bfe6887d1fe006e09979aaca26c2d5.png] 近10年来广州成交土地主要以工业用地、其他用地和住宅用地为主,工业用地占比高达 ,简单清洗后部分数据展示如下: [0293809f94baccc9ae9ff863ce304a86.png] 分析二手房数据 量价走势 近5年广州二手房量价走势 [23416760f51ab7ad3f80b5e46e4dd84f.png ': 'area', '层数': 'floor', '成交单价(元/㎡)': 'price'}, inplace=True)fig,axes=plt.subplots(1,2,figsize=(12,5) ='r',marker='+',ax=axes[0])sns.regplot(x='hall',y='price',data=df,color='g',marker='*',ax=axes[1]) 近5年广州二手房居室 、面积、楼层与房价的关系 [c37cbf9dc5ac29508fb0f63c2bfce472.png] 通过绘制广州二手房回归图,我们发现,广州二手房居室数、面积与房价相关性并不大。

    76460编辑于 2022-01-10
  • 来自专栏橙子探索测试

    Python正则表达式

    ="description" content="上海链家二手房频道,发布上海二手房真实在售房源信息,' \ r'为您提供上海二手房房源出售、二手房买卖交易等信息,快速查询上海二手房房价、特色 , ('www.fincm', '')] 案例四: line4= '<img class="course-banner lazy" data-original="//img4.hhhaaa.com/<em>5</em>a405d45000175cb06000338 -240-135.jpg"' \ ' src="//img4.hhhaaa.com/<em>5</em>a405d45000175cb06000338-240-135.jpg" style="display ,line4).group(1)) <img class="course-banner lazy" data-original="//img4.hhhaaa.com/<em>5</em>a405d45000175cb06000338 -240-135.jpg" //img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg

    1.2K20发布于 2019-10-25
  • 来自专栏CDA数据分析师

    带你用Python了解北京二手房市场现状

    CDA数据分析师 出品 作者:Mika 数据:真达 后期:泽龙 【导读】 今天让我们来聊一聊北京的二手房市场现状。公众号后台,回复关键字“二手房”获取完整数据。 分析了上海二手房的房价,引起了很多人的反响。 那么帝都的二手房市场又是怎样的呢?这次我们用Python来分析下北京的二手房数据。 ? 我们使用Python获取了链家网上北京市16个区的二手房数据。 首先我们看到近一年来,北京二手房房价的走势图,可以看到有回调的趋势,目前的均价在每平方米57589的样子。 北京不同区域的二手房房源数量 那么北京各个区域的二手房源分布如何呢? ? 经过统计可以看到,朝阳区的二手房数量遥遥领先,达到25648.其次是丰台,共11094。之后海淀、昌平、大兴紧随其后。 北京不同区域的二手房均价 ? 不同区域的二手房价又是怎样的呢? 那么这些二手房的房龄都有多久了呢?可以看到房龄在20年以上的最多,有10946套占比33.73%,其次房龄在15-20年的有7835套,占比24.15%。5年以内的仅有1441套,占比4.44%。

    52610发布于 2020-08-11
  • 基于Python的南京二手房数据可视化分析

    从图中我们可以看出,房屋用途类型有:普通住宅、别墅、商业办公、酒店式公寓、车库5中类型。其中我们主要关心的普通住宅类型的房源数量近20000套,占总量绝大部分。 在房屋用途类型上,数据文件中一共包括了5种类型的二手房房源信息,其中普通住宅类型占比98%以上,所以我们后面分析基本可以看成是针对普通住宅类型的二手房进行的分析,这也符合我们期望。 图31 南京二手房建筑类型饼状图5 数据聚类分析该阶段采用聚类算法中的k-means算法对所有二手房数据进行聚类分析,根据聚类的结果和经验,将这些房源大致分类,已达到对数据概括总结的目的。 5)将全部元素按照新的质心重新聚类。6)重复第5步,直到聚类结果不再变化。7)最后,输出聚类结果。 从图中,我们可以看出k值到达5以后,SSE变化趋于平缓,所以我们选定5作为k值。图32 不同k值下SSE值折线图5.2.2 初始的K个质心选定说明初始的k个质心选定是采用的随机法。

    44010编辑于 2025-06-01
  • 来自专栏可以叫我才哥

    Python爬取贝壳找房8万+二手房源,看看普通人在北京买房是有多难!

    今天,我们从贝壳找房 爬取了 8万+二手房源信息,看看在北京的二手房都是什么样的存在。 \|(.*)平米\|(.*)',x)[5]) houseData.loc[:,'朝向'] = houseData['详情'].apply(lambda x : re.split(r'(.+?)(? 北京二手房均价分布 均价直方图 从均价直方图我们可以发现,落在均价5万左右的房子比较多,而超过7万以上的房源数也不少,其中最低的可能仅1万出头,最高的则可以搞到17.5万! ? 各地区均价最高前5 4.3.各地区二手房总价 #房价均价分布(1000万以内) data[data['总价']<1000].总价.mean() 458.2997917446772 **整个北京二手房总价均值为 各区域总价前5 总价最贵在哪里 除了第一名位于密云的新南路40号独栋别墅外,就是二环附近的四合院或者奢华小区的高层超大面积户型。当然了,看这些其实没太大意义了! ?

    1.7K30发布于 2021-08-05
  • 基于Python的二手房价格分析与多种机器学习房价预测

    但由于估价业务量的不断增长,仅靠上述这三种评估方法无法快速有效地得出结论,于是就产生了批量估价法,批量估价早在上世纪初被突出,首次将统计学思想应用于房地产批量估价中,运用多元回归分析来解决房地产的批量估价问题5。 (5) 当满足停止条件时(如设定爬取100页),则停止爬取。项目需求分析项目概述本项目选取重庆市(13个区)为预测分析的数据来源,展现数据的采集、处理、分析和可视化。 对于过多的文字就不做过多的介绍了爬虫数据预处理1# 定义转化函数2def ratioTH(df, flag):3 CN_NUM = {'十': 10, '一': 1, '二': 2, '三': 3, '四': 4, '五': 5, '六': 6, '七': 7, '八': 8, '九': 9, '零': 0, '两': 2}4 if pd.isna(df['梯户比例']) or "" == df['梯户比例']:5 ratioTH(x, 3), axis=1)AI写代码python运行12345678910111213141516171819202122232425262728可视化观察最主要的前12中户型,如图5-

    74110编辑于 2025-06-12
  • 来自专栏吉吉的机器学习乐园

    Python二手房价格预测(二)——数据处理及数据可视化

    2984 non-null object 3 小区 2984 non-null object 4 所属区县 2984 non-null object 5 37 2004 35 1999 25 2003 20 1998 12 1996 10 1997 9 1995 6 2002 5 16 1996 16 1997 16 1988 8 1992 8 1987 6 1978 6 1980 6 1989 5 int64 32 梯户比例_户 2984 non-null int64 33 梯户比例_比例 2984 non-null float64 dtypes: float64(5) , int32(5), int64(2), object(22) memory usage: 734.5+ KB ''' # 我们发现,仍有四列['户型结构', '建筑类型', '梯户比例', '配备电梯

    2.2K20编辑于 2022-07-13
  • 来自专栏凹凸玩数据

    用Python分析广州房地产市场

    广州房产市场分析 房产市场分析主要包括新房和二手房交易市场,由于一般的房产信息发布平台二手房数量远大于新房,因此,本文以广州二手房成交数据进行房产市场分析。 获取二手房数据 为了获取更全面且真实的数据,本文通过Python获取到房天下最新公布的广州二手房成交数据。 ? 从广州近几年二手房的量价走势来看,自2015年以来房价一直在上涨,2018年二手房均价达到35000元/㎡。2019年房价有所回落,但成交二手房数量达到近几年峰值,全年成交8940套。 ? 'area', '层数': 'floor', '成交单价(元/㎡)': 'price'}, inplace=True) fig,axes=plt.subplots(1,2,figsize=(12,5) 从房产市场来看,广州二手房自2019年来价格变动幅度不大,维持30000元/㎡左右。疫情下二手房交易受挫,部分房企尝试以价换量争取更大去化量,加之疫情逐渐得到控制,二手房交易逐渐恢复。

    1.7K10发布于 2020-09-07
  • 来自专栏杨建荣的学习笔记

    用Python对2019年二手房价格进行数据分析

    本文为读者投稿,作者:董汇标MINUS 知乎:https://zhuanlan.zhihu.com/p/97243470 最近和朋友聊到买房问题,所以对某二手房价格信息进行了爬取,爬虫见本公众号另一篇文章 最贵和最便宜 从上面输出表格可以看到初步结论如下: 这些二手房最小面积9.6平米,最大718平米,最便宜的56万,最贵的5200万。 同样的思路看一下面积,可以看到这些二手房源面积主要集中在100平米左右 sns.distplot(data['面积'].dropna()) ? 结论见代码下截图,如果你对北京熟悉,可以看到,这些房子主要分布在5环外,部分在顺义、昌平、门头沟等地。

    1K20发布于 2020-02-19
领券