首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据挖掘

    链家二手房楼盘爬虫

    前言 想看下最近房价是否能入手,抓取链家 二手房 、 新房 的信息,发现广州有些精装修 88平米 的 3房2厅 首付只要 29 万!平均 1.1万/平: ? 新房': '/bj/loupan/fang/', '找小区': '/bj/xiaoqu/', '查成交': '/bj/chengjiao/', '租房': '/chuzu/bj/zufang/', '二手房 cs/', '临高': '/lg/', '石家庄': '/sjz/', '许昌': '/xc/', '镇江': '/zj/', '乐山': '/leshan/', '贵阳': '/gy/'} 模拟请求二手房 点击二手房链接进入二手房列表页面,发现列表页面的 url 是 https://m.lianjia.com/bj/ershoufang/index/ ,把网页往下拉进行翻页,发现下一页的 url 构造为 获取信息的部分代码为: # 获取二手房的详细信息 def getInfoErshoufang(html): detailArr = [] soup = BeautifulSoup(html

    1.8K30发布于 2019-07-01
  • 来自专栏谭小谭

    python采集链家二手房信息

    说到爬虫,前面也有说过,无非就三个主要的步骤 1、获取目标网页或接口 2、从目标网页或接口中解析并提炼出你要的数据字段 3、数据保存 我们今天就以链家平台上北京地区二手房为例,首先是打开目标网页。

    1.2K30发布于 2019-06-03
  • 来自专栏吉吉的机器学习乐园

    Python二手房价格预测(一)——数据获取

    01 前言 ---- 二手房价格预测问题一直作为基础的数据分析入门课题,有许多开源的房价预测数据集。这些数据虽为经典,但时效上有所不足。 因此我将在此记录Python从0到1的二手房房价预测过程,从数据获取开始。 02 获取单个二手房售卖链接 ---- 以链家网为例 我们需要获取对应城市的二手房售卖链接,图中红色框起来的就是一条链接。 houseIdSet.add(a.get("href")) # print(a.get("href")) return list(houseIdSet) 02 获取单个二手房售卖链接 ---- 进入到单个的二手房售卖页面,以下几张图中,红色框起来的部分是我们要获取的内容。 03 获取该城市所有的数据 ---- 我们将某城市二手房页面拉到最底,似乎只能显示100页,每页有30条二手房售卖链接。

    1.3K10编辑于 2022-07-13
  • 来自专栏XINDOO的专栏

    python爬虫爬取链家二手房信息

    我用scrapy实现了一个爬取链家二手房的爬虫,全部源码我已经放到github上了https://github.com/xindoo/ershoufang。 问题二   我代码里只爬取了3000套二手房价格,北京市实际在售的二手房大概有两万套,不是我不想全爬,只是链家只展示100页(3000套)的内容,排序方式我也并不清楚。 http://bj.lianjia.com/ershoufang/pg1/,一直爬取到100页, 我在代码里注释掉的 start_urls包含了北京市所有的区,如果不被ban,理论上是可以拿到北京市所有的二手房信息的

    1.6K10发布于 2021-01-22
  • 来自专栏python学习教程

    Python爬虫 爬取北京二手房数据

    房价高是北漂们一直关心的话题,本文就对北京的二手房数据进行了分析。 本文主要分为两部分:Python爬取赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考。 Python爬取赶集网北京二手房数据 入门爬虫一个月,所以对每一个网站都使用了Xpath、Beautiful Soup、正则三种方法分别爬取,用于练习巩固。数据来源如下: ? R对爬取的二手房房价做一般线性回归分析 下面我们用R对抓取的赶集网北京二手房数据做一些简单的分析。 193 102 20 5 1 ##由于拥有6、7、9个卧室数的数量较少,这里我们排出这些数据。

    1.2K50发布于 2019-07-10
  • 来自专栏凹凸玩数据

    二手房价格及信息爬取

    爬取准备 某家网站里有新房、二手房、租房等待。如果买房,尤其是在北京的首套,可能二手房是选择之一,那我就针对二手房研究一下。 上图是某家二手房展示页面其中一套房的信息,我需要提取它的:位置、几室几厅、平米数、朝向、装修风格、层数、建造年份、建筑形式、售价。 , '地区', '厅','平米数','方向','状态','层','build-year','形式','钱','单位','网址','推荐语'] # 如果文件由第一行,就不用了 with open('链家二手房 为了方便知道进度,在每页结尾加上打印,知道进度 6. 为了防止"给链家服务器带来压力“选择每页隔几秒再切换下页 7. writer.writerow(house_all) file.close() print(f'---第{i}页---') times = choice([3, 4, 5, 6]

    68120发布于 2019-12-24
  • 来自专栏小明的博客

    房天下二手房交易数据爬取

    本次是爬取西安房天下上的二手房交易数据,主要面临的困难有: 网页的重定向问题的识别 不完全规则网页的匹配规则书写问题 爬虫效率问题 滑块验证问题 import requests from scrapy.selector xpath( '//div[@class="trl-item1 w132"]/div/text()').extract_first() # 朝向 x6 /h4/text()').extract_first() datas.append([x1, x2, x3, x4, x5, x6, x7, x27, x8, x9, x10, x11, url并非链接地址栏显示的url,据我观察链接地址栏的url会在一段时间后失效,具体的机理分析仍有待进一步的深入学习 终稿 经过一番重塑修改,对代码的逻辑进行进一步优化,最后写出了最终版本的房天下二手房交易数据爬取 like Gecko) Chrome/103.0.5060.53 Safari/537.36 Edg/103.0.1264.37', #'Cookie': 'csrfToken=fxB64yKN6YmKp2x6IBImOond

    1.1K10编辑于 2022-09-06
  • 来自专栏迪迪的Python专栏

    用Python分析广州房地产市场

    2017年至2019年南京和长沙二手房(元/㎡) [ab43637b7e56e7f20a86c68d094bd9b6.png] 那么,我们该如何分析房地产市场? 2020年1月至6月广州二手房量价走势 [d3b41dca6885c37128e32a2df518bed3.png] 2020年1月至6月,广州二手房均价与2019年基本持平。 从成交量来看,2月份受疫情影响仅成交70套二手房,3月份以来,疫情逐渐得到控制,房产市场向好,6月份成交二手房1337套。 房价分布 2020年上半年广州各区二手房均价(元/㎡) [02190b0b964558b7dba1a2c6c541d2a9.png] 从房价分布来看,2020年1月至6二手房均价最高的地区为越秀区和天河区 楼盘成交TOP20 2020年1月至6月广州二手房成交TOP20楼盘 [7cc16e92e0fd9fd1ae6b5904c39e2c4b.png] 从楼盘成交来看,2020年1月至6月广州二手房成交数量最多的楼盘为位于增城区的锦绣天伦花园

    76460编辑于 2022-01-10
  • 来自专栏网络爬虫

    各地二手房指导价之后的市场情况

    今年房价热点地区,陆续推出二手房交易指导价格机制,使得二手房成交量下降,交易周期变长。同时部分地区限购,导致二手房市场客户较难向一手房市场转化。 银行部分由于贷款额度限制,优先保障新房,相应二手房住房按揭贷款使用额度不断减少,贷款周期变长,甚至部分地区银行已经暂缓二手房贷款。 已经实施二手房交易实施指导价的城市有深圳、成都、西安、上海。 深圳和成都的二手房指导价力度相对较大,因此最最近几个月的二手房交易量和面积、单价都下降明显。其中6月深圳二手房过户2575套,同比下跌75%,成都6月的二手房过户低于4000套,连续三个月大幅下降。 目前看二手房指导价的政策,对二手市场的影响还是很大的,具体可以通过爬虫程序采集房产信息数据,动态了解市场行情: package main import (

    48310发布于 2021-07-13
  • 来自专栏机器学习AI算法工程

    Python抓取上海各地区房价平均值

    "本程序用于计算赶集上海二手区房价,单位万/平米"print ('''每个区对应代码如下: 0:显示上海所有区单独的平均房价; 1:浦东新区; 2:闵行区; 3:徐汇区; 4:长宁区; 5:普陀区; 6: 4':'http://wap.ganji.com/sh/fang5/changning/o', '5':'http://wap.ganji.com/sh/fang5/putuo/o', '6' shanghaizhoubian/o'}#各地区显示代码area = { '1':'浦东新区', '2':'闵行区', '3':'徐汇区', '4':'长宁区', '5':'普陀区', '6' 请输入需要查询的区代码,可一次输入多个代码:")) if str(0) in areanum:#输入有0则计算全部区域 for numbe in ('1','2','3','4','5','6' '): get_price(numbe) else:#输入无0则计算输入区域 for numb in ('0','1','2','3','4','5','6'

    1.1K50发布于 2018-03-13
  • 来自专栏猪圈子

    如何用Python爬取分析北京二手房数据?

    背锅侠 一个有个性的订阅号 ---- 近期,有个朋友联系我,想统计一下北京二手房的相关的数据,而自己用Excel统计工作量太过于繁杂,问我用Python该如何实现。 构造要访问的URL 这里,我试着抓取北京海淀区二手房的相关数据。首先,是观察一下URL的结构,如下: ? 通过构建这100个URL,可以抓取海淀正在出售的二手房的相关的信息。 观察这个页面,可以发现每页有30个房子的信息,因为房子的详细信息肯定存储在子链接中。但是如何获取这些房子的链接呢? 南 北简装 73001元/平米 1 77.1平米2003年建/板楼 百旺新城 620万 2室1厅顶层/共6层 南 北简装 80415元/平米 2 94.31平米2004年建/板楼 幸福时光 690万 2室1厅高楼层/共6层 南 北简装 73163元/平米 3 234.12平米2001年建/板楼

    1.2K10发布于 2019-07-24
  • 来自专栏Python数据科学

    数据分析实战—北京二手房房价分析

    这里给大家提供一种思路:就是根据楼层 Floor 来判断有无电梯,一般的楼层大于6的都有电梯,而小于等于6层的一般都没有电梯。有了这个标准,那么剩下的就简单了。 df['Elevator'] == '有电梯')|(df['Elevator'] == '无电梯'), 'Elevator'] # 填补Elevator缺失值 df.loc[(df['Floor']>6) &(df['Elevator'].isnull()), 'Elevator'] = '有电梯' df.loc[(df['Floor']<=6)&(df['Elevator'].isnull()), 'Elevator 相应的,有电梯二手房房价较高,因为电梯前期装修费和后期维护费包含内了(但这个价格比较只是一个平均的概念,比如无电梯的6层豪华小区当然价格更高了)。 可以看到,6二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数都不一样,我们需要知道楼层的相对意义。

    2.2K30发布于 2018-08-06
  • 来自专栏凹凸玩数据

    用Python分析广州房地产市场

    广州房产市场分析 房产市场分析主要包括新房和二手房交易市场,由于一般的房产信息发布平台二手房数量远大于新房,因此,本文以广州二手房成交数据进行房产市场分析。 2020年1月至6月,广州二手房均价与2019年基本持平。从成交量来看,2月份受疫情影响成交70套二手房,3月份以来,疫情逐渐得到控制,房产市场向好,6月份成交二手房1337套。 房价分布 ? 从房价分布来看,2020年1月至6二手房均价最高的地区为越秀区和天河区,均价分别为46767.52元/㎡和46433.89元/㎡。从化区房价最低,仅为12190.67元/㎡。 从楼盘成交来看,2020年1月至6月广州二手房成交数量最多的楼盘为位于增城区的锦绣天伦花园,共计成交78套,成交均价为18565.40元/㎡。 从房产市场来看,广州二手房自2019年来价格变动幅度不大,维持30000元/㎡左右。疫情下二手房交易受挫,部分房企尝试以价换量争取更大去化量,加之疫情逐渐得到控制,二手房交易逐渐恢复。

    1.7K10发布于 2020-09-07
  • 来自专栏吉吉的机器学习乐园

    Python二手房价格预测(二)——数据处理及数据可视化

    plt.figure(figsize=(10,6)) plt.title("沈阳市二手房单位价格直方图") sns.distplot(data['单位价格'], color="royalblue",bins plt.figure(figsize=(10,6)) plt.title("沈阳市二手房总价直方图") sns.distplot(data['总价'], color="royalblue",bins= plt.figure(figsize=(10,6)) plt.title("沈阳市二手房建筑面积直方图") sns.distplot(data['建筑面积'], color="royalblue",bins -单位价格散点图 plt.figure(figsize=(10,6)) plt.title("沈阳市二手房面积-单位价格散点图") plt.scatter(data['建筑面积'], data['单位价格 -总价散点图 plt.figure(figsize=(10,6)) plt.title("沈阳市二手房面积-总价散点图") plt.scatter(data['建筑面积'], data['总价'],color

    2.2K20编辑于 2022-07-13
  • 来自专栏橙子探索测试

    Python正则表达式

    ="description" content="上海链家二手房频道,发布上海二手房真实在售房源信息,' \ r'为您提供上海二手房房源出售、二手房买卖交易等信息,快速查询上海二手房房价、特色 >',line1)) 1号线 1 ['1号线', '1号线', '6号线', '6号线'] ['143685036', '1', '1', '110460733', '16', '16'] ['<', ' ', '="/', '/', '/" ', '="上海闵行在售<em>二手房</em> ">闵行</', '><', '="', '" ', '="上海链家<em>二手房</em>频道,发布上海<em>二手房</em>真实在售房源信息, 为您提供上海<em>二手房</em>房源出售、<em>二手房</em>买卖交易等信息,快速查询上海<em>二手房</em>房价、特色、带看情况等.链家,连接每个家的故事."<', ' ', '="/', '/', '/" ', '="上海虹口在售<em>二手房</em> newsid=377&id=<em>6</em> http://www.fincm.com/newslist.asp?

    1.2K20发布于 2019-10-25
  • 来自专栏可以叫我才哥

    Python爬取贝壳找房8万+二手房源,看看普通人在北京买房是有多难!

    (url, proxies): try: rep = requests.get(url, headers= header, proxies= proxies, timeout=6) proxies = get_proxies() rep = requests.get(url, headers= header, proxies= proxies, timeout=6) \|(.*)平米\|(.*)',x)[6]) ? 详情解析新增字段 均价、发布时间和关注人数信息解析,这里采用的extract方法,大家可以简单了解下其作用! 各地区二手房【户型-地区】均价分布 有朋友关注到丰台区有个4室9厅6卫的房子,均价高达15万,其实ta是个别墅!! ? 6.总结 根据2020年12月30日智联招聘发布《2020 年冬季中国雇主需求与白领人才供给报告》,北京平均薪酬为1.19万。 ?

    1.7K30发布于 2021-08-05
  • 来自专栏Python网络爬虫从入门到精通

    【愚公系列】《Python网络爬虫从入门到精通》043-案例:可视化二手房数据查询系统

    HTML 解析规则(基于开发者工具定位): # 示例XPath定位(具体根据实际网页结构调整)小区名称: '//div1/div2/div/a1/text()'总价: '//div1/div6/div1 /span/text()' + '万'区域: '//div1/div2/div/a2/text()'单价: '//div1/div6/div2/span/text()'户型与面积: '//div1/div3 [1]/text()')[0].strip()# 获取小区名称 # 获取房子总价 total_price = li.xpath('//div[1]/div[6] li.xpath('//div[1]/div[2]/div/a[2]/text()')[0] # 获取房子区域 unit_price = li.xpath('//div[1]/div[6] 文件路径: 确保程序有权限读写当前目录下的 二手房数据.csv。

    39810编辑于 2025-09-21
  • 来自专栏CDA数据分析师

    带你用Python了解北京二手房市场现状

    分析了上海二手房的房价,引起了很多人的反响。 那么帝都的二手房市场又是怎样的呢?这次我们用Python来分析下北京的二手房数据。 ? 我们使用Python获取了链家网上北京市16个区的二手房数据。 str.split('|').str[5].str.extract(r'(\d+)') # 提取板塔 df_all['banta'] = df_all['houseInfo'].str.split('|').str[6] x == '2层' or x == '3层': return '低层' elif x == '中楼层' or x == '4层' or x == '5层' or x == '6层 首先我们看到近一年来,北京二手房房价的走势图,可以看到有回调的趋势,目前的均价在每平方米57589的样子。 北京不同区域的二手房房源数量 那么北京各个区域的二手房源分布如何呢? ? 经过统计可以看到,朝阳区的二手房数量遥遥领先,达到25648.其次是丰台,共11094。之后海淀、昌平、大兴紧随其后。 北京不同区域的二手房均价 ? 不同区域的二手房价又是怎样的呢?

    52610发布于 2020-08-11
  • 来自专栏爬虫资料

    使用python和Selenium进行数据分析:北京二手房房价

    图片北京二手房市场是一个热门的话题,许多人都想了解北京二手房的价格走势、供需情况和影响因素。然而,要获取北京二手房的相关数据并不容易,因为一些网站可能会限制访问、设置验证码或阻止抓取。 IP来绕过网站的访问限制或阻止使用Selenium来模拟浏览器打开网页,并执行JavaScript代码使用python来解析网页上的数据,并保存到本地或数据库,对数据进行清洗、处理和分析下面,我们以北京二手房房价为例 df = df.sort_values(by="count", ascending=False)# 绘制柱状图,并设置标题和标签plt.figure(figsize=(10, 6))plt.bar(df ="red", marker="o", label="均价")plt.title("北京各区域二手房数量和均价")plt.xlabel("区域")plt.ylabel("二手房数量(套)")plt.legend 一般来说,二手房数量越多的区域,均价越低,反之亦然。例如,朝阳区的二手房数量最多,但是均价最低;而西城区的二手房数量最少,但是均价最高。

    65130编辑于 2023-07-03
  • 来自专栏bit哲学院

    使用python进行北京二手房信息数据分析及可视化展示

    参考链接: 使用Python Pandas进行数据分析和可视化 之前我们爬取了贝壳找房上的北京二手房信息,具体可以查看python爬取贝壳找房之北京二手房源信息,现在我们针对获取的数据进行分析及可视化的展示 x:x['建筑类型'] if ('结构' in str(x['朝向'])) else x['朝向'],axis=1) data['总楼层'] = data.apply(lambda x:str(x[6] )[3:].strip('(共').strip('层)'),axis=1) data['楼层'] = data.apply(lambda x:str(x[6])[:3],axis=1) data['总面积 need_data.小区建成).dt.year # 绘制小区建成年限与小区均价的散点分布图 plt.scatter(built_year,need_data['小区均价'].astype(float),s=6) plt.title('北京二手房小区建成年份与均价分布信息!'

    1.6K20发布于 2020-12-25
领券