苏泊尔售后电话-主力拉伸后大压单

基于XGBoost的深圳二手房价格预测
2023年9月6日发(作者:尤子平)

48 1Vol.48 No.1

2021Journal of Qufu Normal UniversitJan.20222

y

:/

DOI10.3969i.ssn.1001-5337.2022.1.057

j

基于的深圳二手房价格预测

XGBoost

*

胡晓伟马春梅孔祥山李凤银

,,,

(,),

曲阜师范大学计算机学院山东省日照市

276826

为了更加精准地预测二手房价格

,

2019

摘要

:

,

用线性回归模型随机森林模型和首先对数据集进行清模型并加以计算来预测二手房价格

,

XGBoostPOI.

洗并可视化展示其次运用百度地图进行使得数据集接近现实情况处理扩充数据集

.P.OI

,,,

特征对房价影响的重要程度进行了排序选取重要的特征来训练模型最后通过数值结果分析

,,,

.XGBoost

型对二手房的房价评估效果最好尤其是经过对于深圳市的处理的数据集和模型的这种组合

,,

POIXGBoost

二手房价格具有极好的预测效果

.

;;;

关键词

:

机器学习二手房价格预测

XGBoostPOI

()

中图分类号文献标识码文章编号

:::

TP391A1001-5337202201-0057-09

0

随着我国城市化进程的加速城市常住人口不断增加而发达地区的土地供应不断减少导致了城市房

,,,

价不断攀升另一方面二手房的周围配套设施相对比较完善如拥有成熟的交通商业教育环境等越来

.

,,,

越多的购房者开始关注二手房但是二手房信息对购房者不够公开透明购房者无法客观准确地评估二手

.

,,

房的价格在我国关于房地产价格的评估方法主要有市场法收益法成本法等它们大多适用于不同的市

.

,,

场环境这些方法更加注重定性分析因此受主观因素影响较大

..

,

[]

楼龄户型卧室数量卫生间数量指出影响夏威夷市房价的因素有面积

,

2004Limsombunc

1

境和地理位置并且根据所选择的影响因素建立了实验表明神经网络模型和人工神经网络模型

,,

Hedonic

[]

模型的预测效果更好市中心距离以及房屋地理位置这三在模型中引入了地铁距离

.2012Antiov

,

2

p

个区位特征使得房价预测结果更加趋于实际价格但是他们没有考虑到生活教育配套等这一重要的邻

,,

.

模型考虑了地理位置对房价的影响因素预测了伦敦

,,,)

1ressionGWR980~1998.

由于加入了地年的房价

g

理位置这个重要的影响因素使得房价预测更加实际化但是不同国家房价的影响因素是不同的如房产

,,,

.

[]

加入多类别变量建立随机森林模型研究了影响房价的因素利用北京市在售的二手房数据

,,

Hoffman

4

[]

里特征

.2015FotherinhamGeorahicalWeihtedRe-

(,,

3

ggpg

税率浴室数量等因素

,,

.2018Denisko

,(,)

述中

,(

ArtificialNeuralNetworkANNSuortVectorMachine

pp

,,,(()))

线性回归随机森林

SVMLinearReressionLRRandomForestRF

KK

近邻

(

-NearestNeihbor

g

g

,,,((())))

朴素贝叶斯空间分析岭回归

K

NN

NaiveBaesNBSatialAnalsisSARideReressionRR

ypygg

,,,)

套索回归

(

等众多的房价预测模型对各种模型的优缺点进行了说明指出要根据实

LassoReressionLR

g

*2021-03-19

收稿日期

:

);)(

基金项目国家自然科学基金

:(

山东省重大基础研究

62072273ZR201906140028.

[]

以及对房价的预测进一步提高了预测的准确性人在年的房价预测的房地产建模技术综

,

.Mohd2020

5

,:_;:,;

C1991-E-mailXiaoweiHuS@163.com.

作者简介胡晓伟

:,,

硕士研究方向大数据网络安全

,:,;:,;

通信作者马春梅

:,,

硕士副教授研究方向大数据网络安全

1978-E-mailchunmeima@fnu.edu.cn.

q

Copyright©博看网. All Rights Reserved.

曲阜师范大学学报自然科学版

()

58

2022

6

][

际需要解决的问题选择合适的模型陈世鹏金升平运用襄阳加入房贷的影响年的房屋贷款数据

.2012

,

因素创建随机森林模型进行房价预测自回归滑动平均模型和多元线性回归模型进行对模型

,,)(

ARMA

][

7

发现随机森林模型有很好的预测效果张靖苗以昆明和成都的二手房为研究对象利用空间分析

,,

.GIS

技术寻求不同城市的住宅价格空间分布规律构建地理加权回归模型分析了住宅小区之间的空间分异现

,,

][

8

近年来杨贵军等人利用模型在关于价格预测问题中得到了广泛应用算法对消

.XXGBoost.GBoost

,

][

9

费者汽车消费偏好作了相关研究为产品研发决策和商品推荐提供了重要参考梁佩在传统特征价格模

,

.

型的基础上加入了空间效应运用以空间因素作为权重得到一种标准的模型模型

,,,

XXGBoostGBoost.

10

][

洪亮利用用特征价格理论探究房价的影响因模型对武汉市的二手房价格预测作出实验研究

XGBoost

,

但是并未考虑相关地理因素对房价的影响

,

.

卧室数量地理位置等对房价的影响很少考虑生活配套教育配套交通配套等影响因素本文不仅考虑了

,

.

本文利用传统的房价预测主要考虑住房面积楼龄户型模型对深圳二手房价格进行预测

XGBoost.

),,,,

处理利用原始数据集中的经纬度和百度地图计算以房源为中心分别以半径为

A5InterestPI00m1000

学校医院等生活配套设施的数量从而引入了邻里特征使得房价预测结的地理范围内的地铁

,,

m2000m

,

果更加趋于实际值提高了预测的准确性

,

.

(

传统的影响因素而且考虑了生活配套教育配套交通配套等影响因素结合百度地图进行

,,

POIPointof

1

相关模型介绍

1.1

多元线性回归模型

多元线性回归模型常用于两个及两个以上的影响因素作为自变量来解释因变量的变化当多种自变量

.

…,,,,,),(

其中为常数项表示预测结果为误差项

^

分别表示特征值和回归系数

xin

=1

23.

0

,,

ii

y

ββξ

1.2

随机森林模型

与因变量之间是线性关系时所进行的回归分析就是多元线性回归多元线性回归模型可表示为

,

.

^

xx

12012

+++

ββξββ

,

++=

x

nn

y

森林模型有很多优点如极高的准确率不容易过拟合可处理高维数据以及容易实现程序并行化等

,

.

随机森林模型是一种重要的基于可以用于解决分类回归等问题随机的经典集成学习方法

B.ain

,

ggg

使用随机森林进行数据预测的过程如图所示首先在原始数据集中随机进行有放回的抽样构成

1.

,,

n

个不同的样本数据集然后为每个样本数据集构造决策树构建成个不同的决策树模型最后根据这些

.

,,,

n

.

决策树模型的平均值来获得最终结果

.

随机森林预测过程

1

Copyright©博看网. All Rights Reserved.

1 XGBoost

胡晓伟基于的深圳二手房价格预测

,:

59

1.3 XGBoost

模型

如图所示算法的一种

2XGBoostBoostinBoostin.

,

gg

算法的思想是将许多弱分类器集成在一起形成一个强大的分

类器因为所以它是由许许多是一种提升树模型

.XGBoost

,

多的树模型集成在一起而形成的一个强分类器所用到的树

,

模型则是回归树模型

CART.

每一次特征的分裂算法思想是不断地添加树

XGBoost

,

都会增加一棵新树且每棵新树都是用一个新函数拟合上次

,

预测的残差当训练完成会得到棵树预测一个样本的分

,

K

.

实际上是根据这个样本的特征每棵树中会落到其对应的

,,

一个叶子节点每个叶子节点对应一个分数最后将每棵树对

,,

应的分数加起来就是该样本的预测值

.

XGBoost

的目标函数由训练损失函数和正则化项两部分

组成目标函数定义如下

,

NK

ik

==

11

多个弱分类器形成一个强分类器

2

^^

其中常用的损失函数有以个样本的预测值个真实值表示第表示第

代表训练损失函数

.

iil

,,

(,)

iiii

yyyy

下两种

:

2

^^

():((,));

平方损失函数

1=

l

iiii

-

yyyy

^^

-

yy

ii

^

()()():((,))

逻辑回归损失函数

2=ln1+e+1-ln1+e.

l

ii

ii

yy

yy

^

,((,))

ObΩ

l

=

+

j

iik

yyf

k

=

1

fff

K

,)(

由于因此预测得分是每棵树预测结果的累加之和是一个加法模型

XGBoost

,,

^

其中

x

iik

=

yf

k

=

1

kikk

K

进行求和添加到目标函数中作为正则化项用于防止模型过度拟合

,,

.

(())

代表第代表树的复杂度

iKxk

个样本的树将全部棵树的复杂度代表第颗树的函数

,

.Ω.

2 XGBoost

基于的房价预测

2.1

数据预处理与清洗

原始数据集是利用爬虫程序在链家网站上爬取的年深圳市二手房交易数据条数据

,,

21401932.

对数据集进行建模时首先需要对数据进行预处理和清洗因为原始数据集中总会有一些缺省值和超出现实

,,

的异常值甚至原始数据集中带有单位所以只有将数据集进行预处理和清洗才能保证数据的准确性

,,,

..

于缺失值可采用同小区均值填充对于异常值则直接删除对于有单位的数据则直接删除单位此外还对数

,,

.

为本次原始数据集的房价整体立体图从图可以看出不同的地理位置整体房价是不同的越靠近海边房

.3

,,

价越高即便是位于同一个区域房价也是不同的我们把房源的位置信息称为区位特征为建筑面积

...4

,

因素比如同一个小区内亦有高价房和低价房

,

.

),

据集进行了哑变量虚设变量通常取值为

(,

01.3

操作即将对象数据类型转换为模型可以识别的类型

与总房价的散点图从图可以看出房价与建筑面积总体上呈线性关系但建筑面积并非是决定房价的唯一

,,

4

学校的地理范围内的地铁

,

1.2000m

周边地铁学校医院等配套设施越多单位房价越高我们把房源周围的地铁学校医院等设施配套情

,,

.

况称为邻里特征

.

本文进一步利用百度地图的计算以房源为中心进行处理

A5PIPOI00m1000m

,,

,,

Copyright©博看网. All Rights Reserved.

曲阜师范大学学报自然科学版

()

60

2022

深圳二手房房价整体立体图

3

建筑面积与总房价散点图

4

经过处理后的部分数据

1 POI

地铁站

_

500m1300

样本经纬度

114.1122.56114.1322.54114.1422.57113.8222.69

,,,,

37221000m

0000500m

00001000m

12102000m

1121500m

10101052000m

6558500m

867101000m

76931000m

89102000m10

822000m1010

地铁站

_

三甲医院

_

地铁站

_

三甲医院

_

三甲医院

_

小学

_

公交车站

_

小学

_

小学

_

公交车站

_

公交车站

_

Copyright©博看网. All Rights Reserved.

1 XGBoost

胡晓伟基于的深圳二手房价格预测

,:

61

2.2

数据特征选取

特征选择可以将高维空间的样本通过相关变换的方式转换到低维空间达到降维的目的随后删掉冗余

,,

(),

和不相关的特征来进一步降维这样做可以减少过拟合减少特征数量降维提高模型泛化能力而且还

.

本文中特征选取前有楼盘名称经纬度成交时间区域调价带看关注浏览房屋户型所在楼层等

35

可以使模型获得更好的解释性增强对特征和特征值之间的理解加快模型的训练速度获得更好

,,,

.

特征这些特征有些与房价相关性强有些则弱需要使用一定方法降低数据维度为相关系数热力图

,,,,

.5

颜色越深表示相关性越大从图可以看出调价带看关注浏览成交周期区域子区域楼盘名称等这些

,

5

是随机森林对特征变量进行重要性评估的结果本文排序后选择中位数以上的特征变量忽略中位数

2.

,

以下的特征变量

.

数据维度对房价的影响较小本文忽略这些特征此外还利用随机森林中的重要性评价来选择相应的维度

,,

..

特征变量与房价的相关系数热力图

5

随机森林中的特征变量重要性评价

2

特征变量重要性特征变量重要性特征变量重要性

建筑面积经度纬度

建成年代楼层数小学

地铁站公交车站

__

2000m0.030362500m0.0303210.027264

地铁站小学小学

___

1000m0.0261592000m0.021910500m0.017580

地铁站三甲医院

__

500m0.0145820.0131652000m0.008564

房权所属共有产权年限三甲医院

__

三甲医院公交车站

配备电梯公交车站建筑类型平房

___

0.1604240.1542780.121566

0.0673670.0649201000m0.034207

0.0083610.0042631000m0.004256

0.002486500m0.0021341000m0.001700

0.0014642000m0.0000000.000000

__

_

房地产价格的影响因素主要综上分析可以看出

,

.

随机森林中的重要性评价以及上述三大特征变量最终选取的特征变量如表所示

,

3.

Copyright©博看网. All Rights Reserved.

曲阜师范大学学报自然科学版

()

62

2022

影响二手房价格的特征变量及其含义

3

特征分类特征名称

房间结构分为室卫四个数值变化

所在楼层分为低楼层中楼层和高楼层三个变量

房屋朝向分为东西东南东北西南西北共八个变量

装修情况分为毛坯简装精装和其他

配备电梯分为有和无分别用表示

户型类型分为平层复试跃层错层

建筑特征房屋用途分为公寓别墅商业办公类商务公寓普通住宅五类

建筑类型分为塔楼平房塔板结合板楼四个类型

房权所属分为公有和非公有两类

建筑面积二手房的建筑面积

建成年代二手房的建成年份

二手房所处的楼层

产权年限二手房拥有的年限

区位特征二手房所处的地理经纬度

邻里特征

POI

,

10

利用经纬度和百度地图半径为计算以房源为圆心

A5PI00m1000m

,

学校医院等生活配套的数量内的地铁

2000m

2.3

房价预测

本文中的将清洗好的数据进行特征选取重要性排序和流程图如图所示处理得到新

XPGBoost6OI

,

的数据集使得新数据集更加接近现实随后利用网格搜索对部分参数进行调节最终得到的结果如图

,,

.7

格实际误差较小尤其是低房价几乎重合反映出该模型具有较好的泛化能力这是由于对损失函

,,

.XGBoost

数进行了二阶泰勒展开一方面增加精度另一方面也为了能够自定义损失函数

,,

.

从图可以看出在测试集上虽然有个别样本波动比较大但大部分预测的成交价格与真实的成交价

.7

,,,

流程图

6 XGBoost

模型预测效果图

7 XGBoost

Copyright©博看网. All Rights Reserved.

1 XGBoost

胡晓伟基于的深圳二手房价格预测

,:

63

3

实验对比

__(),

函数该函数功能是将原始数据按照比例切分为训练集和测试集

.traintestslit

如果训练集合过小

,

p

能导致欠拟合所以我们把数据集的作为训练集作为测试集

,,

80%20%.

最后使用均方误差法来评价模型的好坏程度预测的结果如图所示从图可以看出真实值和预测值

,,,

8.8

间的差距比较大只有部分结果重合对于较高的房价预测结果较为不理想需要更多的维度和更好的模型

,,,

来预测房价基于随机森林的模型计算过程如下将训练集分成使用网格搜索并进行交叉验证

.5CV.

:,

这是由于多元线性回归模型是一个单一的模型而随机森林是多个决策树融合的集成模型但是同样

,,,

.

对于部分低房价和高房价的预测较为不理想效果要稍微略低于模型

,

XGBoost.

机森林可以调节的参数比线性回归模型的参数要多本文利用网格搜索

,,

nestimatorsmaxdeth

__

p

了参数调节并用折交叉进行验证预测结果如图所示从图可以看出预测结果比线性回归模型要

,,,

K.99

对于线性回归模型本文使用利用梯度下降法获得误差最小库的线性回归函数进行调用训练

,

sklearn.

3.1

不同模型实验结果比较

本文比较线性回归模型随机森林模型和统一采用模型对房价预测的结果包中的

XSGBoost.klearn

8 9

线性模型预测效果图随机森林模型预测效果图

而合适的数据集同样重要本文的数据集中引入了模型在房价预测上具有良好的效果

.P XGBoostOI

,

这一特征而图虽然表示的是没有处理的数据集在模型下的预测结果显示

,,

11X0POIXGBoost.0G-

但没有经过准确度也会受到一定的影响因此可以得出模型的预测准确度是最好的处理

P.BoostOIPOI

,,,

的数据处理对房价预测具有积极的作用

,

.

处理的数据集在模型下的预测效果图

10 POIXGBoost

3.2

不同模型数值比较

回归模型的预测结果和真实值都是连续的常用的回归模型的评价指标有

,

R

2

,,,

MAEMSERMSE4

Copyright©博看网. All Rights Reserved.

^

更多推荐

曲阜二手房信息