苏泊尔售后电话-主力拉伸后大压单

2023年9月6日发(作者:尤子平)
第曲阜师范大学学报卷第期
48 1Vol.48 No.1
2021Journal of Qufu Normal UniversitJan.20222
年月
y
:/
DOI10.3969i.ssn.1001-5337.2022.1.057
j
基于的深圳二手房价格预测
XGBoost
*
胡晓伟马春梅孔祥山李凤银
,,,
(,),
曲阜师范大学计算机学院山东省日照市
276826
为了更加精准地预测二手房价格该文以
,
2019
利年深圳市二手房的真实交易数据为研究对象
摘要
:
,
用线性回归模型随机森林模型和首先对数据集进行清模型并加以计算来预测二手房价格
、,
XGBoostPOI.
洗并可视化展示其次运用百度地图进行使得数据集接近现实情况接着按照数据处理扩充数据集
.P.OI
,,,
特征对房价影响的重要程度进行了排序选取重要的特征来训练模型最后通过数值结果分析模
,,,
.XGBoost
型对二手房的房价评估效果最好尤其是经过对于深圳市的处理的数据集和模型的这种组合
,,
POIXGBoost
二手房价格具有极好的预测效果
.
;;;
关键词
:
机器学习二手房价格预测
XGBoostPOI
()
中图分类号文献标识码文章编号
:::
TP391A1001-5337202201-0057-09
0
引言
随着我国城市化进程的加速城市常住人口不断增加而发达地区的土地供应不断减少导致了城市房
,,,
价不断攀升另一方面二手房的周围配套设施相对比较完善如拥有成熟的交通商业教育环境等越来
.
,,、、,
越多的购房者开始关注二手房但是二手房信息对购房者不够公开透明购房者无法客观准确地评估二手
.
,,
房的价格在我国关于房地产价格的评估方法主要有市场法收益法成本法等它们大多适用于不同的市
.
,、、,
场环境这些方法更加注重定性分析因此受主观因素影响较大
..
,
[]
楼龄户型卧室数量卫生间数量环年等指出影响夏威夷市房价的因素有面积
、、、、,、
2004Limsombunc
1
境和地理位置并且根据所选择的影响因素建立了实验表明神经网络模型和人工神经网络模型
,,
Hedonic
[]
模型的预测效果更好市中心距离以及房屋地理位置这三年等在模型中引入了地铁距离
.2012Antiov
,、
2
p
个区位特征使得房价预测结果更加趋于实际价格但是他们没有考虑到生活教育配套等这一重要的邻
,,、
.
模型考虑了地理位置对房价的影响因素预测了伦敦
,,,)
1ressionGWR980~1998.
由于加入了地年的房价
g
理位置这个重要的影响因素使得房价预测更加实际化但是不同国家房价的影响因素是不同的如房产
,,,
.
[]
加入多类别变量建立随机森林模型研究了影响房价的因素等利用北京市在售的二手房数据
,,
Hoffman
4
[]
里特征构建了地理加权回归年等加入了空间效应
.2015FotherinhamGeorahicalWeihtedRe-
(,,
3
ggpg
税率浴室数量等因素可能影响美国的房价而对中国的二手房价格却几乎没影响年与
、,,
.2018Denisko
、,(,)
述中介绍了人工神经网络
,(
支持向量机
ArtificialNeuralNetworkANNSuortVectorMachine
pp
、,、,、,(()))
线性回归随机森林
SVMLinearReressionLRRandomForestRF
KK
近邻
(
-NearestNeihbor
g
g
、,、,、,、((())))
朴素贝叶斯空间分析岭回归
K
NN
NaiveBaesNBSatialAnalsisSARideReressionRR
ypygg
,,,)
套索回归
(
等众多的房价预测模型对各种模型的优缺点进行了说明指出要根据实
LassoReressionLR
g
*2021-03-19
收稿日期
:
);)(
基金项目国家自然科学基金
:(
山东省重大基础研究
62072273ZR201906140028.
[]
以及对房价的预测进一步提高了预测的准确性等人在年的房价预测的房地产建模技术综
,
.Mohd2020
5
,:_;:,;
C1991-E-mailXiaoweiHuS@163.com.
作者简介胡晓伟男
:,,
硕士研究方向大数据网络安全
,:,;:,;
通信作者马春梅女
:,,
硕士副教授研究方向大数据网络安全
1978-E-mailchunmeima@fnu.edu.cn.
q
Copyright©博看网. All Rights Reserved.
曲阜师范大学学报自然科学版年
()
58
2022
6
][
际需要解决的问题选择合适的模型陈世鹏金升平运用襄阳加入房贷的影响年的房屋贷款数据
.2012
、,
因素创建随机森林模型进行房价预测与自回归滑动平均模型和多元线性回归模型进行对模型
,,)(
ARMA
][
7
比发现随机森林模型有很好的预测效果张靖苗以昆明和成都的二手房为研究对象利用空间分析
,,
.GIS
技术寻求不同城市的住宅价格空间分布规律构建地理加权回归模型分析了住宅小区之间的空间分异现
,,
][
8
象近年来杨贵军等人利用模型在关于价格预测问题中得到了广泛应用算法对消
.XXGBoost.GBoost
,
][
9
费者汽车消费偏好作了相关研究为产品研发决策和商品推荐提供了重要参考梁佩在传统特征价格模
,
.
型的基础上加入了空间效应运用以空间因素作为权重得到一种标准的龚模型模型
,,,
XXGBoostGBoost.
10
][
洪亮利用用特征价格理论探究房价的影响因模型对武汉市的二手房价格预测作出实验研究
XGBoost
,
素但是并未考虑相关地理因素对房价的影响
,
.
卧室数量地理位置等对房价的影响很少考虑生活配套教育配套交通配套等影响因素本文不仅考虑了
、,、、
.
本文利用传统的房价预测主要考虑住房面积楼龄户型模型对深圳二手房价格进行预测
XGBoost.
、、、
),,,,
处理利用原始数据集中的经纬度和百度地图计算以房源为中心分别以半径为
A5InterestPI00m1000
学校医院等生活配套设施的数量从而引入了邻里特征使得房价预测结的地理范围内的地铁
、,,、
m2000m
,
果更加趋于实际值提高了预测的准确性
,
.
(
传统的影响因素而且考虑了生活配套教育配套交通配套等影响因素结合百度地图进行
,、、,
POIPointof
1
相关模型介绍
1.1
多元线性回归模型
多元线性回归模型常用于两个及两个以上的影响因素作为自变量来解释因变量的变化当多种自变量
.
…,,,,,),(
其中为常数项表示预测结果为误差项
^
分别表示特征值和回归系数
xin
=1
23.
0
,,
ii
y
ββξ
1.2
随机森林模型
与因变量之间是线性关系时所进行的回归分析就是多元线性回归多元线性回归模型可表示为
,
.
^
xx
12012
+++
ββξββ
…,
++=
x
nn
y
森林模型有很多优点如极高的准确率不容易过拟合可处理高维数据以及容易实现程序并行化等
,、、
.
随机森林模型是一种重要的基于可以用于解决分类回归等问题随机的经典集成学习方法
B.ain
、,
ggg
使用随机森林进行数据预测的过程如图所示首先在原始数据集中随机进行有放回的抽样构成
1.
,,
n
个不同的样本数据集然后为每个样本数据集构造决策树构建成个不同的决策树模型最后根据这些
.
,,,
n
.
决策树模型的平均值来获得最终结果
.
图随机森林预测过程
1
Copyright©博看网. All Rights Reserved.
第
1 XGBoost
期胡晓伟等基于的深圳二手房价格预测
,:
59
1.3 XGBoost
模型
如图所示是算法的一种
2XGBoostBoostinBoostin.
,
gg
算法的思想是将许多弱分类器集成在一起形成一个强大的分
类器因为所以它是由许许多是一种提升树模型
.XGBoost
,
多的树模型集成在一起而形成的一个强分类器所用到的树
,
模型则是回归树模型
CART.
每一次特征的分裂算法思想是不断地添加树
XGBoost
,
都会增加一棵新树且每棵新树都是用一个新函数拟合上次
,
预测的残差当训练完成会得到棵树预测一个样本的分
,
K
.
数实际上是根据这个样本的特征每棵树中会落到其对应的
,,
一个叶子节点每个叶子节点对应一个分数最后将每棵树对
,,
应的分数加起来就是该样本的预测值
.
XGBoost
的目标函数由训练损失函数和正则化项两部分
组成目标函数定义如下
,
NK
ik
==
11
图多个弱分类器形成一个强分类器
2
^^
其中常用的损失函数有以个样本的预测值个真实值表示第表示第
代表训练损失函数
.
iil
,,
(,)
iiii
yyyy
下两种
:
2
^^
():((,));
平方损失函数
1=
l
iiii
-
yyyy
^^
-
yy
ii
^
()()():((,))
逻辑回归损失函数
2=ln1+e+1-ln1+e.
l
ii
ii
yy
yy
^
,((,))
ObΩ
l
=
∑∑
+
j
iik
yyf
k
=
1
∑
fff
K
,)(
由于因此预测得分是每棵树预测结果的累加之和即是一个加法模型
XGBoost
,,
^
其中
x
iik
=
∑
yf
k
=
1
kikk
K
进行求和添加到目标函数中作为正则化项用于防止模型过度拟合
,,
.
(())
代表第代表树的复杂度
iKxk
个样本的树将全部棵树的复杂度代表第颗树的函数
,
.Ω.
2 XGBoost
基于的房价预测
2.1
数据预处理与清洗
原始数据集是利用爬虫程序在链家网站上爬取的是共年深圳市二手房交易数据条数据
,,
21401932.
对数据集进行建模时首先需要对数据进行预处理和清洗因为原始数据集中总会有一些缺省值和超出现实
,,
的异常值甚至原始数据集中带有单位所以只有将数据集进行预处理和清洗才能保证数据的准确性对
,,,
..
于缺失值可采用同小区均值填充对于异常值则直接删除对于有单位的数据则直接删除单位此外还对数
,,
.
为本次原始数据集的房价整体立体图从图可以看出不同的地理位置整体房价是不同的越靠近海边房
.3
,,
价越高即便是位于同一个区域房价也是不同的我们把房源的位置信息称为区位特征图为建筑面积
...4
,
因素比如同一个小区内亦有高价房和低价房
,
.
),
据集进行了哑变量虚设变量通常取值为或图
(,
01.3
操作即将对象数据类型转换为模型可以识别的类型
与总房价的散点图从图可以看出房价与建筑面积总体上呈线性关系但建筑面积并非是决定房价的唯一
,,
4
学校医院等生活配套设施的数量部分结果如表所示经过对比分析发的地理范围内的地铁
、,、
1.2000m
现周边地铁学校医院等配套设施越多单位房价越高我们把房源周围的地铁学校医院等设施配套情
,、、,、、
.
况称为邻里特征
.
本文进一步利用百度地图的计算以房源为中心分别以半径为进行处理
A5PIPOI00m1000m
,,
,,
Copyright©博看网. All Rights Reserved.
曲阜师范大学学报自然科学版年
()
60
2022
图深圳二手房房价整体立体图
3
图建筑面积与总房价散点图
4
表经过处理后的部分数据
1 POI
距离
地铁站
_
500m1300
样本经纬度
114.1122.56114.1322.54114.1422.57113.8222.69
,,,,
37221000m
0000500m
00001000m
12102000m
1121500m
10101052000m
6558500m
867101000m
76931000m
89102000m10
822000m1010
地铁站
_
三甲医院
_
地铁站
_
三甲医院
_
三甲医院
_
小学
_
公交车站
_
小学
_
小学
_
公交车站
_
公交车站
_
Copyright©博看网. All Rights Reserved.
第
1 XGBoost
期胡晓伟等基于的深圳二手房价格预测
,:
61
2.2
数据特征选取
特征选择可以将高维空间的样本通过相关变换的方式转换到低维空间达到降维的目的随后删掉冗余
,,
、、(),
和不相关的特征来进一步降维这样做可以减少过拟合减少特征数量降维提高模型泛化能力而且还
.
本文中特征选取前有楼盘名称经纬度成交时间区域调价带看关注浏览房屋户型所在楼层等个
、、、、、、、、、
35
可以使模型获得更好的解释性增强对特征和特征值之间的理解加快模型的训练速度获得更好的性能
,,,
.
特征这些特征有些与房价相关性强有些则弱需要使用一定方法降低数据维度图为相关系数热力图
,,,,
.5
颜色越深表示相关性越大从图可以看出调价带看关注浏览成交周期区域子区域楼盘名称等这些
,、、、、、、、
5
表是随机森林对特征变量进行重要性评估的结果本文排序后选择中位数以上的特征变量忽略中位数
2.
,
以下的特征变量
.
数据维度对房价的影响较小本文忽略这些特征此外还利用随机森林中的重要性评价来选择相应的维度
,,
..
图特征变量与房价的相关系数热力图
5
表随机森林中的特征变量重要性评价
2
特征变量重要性特征变量重要性特征变量重要性
建筑面积经度纬度
建成年代楼层数小学
地铁站公交车站室
__
2000m0.030362500m0.0303210.027264
地铁站小学小学
___
1000m0.0261592000m0.021910500m0.017580
地铁站卫三甲医院
__
500m0.0145820.0131652000m0.008564
房权所属共有产权年限三甲医院
__
厨三甲医院公交车站
配备电梯有公交车站建筑类型平房
___
0.1604240.1542780.121566
0.0673670.0649201000m0.034207
0.0083610.0042631000m0.004256
0.002486500m0.0021341000m0.001700
0.0014642000m0.0000000.000000
__
_
房地产价格的影响因素主要包括建筑特征邻里特征和区位特征本文结合热力综上分析可以看出
、,
.
图随机森林中的重要性评价以及上述三大特征变量最终选取的特征变量如表所示
、,
3.
Copyright©博看网. All Rights Reserved.
曲阜师范大学学报自然科学版年
()
62
2022
表影响二手房价格的特征变量及其含义
3
特征分类特征名称变量含义
房间结构分为室厅厨卫四个数值变化
所在楼层分为低楼层中楼层和高楼层三个变量
房屋朝向分为东西南北东南东北西南西北共八个变量
装修情况分为毛坯简装精装和其他
配备电梯分为有和无分别用和表示
户型类型分为平层复试跃层错层
建筑特征房屋用途分为公寓别墅商业办公类商务公寓普通住宅五类
建筑类型分为塔楼平房塔板结合板楼四个类型
房权所属分为公有和非公有两类
建筑面积二手房的建筑面积
建成年代二手房的建成年份
楼层数二手房所处的楼层
产权年限二手房拥有的年限
区位特征经纬度二手房所处的地理经纬度
邻里特征
POI
、、、
、
、、、、、、、
、、
,
10
、、、
、、、、
、、、
利用经纬度和百度地图半径为计算以房源为圆心
A5PI00m1000m
,
、、
学校医院等生活配套的数量内的地铁
、、
2000m
2.3
房价预测
本文中的将清洗好的数据进行特征选取重要性排序和流程图如图所示处理得到新
XPGBoost6OI
、,
的数据集使得新数据集更加接近现实随后利用网格搜索对部分参数进行调节最终得到的结果如图所
,,
.7
格实际误差较小尤其是低房价几乎重合反映出该模型具有较好的泛化能力这是由于对损失函
,,
.XGBoost
数进行了二阶泰勒展开一方面增加精度另一方面也为了能够自定义损失函数
,,
.
示从图可以看出在测试集上虽然有个别样本波动比较大但大部分预测的成交价格与真实的成交价
.7
,,,
图流程图
6 XGBoost
图模型预测效果图
7 XGBoost
Copyright©博看网. All Rights Reserved.
第
1 XGBoost
期胡晓伟等基于的深圳二手房价格预测
,:
63
3
实验对比
__(),
函数该函数功能是将原始数据按照比例切分为训练集和测试集
.traintestslit
如果训练集合过小可
,
p
能导致欠拟合所以我们把数据集的作为训练集作为测试集
,,
80%20%.
值最后使用均方误差法来评价模型的好坏程度预测的结果如图所示从图可以看出真实值和预测值
,,,
8.8
间的差距比较大只有部分结果重合对于较高的房价预测结果较为不理想需要更多的维度和更好的模型
,,,
来预测房价基于随机森林的模型计算过程如下将训练集分成份使用网格搜索并进行随交叉验证
.5CV.
:,
好这是由于多元线性回归模型是一个单一的模型而随机森林是多个决策树融合的集成模型但是同样
,,,
.
对于部分低房价和高房价的预测较为不理想效果要稍微略低于模型
,
XGBoost.
机森林可以调节的参数比线性回归模型的参数要多本文利用网格搜索对和做
,,
nestimatorsmaxdeth
__
p
了参数调节并用折交叉进行验证预测结果如图所示从图可以看出预测结果比线性回归模型要
,,,
K.99
对于线性回归模型本文使用利用梯度下降法获得误差最小库的线性回归函数进行调用训练
,
sklearn.
3.1
不同模型实验结果比较
本文比较线性回归模型随机森林模型和统一采用模型对房价预测的结果包中的
、
XSGBoost.klearn
8 9
图线性模型预测效果图图随机森林模型预测效果图
而合适的数据集同样重要本文的数据集中引入了模型在房价预测上具有良好的效果
.P XGBoostOI
,
这一特征而图图虽然表示的是没有处理的数据集在模型下的预测结果显示
,,
11X0POIXGBoost.0G-
但没有经过准确度也会受到一定的影响因此可以得出模型的预测准确度是最好的处理
P.BoostOIPOI
,,,
的数据处理对房价预测具有积极的作用
,
.
图无处理的数据集在模型下的预测效果图
10 POIXGBoost
3.2
不同模型数值比较
回归模型的预测结果和真实值都是连续的常用的回归模型的评价指标有等
,
R
2
,,,
MAEMSERMSE4
Copyright©博看网. All Rights Reserved.
^
更多推荐
曲阜二手房信息
- 上一篇: 汶川地震中绵阳市区和北川县城房屋震害特征
- 下一篇: 返回列表
发布评论