二手房信息发布-肾透析上市公司

2023年9月28日发(作者:姬钊)
SPSS-二元Logistic 回归结果分析
2011-12-02 16:48
身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这 严重
的睡意吧!今天来分析二元 Logistic 回归的结果
分析结果如下:
案例艷理汇总
N
百分上匕
57.5 489
.0 0
57.5 489
42.5 361
100.0 950
选定案例包括在分析中
缺失寨剑
总计
耒选定的案例
总计
因歪量编碍
初^値 商部値
否
0
是
分类畫量垢碣
参敎镐硏
(1)
⑵
0&0 皱盲水平来完惑高中 269 .C00 .000
1.000 134 00Q .000
高中
.OC
O
53 .D00 1.C00 .000
大学
25 .DC0 .C00
3 .CD0 .000 .000
O
.OC
.OU
G
r
OO
1.000
硏究生
O
1:在“案例处理汇总”中可以看出:选定的案例 489个,未选定的案例361 个,这
个结果是根据设定的validate = 1 得到的,在“因变量编码”中可以看 出“违约”的
两种结果“是”或者“否” 分别用值“ 1 “和“0”代替,在“分
类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大 学等,
其中的任何一个,那么就取值为1,未选中的为0,如果四个都未被选中, 那么就是”
研究生“频率分别代表了处在某个教育水平的个数,总和应该为 489个
分类表
d
工
未选匡的
是否曾经违约 是否曾经劇
己观测 口分比檢IE
彷骤0 是否噌究违约否
是 仁9
O H
360 1D0.0 157
□
0
.C 54
73.6
7E
总计口分此
a已谴定的案^validate EQ1
A未迭定的案例validate J4E 1
c.由于目娈量中有駛失值:或分类娈量中的値超岀选定臬例的范圉‘眇以床跖某翌未选建的案例进彳 乩携型中
包括常量=
e切割値对•別“
B SE, Wais df Sig.
齿骤0 常量 026 .103 100.02S 1 .000 .356
左握中的裘量
EKP(fi)
1:在“分类表”中可以看出: 预测有360个是“否”(未违约) 有129个是
“是”(违约)
2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值, B为
-1.026, 标准误差为:0.103
那么 wald =( B/S.E)2=( -1.026/0.103)2 = 99.2248, 跟表中的“ 100.029 几乎
接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,
B和Exp(B)是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e-1.026 =0.358,
A
其中自由度为1,sig为0.000,非常显著
干在方程中的畫星
導仔
歩疆0 克虽 年肾
教肓
如⑴
7.460
8,93+ .051
6.009 .OU 1
1 U5 .285 1
教育⑶
2.224 136 1
2.51 m
工歸
把址
收入
S
3674S
9.463
1.1D7 .292 1
76.418
信用卡£1债
其他员质
35.329
1 2 531
147 557 .000 11
df
1 .006
4
Sig.
.000 1
002 1
.000 1
000 1
.000 1
1
总红计量
1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模 型,其
它变量都不在最初模型内
表中分别给出了,得分,df , Sig 三个值,而其中得分(Score)计算公式如下:
Score.
二 ----------- -----------------------
J
Jt
只刃壬厲-町
1—
(公式
F面来举例说明这个计算过程:“年龄”自变量的得分为例)
(
(Xi- X")少了一个平方)
从“分类表”中可以看出:有129人违约,违约记为“ T 则违约总和为 129,选
定案例总和为489
那么:y - = 129/489 = 0.2638036809816
x - = 16951 / 489 = 34.664621676892
所以:刀(Xi -x - )2 = 30074.9979
y " (1-y ")=0.2638036809816 * (1-0.2638036809816 )
=0.216
则:y—(1-y — )* 刀(Xi -x - )2 =0.216 * 30074.9979 = 5
840.9044060372
则:[刀Xi(yi - y ") ]2 = 43570.8
A
所以:
Or
心刃
j
Score i
二 ----------------------------------
J
Jt
y(l x)
-刃£ E -
=43570.8 / 5 840.9044060372 =
7.4595982010876 = 7.46 (四舍五入)
计算过程采用的是在EXCEL里面计算出来的,截图如下所示:
B 6 =A486-AVERAGE @$ 1 9
破虚 | 汕 $ 桁 ))辽
(
A E E F
1. B |
C G
2
3
136. 0633999 0 -6. 06748
2
5 74&4254=5
乩
:
-7.1227
0
7
[
0. 441721973 0 -8. 96933
1
3
3
0. 112479G2 1 25, 76687
2
113.3|1555
节
0 -& 32129
4
4
B
177. 832315 0 -12, 6626
2
6
75, 0756688 0 -6. 8589
3
0
21. 76869589 L 22* 08589
3
6
1. 783235266 0 -9. 49693
2
1
186. 7218856 0 -5, 53988
3
4
0. 44=1721973 0 -8. 96933
3
0 11247862 1
・
25.76687
3
5
5
0.112^7862 0 -9. 23313
3
4
0. 441721973 1 25. 03067
3
2. 770565327 0 -S, 70552
3
[
3
21. 75869539 0 -7. 91411
2
4
113, 7311555 0 -6. 33129
4
7
152. 1615584 0 -12. 3988
539.
336.1860983 1
21 &0. >926432
2
3 0134
0
—宝
803&8
'
3
块仁方法=向前步逬(似然比)
撲型系議的织合竝船
卡方
at
捞骡1齿骡 74052
烘 74:052 .oon
模型 1 74052 .000
8ig
1 .000
1
1 .000
2
44.543
11S.596
.OQ
O
.000 118.595
模型
曲菠3 歩專
块
43.619 ■' 1
108 414 3 .000
168.414 3 .000
2
1 002
4 .000 176091
4 .000 V9.C91
模型
步辕4 歩骡
模型
撲型汇总
Coo& Snell R
(
-2对数似然僵
1 40OJ5|
2 445709 215 .315
3 .291 .426
4 266 213* .305 .JI46
-
b
2餌一胸3
.141 .705
Nagelherke F?
a因期参數怙廿的更改范国小于刖1,所以估计在進 代
况数4处嶽止=
b因対琴數估计的更改范圉小于.001,所以估计在迭
nni H-I-
»此匚卜诗丄卄壬斗
1从“块T 中可以看出:采用的是:向前步进 的方法,在“模型系数的综 合检
:
验”表中可以看出: 所有的SIG几乎都为“ 0” 而且随着模型的逐渐步 进,卡方
值越来越大,说明模型越来越显著,在第 4步后,终止,
根据设定的显著性值 和 自由度,可以算出 卡方临界值,公式为:
=CHIINV(显著性值,自由度,放入excel就可以得到结果 2:在“模型汇总“中可
)
以看出:Cox&SnellR方 和Nagelkerke R方拟合效果
都不太理想,最终理想模型也才:0.305和0.446, 最大似然平方的对数值 都比较
大,明显是显著的
lnl = y In/? + (1》”(】-£)] 似然数对数计算公式
为:
计算过程太费时间了,我就不举例说明 计算过程了
Cox&SnellR方的计算值 是根据:
1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值 INL0 (指只包含
“常数项”的检验)
2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值 InLB (包含自变
量的检验)
盘去三更
1 -
A
再根据公式: 即可算出:Cox&SnellR方的
值!
=Hosmer Lemeshow
和 楡验=
卡方
1 8
2 8
3 3.312 .913
df
0
Sig
7 5&7 .477
5.341
.721
4 11.91S e .155
Hosmer和Lemesho^r检脸的随和I.
1
涉表
昱否国境违缁二否 昙否曽经通釣二昱
己观测 已观测 期望値 期望値
5 44
4 2 45 41344 5 656 49
4 012 4Q
总计
1
44
;
353
di 41.467 46 3
勢 +
45 5 4 8 79S
40.550 7.450 46
6.513
T
11
& 39 37.607 g 10.393 48
T 33 35.142 15 12.856 +6
&
4,0
;
20.1
33 32.590 15 16J10 49
列
g
24 27.217 25 21.7S3 +9
19 17.500 33 34.494 52 10
48 47.541 1 1 469 翱2 1
46 46,041 3 2.956
45 44.258 4 4 742 3 49
6 506 4 49 42
e.6-15 5 4-
11.145 E 49 35 37.855 14
14 170 轴 33 31.330 11 T
18.43& 4S 35 30,562
斗
9
+0
2
G
33 40.2G5
T
11
U
29 21 23.564 25 43E 列
35 12 12.465 35.535 48 10
fk dQ id d 3
5
9
霁鸞1
1
提示: 将Hosmer和Lemeshow检验 和“随机性表”
结合一起来分析
1:Hosmer和Lemeshow检验表中,可以看出:经过 4次迭代后,最终的卡
从
方统计量为:11.919, 而临界值为:CHINV(0.05,8) = 15.507
卡方统计量 < 临界值,从SIG角度来看:0.155 > 0.05 , 说明模型能够很好
的拟合整体,不存在显著的差异。
2:从Hosmer和Lemeshow检验随即表中可以看出:”观测值“和”期望值
“几乎是接近的,不存在很大差异,说明模型拟合效果比较理想,印证了“ Hosmer
和Lemeshow检验”中的结果
而“ Hosmer和Lemeshow检验”表中的“卡方”统计量,是通过“ Hosmer和
Lemeshow检验随即表”中的数据得到的(即通过“观测值和”预测值“)得到 的,计
算公式如下所示:
x2 (卡方统计量)=刀(观测值频率-预测值频率)2 /预测值的频率 举例说明一下计
A
算过程:以计算"步骤1的卡方统计量为例"
1:将“ Hosmer和Lemeshow检验随即表”中“步骤1 ” 的数据,复制到 excel
中,得到如下所示结果:
__C21 ■ A ^SOCCl :C20)
B
4
4
9
4
4
1
7
3
1
9
7
3
3
C D
A
」
E |
45
44.36
43.54
4148
40.5237
40.20
J7.60
0. 003385
0. 063249
0. OOS714
45
0
0. 305729
0. 572874
0. 051608
332.59
3 0
227.21
4 7
117.50
9 6
5 4,512
4
7
6
1
1
35.K2
0.130517
0, 005166
0.330177
0.127566
3
1
2
3
4 7.480
□ 8.799
-
J
7
弓
d .763
3
Q
・
032576
5.65
0. 484724
6.513
0. Q36096
1.656082
2. 617364
山”
0,186741
12.S5
0.3567
16.41
0. 010258
0. 475004
34.493
0. 064739
工
566569
I
已硕测
耒选疋的
是否曾经违約
是否曾
坯降
己观测 百分比校正
步麥1
昱
总计■苜幷上匕
W2 335 25 93 1 ur
是否曾轻违妁否 是 总计肖井
讯
否
340 20 94 4 150
95 42
ja
34 26 4
76 5
a
74
55 42.6 39
7S e
昙杏曾疑逋妁否
是
总计百分讯
舞4
是否曾轻违妁香 是 总计百分
比
333 27 92 5 U2
65 33
23 U1 337 93 E
71
50 4
91 4
34 53
64
55.0
03.4
a-已遴定的案捌validate EQ 1
d未选定的案倒validate NE 1
c由于旨变量中有锻失値,戴分类变量中的値超出选定舉例的范国'所以未対某些未迭定的案例进彳 d切剖値
討.500
1:从“分类表”一“步骤 T 中可以看出: 选定的案例中,“是否曾今违约” 总
计:489个,其中 没有违约的360个,并且对360个“没有违约”的客户进 行了预
测,有340个预测成功,20个预测失败,预测成功率为:340 / 360 =94.4%
其中“违约”的有189个,也对189个“违约”的客户进行了预测,有 95个 预
测失败,34个预测成功,预测成功率:34 / 129 = 26.4%
总计预测成功率:(340 + 34)/ 489 = 76.5%
步骤1的 总体预测成功率为:76.5%,在步骤4终止后,总体预测成功率为:
83.4,预测准确率逐渐提升 76.5% — 79.8%— 81.4%— 83.4。83.4的预测准确率,
不能够算太高,只能够说还行。
如果轄去顿则建撲
樸型対敌似然 在-2对散似誰
性 中的夏改
步膘1 甸债率
場靈2工龄
負债辜
步腔3工龄
员债率 15 8戸
信用卡负债 1 .000 -222.855 49.919
谿1工龄 1 DOO -234 776 63.3^3
地址 -197.945 967T
負债率
(IT
1 .000
1 .000 -245.126 44 543
1 .000
1 .000
1 000
1 .002
1
更改的显薯性
.000
.000 -221 .fB4 56.174 1
-282 152 74.052
-260.995 76282
-24 2.996 90.102
-205.884
-200.572 15.135
信用卡负债
E
S.E. Wais df Sig.
.016 1 .000
238 119948 1 .coo .092 -2.500
022 1 .000
.018 1 .000
269 42051 1 xoo .194 常量 -1 695
.033 57744 1 .000 .777 -?52
.021 1 1.086
0G9 31.09& xoo 1.723 ,544
275 18.505 .307 窜量 ■1181
.034 64.977 1 xoo .730 -249
.023 9.027 .933
.021 081 1 .000
.102 1.811 1
304 6.376 .465 -763 1 ”012
61777 1 138 129
34.850 .877 -131
61.974 1.150 .140
15728 JQO .0S3
U.893 1.035
33.053 594 TOO 信用咔命债
1
1 .000
Exp (B)
常量
信用卡贲债
步展梓工龄
-069
乩在歩聲1中樹入的变呈:员僵率.
1
0在歩鑒卫中骚入鼬变薑工龌.
C.在垢骤3中输卩.的具虽.涪用卡员债.
[在歩骋4中输入的变量:地址.
从“如果移去项则建模”表中可以看出: “在-2对数似然中的更改” 中的数值 是
不是很眼熟?? ?,跟在“模型系数总和检验”表中“卡方统计量 "量的值是 一样
的!! !
将“如果移去项则建模”和 “方程中的变量”两个表结合一起来看
1:在“方程中的变量”表中可以看出: 在步骤1中输入的变量为“负债率”
,
在”如果移去项则建模“表中可以看出, 当移去“负债率”这个变量时,引起了
74.052的数值更改,此时模型中只剩下“常数项” -282.152为常数项的对数似 然
值
在步骤2中,当移去“工龄”这个自变量时,引起了 44.543的数值变化(简
称:似然比统计量),在步骤2中,移去“工龄”这个自变量后,还剩下“负债
率”和“常量”,此时对数似然值 变成了: -245.126,此时我们可以通过公式 算
出“负债率”的似然比统计量:计算过程如下:
似然比统计量=2 (-245.126+282.152)=74.052
答案得到验
2:在“如果移去项则建模”表中可以看出:不管移去那一个自变量,“更改的 显著
性”都非常小,几乎都小于 0.05,所以这些自变量系数跟模型显著相关, 不能够剔
去!!
3:根据"方程中的变量“这个表,我们可以得出logistic
回归模型表达
口+塔1阳血那么可以得到简洁表达式:
1 / 1+ e-
A
P(Y) = 1 / 1+eA (-z)
(a+ 刀
B
l*Xi)
我们假设Z
将”方程中的变量“一步骤4中的参数代入 模型表达式中,可以得
到logistic 回归模型如下所示:
(-0.766+0.594*信用卡负债率+0.081*负债率-
0.069*地
P(Y) = 1 / 1 + e a -
址-0.249*功龄)
收入
其他贡债
总貓量 3
步鑿4 变昼
430 .512
012 1
1
1 2023 .155
4 1.233 .673
1 .31^
1 056 .613
1 .380 772
1
1
.914
12,707
.122
年議
教育⑴
.556
抽首⑶
教言⑷ 136
收入
712
.S+5 .005
.719 .131 1
.323 3.613 7
总锁计量
从”不在方程中的变量“表中可以看出: 年龄,教育,收入,其它负债,都没 有纳
入模型中,其中:sig值都大于0.05,所以说明这些自变量跟模型显著不 相关。
匚 rtumber: 4
Observed Groups and Predict^d Probabilities
80 4
1
+
1
1
F 1
R +
E 1
Q
U
E
N
1
1
eo +
i
i
i
1
1
40+0
十
10
1
Q
Y
10
1
1000
20 +000 0
1
十
1
Predicted ----------------- —
1 1
1000001
IOOOOOOLO 01011000 0 1
1 0 1
IOOOOOQOOOOOOOOOOOOOOO 000010 00 11
100 1100 0000
mi
Prob 0 .1 .2
:
.3 .4 .5 . .8 .9 1
G
—
—
Group: 001
:
Preditt^cf Probability is of M*mb ^rship for
The Cut Va!ue is .SO
Symbols: Q
」否
1
■足
Each Symbol 5 Cases.
在”观察到的组和预测概率图”中可以看出:
1: the Cut Value is 0.5, 此处以0.5为切割值,预测概率大于 0.5,表示
客户“违约”的概率比较大,小于 0.5表示客户“违约”概率比较小。
2:从上图中可以看出:预测分布的数值基本分布在“左右两端”在大于 0.5 的切割
值中,大部分都是“ 1”表示大部分都是“违约”客户,( 大约230个 违约客户)
预测概率比较准,而在小于0.5的切割值中,大部分都是“ 0”大 部分都是“未违
约”的客户,(大约 500多个客户,未违约) 预测也很准
在运行结束后,会自动生成多个自变量,如下所示:
preddef! preddefZ preddef3 vatidate PRE_1
f.12&4S .43690 _1S93
.1983
j.0029
01009
;
0221
.78861.0
4 0
7315
01027 1014? 1 00 J0Z52-
73788 43650 7694
.21304
.14102
.23358 .215.3281
81709 1678 17925
11330156 0105;
6 7 0147
.66390 .7316 .61944
51553 -830& 79723 ?
1.00
1.00 .0108
1 00
1.0
0
1 00
M2
2
2 9
.3569
吉
.2167
;
too
1.00
1.00
1 ?61050905
00 3503 1 5
纟
.6150
.7480
.2350 3
.0097
.3644
01131
09671
.21202
.0014
10414
.0919
.00434
00302
2939
f21902 ,13631 .233
H.22890 010i3
j34047 .40-184 .3690
;0077
.00628
J1384 1930.0K5 g
.1750.40801 .2058 g
00055 17793 1 00
09273 1442;
06691 .09055 ?
.0016.10817 f0040-
00201 00
23604 .22090 297fi
.20966 00 .0126
1426?
too
1 on
1 00
i
副
1.0
0
耶)|
too .1171
1.00
.1106
0035
;
1 oo
1:从上图中可以看出,已经对客户“是否违约”做出了预测, 上面用颜色标记
的部分-PRE_1表示预测概率,
上面的预测概率,可以通过 前面的Logistic 回归模型计算出来,计算过程不
恋伊升降晾衣架-股市芯片企业芯片龙头股

更多推荐
oqo
发布评论