二手房信息发布-肾透析上市公司

SPSS—二元Logistic回归结果分析
2023年9月28日发(作者:姬钊)

SPSS-二元Logistic 回归结果分析

2011-12-02 16:48

身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这 严重

的睡意吧!今天来分析二元 Logistic 回归的结果

分析结果如下:

案例艷理汇总

N

分上匕

57.5 489

.0 0

57.5 489

42.5 361

100.0 950

选定案例包括在分析中

缺失寨剑

总计

耒选定的案例

总计

因歪量编碍

^ 商部値

0

分类畫量垢碣

参敎镐硏

(1)

0&0 皱盲水平来完惑高中 269 .C00 .000

1.000 134 00Q .000

高中

.OC

O

53 .D00 1.C00 .000

大学

25 .DC0 .C00

3 .CD0 .000 .000

O

.OC

.OU

G

r

OO

1.000

硏究生

O

1:在案例处理汇总中可以看出:选定的案例 489个,未选定的案例361 个,这

个结果是根据设定的validate = 1 得到的,在因变量编码中可以看 违约

两种结果或者 分别用值1 0代替,在

类变量编码中教育水平分为5类,如果选中为完成高中,高中,大专,大 学等,

其中的任何一个,那么就取值为1,未选中的为0,如果四个都未被选中, 那么就是

研究生频率分别代表了处在某个教育水平的个数,总和应该为 489

分类表

d

未选匡的

是否曾经违约 是否曾经劇

己观测 口分比檢IE

彷骤0 是否噌究违约否

9

O H

360 1D0.0 157

0

.C 54

73.6

7E

总计口分此

a已谴定的案^validate EQ1

A未迭定的案例validate J4E 1

c.由于目娈量中有駛失值:或分类娈量中的値超岀选定臬例的范圉眇以床跖某翌未选建的案例进彳 乩携型中

包括常量=

e切割値对

B SE, Wais df Sig.

齿骤0 常量 026 .103 100.02S 1 .000 .356

左握中的裘量

EKP(fi)

1:分类表中可以看出: 预测有360个是”(未违约) 129个是

”(违约)

2:方程中的变量表中可以看出:最初是对常数项记性赋值, B

-1.026 标准误差为:0.103

那么 wald =( B/S.E)2=( -1.026/0.103)2 = 99.2248, 跟表中的“ 100.029 几乎

接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,

BExp(B)是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e-1.026 =0.358,

A

其中自由度为1sig0.000,非常显著

干在方程中的畫星

導仔

歩疆0 克虽 年肾

教肓

如⑴

7.460

8,93+ .051

6.009 .OU 1

1 U5 .285 1

教育⑶

2.224 136 1

2.51 m

工歸

把址

收入

S

3674S

9.463

1.1D7 .292 1

76.418

信用卡£1

其他员质

35.329

1 2 531

147 557 .000 11

df

1 .006

4

Sig.

.000 1

002 1

.000 1

000 1

.000 1

1

总红计量

1:不在方程中的变量可以看出,最初模型,只有常数项被纳入了模 型,其

它变量都不在最初模型内

表中分别给出了,得分,df , Sig 三个值,而其中得分(Score)计算公式如下:

Score.

----------- -----------------------

J

Jt

刃壬厲-

1

(公式

F面来举例说明这个计算过程:年龄自变量的得分为例)

Xi- X"少了一个平方)

分类表中可以看出:有129人违约,违约记为T 则违约总和为 129,选

定案例总和为489

那么:y - = 129/489 = 0.2638036809816

x - = 16951 / 489 = 34.664621676892

所以:刀(Xi -x - )2 = 30074.9979

y " (1-y ")=0.2638036809816 * (1-0.2638036809816 )

=0.216

则:y(1-y )* (Xi -x - )2 =0.216 * 30074.9979 = 5

840.9044060372

则:[Xi(yi - y ") ]2 = 43570.8

A

所以:

Or

j

Score i

----------------------------------

J

Jt

y(l x)

-£ E -

=43570.8 / 5 840.9044060372 =

7.4595982010876 = 7.46 (四舍五入)

计算过程采用的是在EXCEL里面计算出来的,截图如下所示:

B 6 =A486-AVERAGE @$ 1 9

| $

A E E F

1. B |

C G

2

3

136. 0633999 0 -6. 06748

2

5 74&4254=5

-7.1227

0

7

[

0. 441721973 0 -8. 96933

1

3

3

0. 112479G2 1 25, 76687

2

113.3|1555

0 -& 32129

4

4

B

177. 832315 0 -12, 6626

2

6

75, 0756688 0 -6. 8589

3

0

21. 76869589 L 22* 08589

3

6

1. 783235266 0 -9. 49693

2

1

186. 7218856 0 -5, 53988

3

4

0. 44=1721973 0 -8. 96933

3

0 11247862 1

25.76687

3

5

5

0.112^7862 0 -9. 23313

3

4

0. 441721973 1 25. 03067

3

2. 770565327 0 -S, 70552

3

[

3

21. 75869539 0 -7. 91411

2

4

113, 7311555 0 -6. 33129

4

7

152. 1615584 0 -12. 3988

539.

336.1860983 1

21 &0. >926432

2

3 0134

0

—宝

803&8

'

3

块仁方法=向前步逬(似然比)

撲型系議的织合竝船

卡方

at

捞骡1齿骡 74052

74:052 .oon

模型 1 74052 .000

8ig

1 .000

1

1 .000

2

44.543

11S.596

.OQ

O

.000 118.595

模型

曲菠3 歩專

43.619 ' 1

108 414 3 .000

168.414 3 .000

2

1 002

4 .000 176091

4 .000 V9.C91

模型

步辕4 歩骡

模型

撲型汇总

Coo& Snell R

(

-2对数似然僵

1 40OJ5|

2 445709 215 .315

3 .291 .426

4 266 213* .305 .JI46

-

b

2餌一胸3

.141 .705

Nagelherke F?

a因期参數怙廿的更改范国小于刖1,所以估计在進

况数4处嶽=

b因対琴數估计的更改范圉小于.001所以估计在迭

nni H-I-

»此匚卜诗丄卄壬斗

1T 中可以看出:采用的是:向前步进 的方法,在模型系数的综 合检

表中可以看出: 所有的SIG几乎都为0而且随着模型的逐渐步 进,卡方

值越来越大,说明模型越来越显著,在第 4步后,终止,

根据设定的显著性值 自由度,可以算出 卡方临界值,公式为:

=CHIINV(显著性值,自由度,放入excel就可以得到结果 2:在“模型汇总“中可

以看出:Cox&SnellR Nagelkerke R方拟合效果

都不太理想,最终理想模型也才:0.3050.446 最大似然平方的对数值 都比较

大,明显是显著的

lnl = y In/? + 1》”(】-£)] 似然数对数计算公式

为:

计算过程太费时间了,我就不举例说明 计算过程了

Cox&SnellR方的计算值 是根据:

1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值 INL0 (指只包含

常数项的检验)

2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值 InLB (包含自变

量的检验)

1 -

A

再根据公式: 即可算出:Cox&SnellR方的

值!

=Hosmer Lemeshow

楡验=

卡方

1 8

2 8

3 3.312 .913

df

0

Sig

7 5&7 .477

5.341

.721

4 11.91S e .155

HosmerLemesho^r检脸的随和I.

1

涉表

昱否国境违缁二否 昙否曽经通釣

己观测 已观测 期望値 期望値

5 44

4 2 45 41344 5 656 49

4 012 4Q

总计

1

44

353

di 41.467 46 3

+

45 5 4 8 79S

40.550 7.450 46

6.513

T

11

& 39 37.607 g 10.393 48

T 33 35.142 15 12.856 +6

&

4,0

20.1

33 32.590 15 16J10 49

g

24 27.217 25 21.7S3 +9

19 17.500 33 34.494 52 10

48 47.541 1 1 469 2 1

46 46,041 3 2.956

45 44.258 4 4 742 3 49

6 506 4 49 42

e.6-15 5 4-

11.145 E 49 35 37.855 14

14 170 33 31.330 11 T

18.43& 4S 35 30,562

9

+0

2

G

33 40.2G5

T

11

U

29 21 23.564 25 43E

35 12 12.465 35.535 48 10

fk dQ id d 3

5

9

霁鸞1

1

提示: HosmerLemeshow检验 随机性表

结合一起来分析

1:HosmerLemeshow检验表中,可以看出:经过 4次迭代后,最终的卡

方统计量为:11.919 而临界值为:CHINV(0.05,8) = 15.507

卡方统计量 < 临界值,从SIG角度来看:0.155 > 0.05 , 说明模型能够很好

的拟合整体,不存在显著的差异。

2:从HosmerLemeshow检验随即表中可以看出:观测值期望值

几乎是接近的,不存在很大差异,说明模型拟合效果比较理想,印证了Hosmer

Lemeshow检验中的结果

HosmerLemeshow检验表中的卡方统计量,是通过Hosmer

Lemeshow检验随即表中的数据得到的(即通过观测值和预测值“)得到 的,计

算公式如下所示:

x2 (卡方统计量)=刀(观测值频率-预测值频率)2 /预测值的频率 举例说明一下计

A

算过程:以计算"步骤1的卡方统计量为例"

1:HosmerLemeshow检验随即表步骤1 的数据,复制到 excel

中,得到如下所示结果:

__C21 A ^SOCCl :C20)

B

4

4

9

4

4

1

7

3

1

9

7

3

3

C D

A

E |

45

44.36

43.54

4148

40.5237

40.20

J7.60

0. 003385

0. 063249

0. OOS714

45

0

0. 305729

0. 572874

0. 051608

332.59

3 0

227.21

4 7

117.50

9 6

5 4,512

4

7

6

1

1

35.K2

0.130517

0, 005166

0.330177

0.127566

3

1

2

3

4 7.480

8.799

-

J

7

d .763

3

Q

032576

5.65

0. 484724

6.513

0. Q36096

1.656082

2. 617364

0,186741

12.S5

0.3567

16.41

0. 010258

0. 475004

34.493

0. 064739

566569

I

已硕测

耒选疋的

是否曾经违約

是否曾

坯降

己观测 百分比校正

步麥1

总计■苜幷上匕

W2 335 25 93 1 ur

是否曾轻违妁 计肖井

340 20 94 4 150

95 42

ja

34 26 4

76 5

a

74

55 42.6 39

7S e

昙杏曾疑逋妁否

总计百分讯

4

是否曾轻违妁香 总计百分

333 27 92 5 U2

65 33

23 U1 337 93 E

71

50 4

91 4

34 53

64

55.0

03.4

a-已遴定的案捌validate EQ 1

d未选定的案倒validate NE 1

c由于旨变量中有锻失値戴分类变量中的値超出选定舉例的范国'以未対某些未迭定的案例进彳 d切剖値

.500

1:从分类表步骤 T 中可以看出: 选定的案例中,是否曾今违约

计:489个,其中 没有违约的360个,并且对360没有违约的客户进 行了预

测,有340个预测成功,20个预测失败,预测成功率为:340 / 360 =94.4%

其中违约的有189个,也对189违约的客户进行了预测,有 95

测失败,34个预测成功,预测成功率:34 / 129 = 26.4%

总计预测成功率:(340 + 34/ 489 = 76.5%

步骤1 总体预测成功率为:76.5%,在步骤4终止后,总体预测成功率为:

83.4,预测准确率逐渐提升 76.5% 79.8% 81.4% 83.483.4的预测准确率,

不能够算太高,只能够说还行。

如果轄去顿则建撲

樸型対敌似然 -2对散似誰

中的夏改

步膘1 甸债率

場靈2工龄

負债辜

步腔3工龄

员债率 15 8

信用卡负债 1 .000 -222.855 49.919

谿1工龄 1 DOO -234 776 63.3^3

地址 -197.945 967T

負债率

(IT

1 .000

1 .000 -245.126 44 543

1 .000

1 .000

1 000

1 .002

1

更改的显薯性

.000

.000 -221 .fB4 56.174 1

-282 152 74.052

-260.995 76282

-24 2.996 90.102

-205.884

-200.572 15.135

信用卡负债

E

S.E. Wais df Sig.

.016 1 .000

238 119948 1 .coo .092 -2.500

022 1 .000

.018 1 .000

269 42051 1 xoo .194 常量 -1 695

.033 57744 1 .000 .777 -?52

.021 1 1.086

0G9 31.09& xoo 1.723 ,544

275 18.505 .307 窜量 1181

.034 64.977 1 xoo .730 -249

.023 9.027 .933

.021 081 1 .000

.102 1.811 1

304 6.376 .465 -763 1 ”012

61777 1 138 129

34.850 .877 -131

61.974 1.150 .140

15728 JQO .0S3

U.893 1.035

33.053 594 TOO 信用咔命债

1

1 .000

Exp (B)

常量

信用卡贲债

步展梓工龄

-069

乩在歩聲1中樹入的变:员僵率.

1

0歩鑒卫中骚入鼬变工龌.

C.在垢骤3中输卩.的具虽.涪用卡员债.

[在歩4中输入的变量:地址.

如果移去项则建模表中可以看出: -2对数似然中的更改中的数值

不是很眼熟?? ?,跟在模型系数总和检验表中卡方统计量 "量的值是 一样

的!!

如果移去项则建模 方程中的变量两个表结合一起来看

1:方程中的变量表中可以看出: 在步骤1中输入的变量为负债率

如果移去项则建模表中可以看出, 当移去负债率这个变量时,引起了

74.052的数值更改,此时模型中只剩下常数项-282.152为常数项的对数似

在步骤2中,当移去工龄这个自变量时,引起了 44.543的数值变化(简

称:似然比统计量),在步骤2中,移去工龄这个自变量后,还剩下负债

常量,此时对数似然值 变成了: -245.126,此时我们可以通过公式

负债率的似然比统计量:计算过程如下:

似然比统计量=2 (-245.126+282.152)=74.052

答案得到验

2:如果移去项则建模表中可以看出:不管移去那一个自变量,更改的 显著

都非常小,几乎都小于 0.05,所以这些自变量系数跟模型显著相关, 不能够剔

去!!

3:根据"方程中的变量这个表,我们可以得出logistic

回归模型表达

+1阳血那么可以得到简洁表达式:

1 / 1+ e-

A

P(Y) = 1 / 1+eA (-z)

(a+

B

l*Xi)

我们假设Z

方程中的变量一步骤4中的参数代入 模型表达式中,可以得

logistic 回归模型如下所示:

-0.766+0.594*信用卡负债率+0.081*负债率-

0.069*

P(Y) = 1 / 1 + e a -

-0.249*功龄)

收入

其他贡债

总貓量 3

步鑿4 变昼

430 .512

012 1

1

1 2023 .155

4 1.233 .673

1 .31^

1 056 .613

1 .380 772

1

1

.914

12,707

.122

年議

教育⑴

.556

抽首⑶

教言⑷ 136

收入

712

.S+5 .005

.719 .131 1

.323 3.613 7

总锁计量

不在方程中的变量表中可以看出: 年龄,教育,收入,其它负债,都没 有纳

入模型中,其中:sig值都大于0.05,所以说明这些自变量跟模型显著不 相关。

rtumber: 4

Observed Groups and Predict^d Probabilities

80 4

1

+

1

1

F 1

R +

E 1

Q

U

E

N

1

1

eo +

i

i

i

1

1

40+0

10

1

Q

Y

10

1

1000

20 +000 0

1

1

Predicted -----------------

1 1

1000001

IOOOOOOLO 01011000 0 1

1 0 1

IOOOOOQOOOOOOOOOOOOOOO 000010 00 11

100 1100 0000

mi

Prob 0 .1 .2

.3 .4 .5 . .8 .9 1

G

Group: 001

Preditt^cf Probability is of M*mb ^rship for

The Cut Va!ue is .SO

Symbols: Q

」否

1

■足

Each Symbol 5 Cases.

观察到的组和预测概率图中可以看出:

1: the Cut Value is 0.5, 此处以0.5为切割值,预测概率大于 0.5,表示

客户违约的概率比较大,小于 0.5表示客户违约概率比较小。

2:从上图中可以看出:预测分布的数值基本分布在左右两端在大于 0.5 的切割

值中,大部分都是1表示大部分都是违约客户,( 大约230 违约客户)

预测概率比较准,而在小于0.5的切割值中,大部分都是0 部分都是未违

的客户,(大约 500多个客户,未违约) 预测也很准

在运行结束后,会自动生成多个自变量,如下所示:

preddef! preddefZ preddef3 vatidate PRE_1

f.12&4S .43690 _1S93

.1983

j.0029

01009

;

0221

.78861.0

4 0

7315

01027 1014? 1 00 J0Z52-

73788 43650 7694

.21304

.14102

.23358 .215.3281

81709 1678 17925

11330156 0105;

6 7 0147

.66390 .7316 .61944

51553 -830& 79723 ?

1.00

1.00 .0108

1 00

1.0

0

1 00

M2

2

2 9

.3569

.2167

too

1.00

1.00

1 ?61050905

00 3503 1 5

.6150

.7480

.2350 3

.0097

.3644

01131

09671

.21202

.0014

10414

.0919

.00434

00302

2939

f21902 ,13631 .233

H.22890 010i3

j34047 .40-184 .3690

;0077

.00628

J1384 1930.0K5 g

.1750.40801 .2058 g

00055 17793 1 00

09273 1442;

06691 .09055 ?

.0016.10817 f0040-

00201 00

23604 .22090 297fi

.20966 00 .0126

1426?

too

1 on

1 00

i

1.0

0

耶)|

too .1171

1.00

.1106

0035

1 oo

1:从上图中可以看出,已经对客户是否违约做出了预测, 上面用颜色标记

的部分-PRE_1表示预测概率,

上面的预测概率,可以通过 前面的Logistic 回归模型计算出来,计算过程不

恋伊升降晾衣架-股市芯片企业芯片龙头股

SPSS—二元Logistic回归结果分析

更多推荐

oqo