Logistic回归模型基本知识--688IT编程网

Logistic回归模型

1 Logistic回归模型的基本知识

1.1 Logistic模型简介

主要应用在研究某些现象发生的概率，比如股票涨还是跌，公司成功或失败的概率，以及讨论概率与那些因素有关。显然作为概率值，一定有，因此很难用线性模型描述概率与自变量的关系，另外如果接近两个极端值，此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时，变换一下思路，不直接研究，而是研究的一个严格单调函数，并要求在接近两端值时对其微小变化很敏感。于是Logit变换被提出来：

odds （1）

其中当从时，从，这个变化范围在模型数据处理上带来很大的方便，解决了上述面临的难题。另外从函数的变形可得如下等价的公式：

（2）

模型(2)的基本要求是，因变量（y）是个二元变量，仅取0或1两个值，而因变量取1的概率就是模型要研究的对象。而，其中表示影响的第个因素，它可以是定性变量也可以是定量变量，。为此模型(2)可以表述成：

（3）

显然，故上述模型表明是的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。

Logistic线性回归的主要问题是不能用普通的回归方式来分析模型，一方面离散变量的误差形式服从伯努利分布而非正态分布，即没有正态性假设前提；二是二值变量方差不是常数，有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小)，Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。

定义1 称事件发生与不发生的概率比为优势比(比数比 odds ratio 简称OR)，形式上表示为

OR= （4）

定义2 Logistic回归模型是通过极大似然估计法得到的，故模型好坏的评价准则有似然值来表征，称

-2为估计值的拟合似然度，该值越小越好，如果模型完全拟合，则似然值为1，而拟合似然度达到最小，值为0。其中表示的对数似然函数值。

定义3 记为估计值的方差-协方差矩阵，为的标准差矩阵，则称

（5）

为的Wald统计量，在大样本时，近似服从分布，通过它实现对系数的显著性检验。

定义4 假定方程中只有常数项，即各变量的系数均为0，此时称

（6）

为方程的显著性似然统计量，在大样本时，近似服从分布。

1.2 Logistic模型的分类及主要问题

根据研究设计的不同，Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分，分组与未分组之分，有序与无序变量之分。具体如下：

两分类非条件Logistic回归：分组数据的Logistic回归，未分组数据的Logistic回归；

多分类非条件Logistic回归：无序变量Logistic回归，无序变量Logistic回归；

条件Logistic回归：1:1型、1:M型和M:N型Logistic回归。

关于Logistic回归，主要研究的内容包括：

1．模型参数的估计及检验

2．变量模型化及自变量的选择

3．模型评价和预测问题

4．模型应用

2Logistic模型的参数估计及算法实现

2.1 两分类分组数据非条件Logistic回归

因变量(反应变量)分为两类，取值有两种，设事件发生记为y=1，不发生记为 y=0，设自变量是分组数据，取有限的几个值；研究事件发生的概率与自变量的关系，其Logistic回归方程为：

或

例2.1.1 分组数据[1] 在一次住房展销会上，与房地产商签订初步购房意向书的有n=325人，在随后的3个月时间内，只有一部分顾客购买了房屋。购买房屋的顾客记为1，否则记为0。以顾客的年家庭收入(万元)作为自变量,对数据统计后如表2.1.1所示，建立Logistic回归模型。

表2.1.1 购房分组数据

序号	年家庭收入X(万元)	签订意向人数	实际购买人数
1	1.5	25	8
2	2.5	32	13
3	3.5	58	26
4	4.5	52	22
5	5.5	43	20
6	6.5	39	22
7	7.5	28	16
8	8.5	21	12
9	9.5	15	10

例2.1.2 药物疗效数据[2] 为考察某药物疗效，随机抽取220例病人并分配到组和对照组，组采用药物，对照组采用安慰剂。一段时间后观察病人的疗效，得到表2.1.2数据。设y为疗效指标(y=1 有效，y=0无效)，为组指标(1为组，0为对照组)，为年龄组指标(1为>45岁，0为其他)。

表2.1.2 药物疗效数据

序号	分组	年龄分组	有疗效	无效	合计
1	1	1	32	18	50
2	1	0	40	20	60
3	0	1	21	31	52
4	0	0	18	40	58

上述两个例子数据都是经过统计加工后的分组数据，对此类数据进行Logistic回归，首先要明确应变量对应事件的发生概率如何确定和进行Logit变换，其次才能建立Logistic回归。为便于数据处理，我们将此类数据的格式作个约定，排列格式为（组序号，自变量，该组事件发生数，该组总例数）。

表2.1.3 分组数据的标准格式

序号	年家庭收入X(万元)	实际购买人数	签订意向总人数
1	1.5	8	25
2	2.5	13	32
3	3.5	26	58
4	4.5	22	52
5	5.5	20	43
6	6.5	22	39
7	7.5	16	28
8	8.5	12	21
9	9.5	10	15

表2.1.1 改造表

序号	分组	年龄分组	有效例数	观察例数
1	1	1	32	50
2	1	0	40	60
3	0	1	21	52
4	0	0	18	58

表2.1.2 改造表

经过改造后，可得我们关心的事件的发生的频率为。其中为分组数，然后作Logit变换，即。变换后的数据，形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为：

当然这样处理并没有解决异方差性，当较大时，的近似方差为：

（7）

所以选择权重，最后采用加权最小二乘法估计参数。

688IT编程网

Logistic回归模型基本知识

发表评论

推荐文章

总结工作中的不足之处英文翻译

(0077)《英译汉》复习思考题

翻译三级笔译综合能力-21_真题-无答案

英语故事带翻译精选篇五篇

dreamweaver所以属性翻译,方便入门者学习

热门文章

高考真题形容词和副词单句翻译(含译文)

英语新词汇与常用词汇的翻译-18

综合英语翻译

综合英语3课后翻译答案

0803翻译就英法联军远征中国给巴特勒上尉的信

大学精读英语教程(复旦大学出版)第三册:单词,翻译(2单元1...

高中英语单词归纳

mybelovedthing英语作文

发明一个对社会有用的东西作文

ai advantage英语作文

我想发明英文作文

与做家务有关的英语范文初二下册

《小屁孩日记荒野大冒险》读后感英语

邀请参加垃圾分类的志愿活动英语作文

九年级英语关于成为一名老师的作文

关于垃圾分类的宣传活动英语作文高中

doing houswork英语作文

七年级下册英语,1到3单元总结性作文

意林版英语六年级下册阳光练习第一单元答案

feek试音文本

最新文章

总结工作中的不足之处英文翻译

英语故事带翻译精选篇五篇

(完整版)全新版大学英语(第二版)综合教程3课文原文及翻译

新视角研究生英语读说写1部分翻译

课后习题翻译部分

必修三第三单元课文及翻译

标签列表

688IT编程网

Logistic回归模型基本知识

发表评论

推荐文章

总结工作中的不足之处英文翻译

(0077)《英译汉》复习思考题

翻译三级笔译综合能力-21_真题-无答案

英语故事带翻译精选篇五篇

dreamweaver所以属性翻译,方便入门者学习

热门文章

高考真题形容词和副词单句翻译(含译文)

英语新词汇与常用词汇的翻译-18

综合英语翻译

综合英语3课后翻译答案

0803翻译就英法联军远征中国给巴特勒上尉的信

大学精读英语教程(复旦大学出版)第三册:单词,翻译(2单元1...

高中英语单词归纳

mybelovedthing英语作文

发明一个对社会有用的东西作文

ai advantage英语作文

我想发明 英文作文

与做家务有关的英语范文初二下册

《小屁孩日记 荒野大冒险》读后感英语

邀请参加垃圾分类的志愿活动英语作文

九年级英语关于成为一名老师的作文

关于垃圾分类的宣传活动英语作文高中

doing houswork英语作文

七年级下册英语,1到3单元总结性作文

意林版英语六年级下册阳光练习第一单元答案

feek试音文本

最新文章

总结工作中的不足之处英文翻译

英语故事带翻译精选篇五篇

(完整版)全新版大学英语(第二版)综合教程3课文原文及翻译

新视角研究生英语读说写1部分翻译

课后习题翻译部分

必修三第三单元课文及翻译

标签列表

我想发明英文作文

《小屁孩日记荒野大冒险》读后感英语