![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
上QQ阅读APP看书,第一时间看更新
12.2 普通回归模型
令Y为一个连续取值的因变量。普通回归模型的正式名称是最小二乘法(OLS)回归模型,基于预测因子(自)变量X1,X2,…,Xn预测个体的Y值。这个OLS模型的定义见公式12.1:
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/156-i.jpg?sign=1739618496-IIX3l5pJV7heAVTYVTX7lMnFqYtUrIU9-0-2b83461a82567b90958c1b664688ae77)
在上式中代入各预测变量的值,可以得出个体的Y(预测)估计值。上式中的b都是OLS回归系数,由最小二乘法可以计算出来。b0是截距,但是没有对应的X0。
在实践中,这个因变量不一定是一个按分钟变化的值,它可以是一些离散数值,也能用OLS方法处理。当假定这个因变量只有两个值时,逻辑斯谛回归模型而不是普通回归模型是更合适的方法。尽管逻辑斯谛回归方法已有60多年历史,但对于采用OLS模型处理二值回应因变量的实践(理论)弱点仍然存在一些误解。简而言之,二值因变量的OLS模型生成的应答率,一些会大于100%,另一些则小于0%,而且经常不能涵盖重要的预测变量。