从 Linear Model 到 Stacking,我是如何将 RMSLE 优化至 0.12 的?
笔者近期正在学习《动手学深度学习》(后简称《D2L》)这本书,在4.10节处,书中手把手带我们用最简单的线性模型复现了Kaggle上一个预测房价的模型。我在按照书上的代码复现后,又根据Gemini的建议采取了进一步的优化建议以取得更好的效果。这篇博客旨在记录笔者的复现流程,以及一点学习心得。
题目的链接如下:
House Prices - Advanced Regression Techniques我们先从《D2L》这本书的做法写起吧。
《D2L》的做法
我们简单分为数据预处理与模型训练两部分来说。
数据预处理
首先,我们先把Kaggle房屋数据集下载到本地,并用pandas库加载训练数据集与测试数据集。
import numpy as np |
可以看到,训练数据集包括1460条样本,每个样本有80个特征和一个标签。而测试数据集有1459条样本,每个样本包含80个特征。
再看看训练数据集的前四个和后两个特征,结果如下。
可以看到,训练数据集中每个样本的第一个特征是ID值,用以唯一标识该样本。然而,在实际训练中,ID值不反映任何信息,因此我们需要将ID列从数据集中删除。
all_features = pd.concat((train_data.iloc[:, 1:-1], test_data.iloc[:, 1:])) # 将第0列(ID)从数据集中删除 |
数据标准化
我们对数据进行预处理大体上有两个任务:
- 将所有的缺失值替换为相应特征值的平均值
- 将所有特征值重新缩放到零均值和单位方差来标准化数据
这看似是两个任务,其实可以一步搞定。所谓数据标准化,其实可以参考概率论中正态分布标准化的方法,即用以下步骤得到。
和分别代表样本均值与标准差。不难得出,处理后的特征具有零均值和单位方差,推导过程如下:
这么做有两个好处:首先,它方便优化。因为将所有的数值进行标准化后,特征均值就全部变为0均值消失。因此,我们可以将缺失值统一设置为0,视为均值填充;其次,我们不知道哪些特征是相关的,所以我们不想让惩罚分配给一个特征的系数比分配给其他特征的系数更大。
# 数据预处理 |
处理离散值
接下来,对于离散值,如“MSZoning”之类的特征,我们可以用独热编码One-Hot Encoding来替换。使用pandas库下的get_dummies()方法可以让我们很轻松的做到这一点。
例如,“MSZoning”包含值“RL”和“Rm”。 我们将创建两个新的指示器特征“MSZoning_RL”和“MSZoning_RM”,其值为0或1。 根据独热编码,如果“MSZoning”的原始值为“RL”, 则:“MSZoning_RL”为1,“MSZoning_RM”为0。
# 接下来,用独热编码替换离散值 |
顺带一提,独热编码的本质是把一个特征拆分成多个正交关系的特征。比如“街道”不能被直接拆分成“1、2、3……”,因为它们之间没有大小关系,只能用独热编码处理。
值得注意的是,这么做会导致数据集特征数量大幅增长,原因在于对离散值独热编码会让特征分裂。这很好理解,比如“MSZoning”会分裂为“MSZoning_RL”和“MSZoning_RM”两个新的特征。事实上,这里的数据集特征也的确从79个增加到了331个。
最后,通过values属性,将pandas格式的数据集提取为NumPy格式,并将其转换为张量开始训练。
# 从pandas格式提取NumPy格式,并转换为张量用于训练 |
模型训练
《D2L》这本书训练了一个带有损失平方的线性模型,这个模型非常基础,能力也相当一般。但它可以作为一个基线baseline模型,让我们知道后续模型的能力超出了它多少。
# 训练一个线性模型,作为baseline |
一个小细节是:为了更客观的评价模型的误差,我们还需要引入RMSLE均方根对数误差。
因为MSE关注的是绝对误差,RMSLE关注的是相对误差,显然后者才是我们需要的。打个比方,对于一栋12.5万美元的房子,我们的预测偏了10万美元,那么这个模型预测结果就很糟糕;如果是一栋400万美元的豪宅,我们的预测同样偏差了10万美元,那我们的结果就还不错。但是,对于使用MSE误差的模型来说,这两个误差程度是相同的,这显然不是我们想要的结果。所以,我们需要引入RMSLE。
def log_rmse(net, features, labels): |
之后,我们引入Adam优化器和K折交叉验证来辅助训练模型。
def train(net, train_features, train_labels, test_features, test_labels, |
关于Adam优化器,可以参照我之前的博客:Coursera-ML-AndrewNg-Notes-Week5 | Adam8en の 8log。简单来说,Adam算法就是对每个参数动态的调整它们的学习率从而一定程度上优化模型。
K折交叉验证是一个在本地训练和验证模型的方法。简单来说,它将训练集划分为折,然后以此选择第个切片作为验证数据,其余部分作为训练数据。
不过,这么做并不是处理数据的最有效方法。因为它的原理是将划分出的数据集复制了一份。当数据集很大时(比如100GB),这么做不仅耗时而且会大量占用内存。目前的工业界主流做法是用索引+采样器,核心逻辑是不移动数据,只维护一个索引列表。如果数据大到连内存都装不下(比如1TB的文本数据),这个时候就用“流式读取”。
因为这道题的数据量很小(几百KB的CSV文件),所以用笨方法完全可行。
这里还有一个很有趣的细节:训练用的 Loss 和评估用的 Metric 是不一样的。
- 教练(Optimizer):使用的是 MSE Loss。因为它数学性质好,求导平滑,适合用来指导神经网络调整参数(反向传播)。
- 裁判(Evaluation):使用的是 RMSLE (Log RMSE)。这是 Kaggle 官方的计分标准。我们虽然优化的是 MSE,但最终必须用 RMSLE 来衡量模型在赛场上的真实表现。
这就好比高考:平时的模拟题(MSE)是为了练手感,但最后录取只看高考卷面分(RMSLE)。虽然题目不一样,但能力提升了,两个分数自然都会高。
最终结果
《D2L》中提供了一组未经调优的超参数供我们训练模型。
k, num_epochs, lr, weight_decay, batch_size = 5, 100, 5, 0, 64 |
运行后可以得到如下结果:
看样子训练的结果还不错。最后,我们在题目给定的测试数据集上用模型预测标签,输出预测结果并将其保存在一个CSV文件中,提交到Kaggle就可以查看成绩了。
def train_and_pred(train_features, test_features, train_labels, test_data, |
最后得到的分数值是0.16696。
优化改进
引入XGBoost
在经过Gemini和资料查阅后,我了解到工业界处理表格数据的王者其实是 Gradient Boosting(梯度提升)。其中,最常被人使用的是XGBoost模型。
在这里我不打算对决策树和XGBoost的底层原理做详细的展开,如果将来有时间的话,也许我会把它整理成一篇博客。尽管如此,在这里我还是想阐述一些我对它们的浅层理解(参考了知乎文章和吴恩达的《machine-learning》课程)
首先让我们来看看决策树长啥样。如果我们拥有一堆猫和狗的样本,需要根据不同的特征对数据集进行划分,希望得到一个模型来识别输入样本是猫还是狗(一个典型的分类问题),那么我们可以得到下面这棵决策树。
简单地说,决策树模型就是通过不断地回答问题,输出Yes or No,一直向下走直到抵达叶子节点,叶子节点的值就是预测值。
在我们训练一棵决策树时,我们需要选择一个特征作为分裂点,使得信息增益最大化。通常可以用递归的方法生成一棵决策树,直到分裂出来的子集合为“纯净的”(即 全猫或者全狗)或者到达了树所允许分裂的最大深度就停止分裂。这个信息增益这里不多做探究,本质上就是一个度量节点纯净度的方法,涉及一些很基本的信息论定义。
一棵决策树往往不足以用来解决问题,因为它高度依赖数据集本身来决定用哪个特征分裂以实现信息增益最大化。所以,袋装决策树和随机森林算法出现了。袋装决策树的核心理念就是:在原始数据集上进行有放回随机抽样得到多个训练数据集,以此训练多棵决策树来进行预测,最后对所有决策树的输出进行投票,来决定最终的预测结果。它的算法伪代码描述如下:
这么做有一个小问题:当非常大时,可能会生成很多个根节点使用相同的分割、或者根节点附近使用相同分割的决策树。随机森林算法则是在袋装决策树上进一步优化:随机森林在分裂节点时,并不是在所有特征中寻找最优解,而是随机抽取一部分特征(通常取 ,其中 为特征总数)进行选择。这种特征层面的随机性进一步降低了树与树之间的相关性,让投票结果更健壮。
这么做的好处就在于,输入数据集的任意变化,都不太可能对随机森林模型的预测结果产生巨大的影响,因为它已经对训练数据集的微小变化进行了平均化处理。
最后就是我们的XGBoost模型,XGBoost 属于 Boosting(提升) 家族,这与随机森林的 Bagging 思想完全不同。随机森林是并行地训练多棵树然后投票,而 XGBoost 是串行地训练。它的核心思想是:每一棵新树的建立,都是为了修正前一棵树的错误。
简单来说,如果第一棵树预测的结果和真实值有差距(这个差距称为残差),那么第二棵树的目标就不再是预测原始数据,而是去拟合这个残差。
这种算法背后的思想直观上也很好理解:就像你做模拟卷,第一次考完后发现导数题丢分了(产生了残差),那么你接下来的复习计划(下一棵树)就专门针对导数这部分偏差进行修正,而不是从头再把整张卷子做一遍。这种策略让 XGBoost 能够不断逼近正确结果,也让它成为了 Kaggle 比赛中的夺冠常客。
至于 XGBoost 的底层数学原理这里就不展开赘述。我们只要知道它不同于传统的决策树模型用信息增益最大化作为分裂节点的策略,而是通过泰勒展开用到二阶导数信息,来极小化目标损失函数。这使得它比只运用一阶导数的传统 GBDT 更加精准和高效。详细可以参考文章:超详细解析XGBoost(你想要的都有) - 知乎
对于前置知识的介绍到此为止,接下来就是在模型中引入XGBoost。要修改代码也不难,XGBoost有一个非常方便的开源库可以调用,通过pip下载后,在代码中引入库文件。
import xgboost as xgb |
之后,把训练部分替换为以下代码。
# 1. 定义模型 (参数是随手填的,不用细调也能赢 MLP) |
将得到的CSV文件上传到Kaggle,这次的分数值是0.13312。
特征工程+模型融合
后续的优化过程就比较单调了,因为我直接让Gemini直接给我优化建议,我很好奇这道题能优化到什么程度。
Gemini给了我两个建议:
-
引入特征工程,对原训练数据集的特征进行处理,尝试根据直觉构造一些新的强力特征取辅助机器学习。
比如总面积:地下室 + 一楼 + 二楼
房龄 = 卖出年份 - 建成年份 等
-
引入模型融合,不要只信一个模型,可以引入多个模型对预测结果取加权平均,来利用各个模型的优点。
这里Gemini给出的范例是:
- XGBoost (树模型):绝对的主力(权重 60%)。它擅长捕捉非线性的复杂关系和特征交互,但它的预测本质上是阶梯状的,容易过拟合。
- Lasso Regression (L1 正则):激进的线性模型。它能将不重要的特征系数压缩为 0(自动做特征选择),负责剔除噪音,防止 XGBoost 在无关特征上钻牛角尖。
- Ridge Regression (L2 正则):稳健的线性模型。它处理共线性特征(比如多个代表面积的指标),让模型更平滑。
之后,修改模型代码(完整代码在文末一起放出),重新训练并生成一个CSV文件提交给Kaggle。这次的得分是0.12686。
引入LightGBM
LightGBM 是微软开发的,它和 XGBoost 的切分逻辑不同,两者融合通常能产生奇效。
简单来说,LightGBM就是肉的一批的同时伤害还贼高。
- 模型精度:XGBoost和LightGBM相当。
- 训练速度:LightGBM远快于XGBoost。(快百倍以上,跟数据集有关系)
- 内存消耗:LightGBM远小于XGBoost。(大约是XGB的五分之一)
- 缺失值特征:XGBoost和LightGBM都可以自动处理特征缺失值。
- 分类特征:XGBoost不支持类别特征,需要OneHot编码预处理。LightGBM直接支持类别特征。
最后,我们引入LightGBM并且调整模型权重为:XGB (30%) + LGBM (30%) + Lasso (20%) + Ridge (20%)
训练分数定格在0.12462。这还是在未经过任何调参,纯用Gemini给的超参数提交的结果。
结语
事实证明,决策树模型比神经网络更加适合处理表格类型的数据。别的不说,哪怕不做特征工程和模型融合,光是引入XGBoost模型,得分就能从0.16优化为0.13,可见XGBoost之威力。
这里插播一段小插曲,在查阅相关资料时,我无意间了解到了机器学习两大流派之间的争论。
机器学习主要可以分为联结主义(Connectionism)和符号主义(Symbolism,或称统计学习学派)两大流派。前者以 MLP、深度学习为代表,后者则以决策树、XGBoost 等算法为代表。
所谓联结主义,可以理解为通过数据预处理,把研究对象看作一个高维矩阵。它本质上是在寻找一个复杂的函数 ,通过反向传播算法不断微调权重矩阵,以最小化目标函数。
它的思维方式是连续的:就像捏泥人,通过基于微积分的梯度下降,一点点把模型捏成想要的形状。但这也带来了弊端——它必须从零开始学习所有规律。哪怕是万有引力这样显而易见的物理定律,在神经网络眼里也只是如果不通过海量样本训练就无法察觉的隐性特征。此外,它的黑盒特性导致人们很难控制其学习过程,容易出现过拟合。
而以树模型为代表的符号主义,它的逻辑截然不同。它不进行复杂的矩阵乘法,而是遵循 If-Else 的硬逻辑。它通过回答一个个离散的问题,把样本空间一步步切割得更纯净。
“在哪里切这一刀”不是人定的,而是机器依靠算法自动找出来的。如果说联结主义是微调,那么树模型就是贪心——无论是随机森林利用信息增益并行生长,还是 XGBoost 利用残差和梯度串行修补,它们都主张把问题离散化,在每一步寻找当下最好的切分点。
从当下的技术热点来看,联结主义无疑占据了统治地位。以 GPT 为代表的大语言模型证明了大力是真的能出奇迹的。通过海量参数和反向传播,机器涌现出了惊人的智能。很多人认为,只要算力足够大,神经网络就能解决一切问题。但与此同时,也有人在反思当下是否走了弯路。毕竟神经网络能给机器带去直觉,却不一定能理解规律,他们认为,符号主义才是通往AGI的正确道路。
还有一点,在模型选择遇到性能瓶颈后,可以对数据集进行特征工程处理,手动构造出有用的特征值。此外,通过模型融合来综合考虑各个模型的输出结果也能提升表现。这些方法都在这次实战中得到了证实。
如果有时间,最好在本地构造验证集,并尝试不同的超参数,也许能够获得更好的效果。
另外,完整的提交代码如下。一共有三份,分别对应MLP模型,XGBoost模型与模型融合代码。
查看完整代码
import hashlib |
import hashlib |
import numpy as np |
最后,放一下提交记录截图。












