谷歌发布TensorFlow Lattice：得益于先验知识，提升模型泛化能力

2017-10-14 Non AI研习社

AI研习社消息，近日，谷歌科学家发布TensorFlow Lattice，这是一套预建的TensorFlow Estimators，易于使用，它相当于是TensorFlow运算符，用来构建点阵模型（lattice model）。点阵是多维插值查找表（look-up table），与几何教材背面近似于正弦函数的查找表类似。

AI研习社编译整理如下：

我们利用查找表的结构（它可以通过多个输入进行键控），来估计比较随意及灵活的关系，并满足于指定的单调关系，以便更好地泛化。也就是说，训练查找表值使得训练样例的损失最小化。另外，查找表中的相邻值被约束为在输入空间的给定方向上增长，因此模型的输出值也是在这些方向上增长。重要的是，因为是在查找表值之间进行插入，所以点阵模型很平滑，预测也是有界的，这有助于避免测试阶段出现有较大偏差的杂散预测。

https://v.qq.com/txp/iframe/player.html?vid=z0560xy9zaa&width=500&height=375&auto=0
点阵模型的作用

设想一下，你正在设计一个向用户推荐附近咖啡店的系统，你需要让模型学习：“如果两家咖啡店是一样的，那就选择更近一点的。”

下图中我们展示了一个灵活的模型(粉色曲线)，它可以精确地与来自东京用户的训练数据（紫色圆点）相匹配，在用户附近有很多咖啡店。

由于训练样例比较嘈杂，可以看到粉色曲线模型产生了过拟合，并且模型还忽略了总的趋势——越近的咖啡店越好。如果用这条粉色曲线模型排列来自德克萨斯州(蓝色)的测试样本，在德克萨斯州咖啡店的分布更加分散，你会发现模型的表现变得很奇怪，有时甚至会认为更远的咖啡店更好！

对比起来，运用东京相同的样本训练的点阵模型能被约束为满足单调关系，最终得到一个灵活的单调函数（绿色曲线）。这个函数能与东京的训练样例精准匹配，但是也能泛化到德克萨斯州的样例上，不会出现更远的咖啡店更好的情况。

一般说来，输入会有每个咖啡店的咖啡质量、价格等等。灵活模型很难捕捉到这种形式的整体关系，特别是在一些特征空间中，训练数据非常稀疏和杂乱。“如果其他所有输入占的权重一样，那么更近就更好。”能捕捉到先验知识（例如输入是怎么对预测值产生影响的）的机器学习模型在实际中取得的效果更好，更易于调试并更具有解释性。

预建 Estimators

我们提供一系列点阵模型架构作为TensorFlow Estimators。我们提供的最简单的estimator是校准线性模型（calibrated linear model），它能利用1-d点阵，学习到每个特征的最佳1-d转化，然后线性地将所有校准特征结合起来。如果训练数据集很小或没有复杂的非线性输入交互，模型将非常有效。

另外一个estimator是校准点阵模型（calibrated lattice model），这个模型能利用两层单一点阵模型非线性地将校准特征结合起来，能在数据集中表示复杂的非线性交互。如果有2-10个特征，那么校准点阵模型会是很好的选择，但对于10个或10个以上的特征，我们认为利用一组校准点阵将会得到最佳结果，这时候你能利用预建的一组架构来进行训练。比起随机森林，单调点阵集合（Monotonic lattice ensembles）能增加0.3% -- 0.5%的准确度。另外，比起之前顶尖的单调性学习模型，这些新的TensorFlow点阵estimator 能增加0.1% -- 0.4%的准确度。

动手建立模型

你或许想要用更深的点阵网络进行实验，或者利用部分单调函数（作为深度神经网络或其他TensorFlow架构的一部分）来进行研究。我们提供构件：TensorFlow校准运算符、点阵插入和单调性投影（monotonicity projections）。下图是一个9层深度点阵网络：

在TensorFlow Lattice中，除了模型的灵活选择以及标准的L1、L2正则化，我们还提供新的正则化矩阵：

如上面描述的那样，在输入上进行单调性约束。
在点阵上进行拉普拉斯正则化，以便让学习到的函数更平滑。
对扭曲进行正则化（Torsion regularization），来抑止不必要的非线性特征交互。

大家可以在如下地址看到详细信息并开始进行实验：

GitHub地址：https://github.com/tensorflow/lattice

tutorials地址：https://github.com/tensorflow/lattice/blob/master/g3doc/tutorial/index.md

参考文献：

[1] Lattice Regression（http://t.cn/ROpP4T1）, Eric Garcia, Maya Gupta, Advances in Neural Information Processing Systems (NIPS), 2009

[2] Optimized Regression for Efficient Function Evaluation（http://t.cn/ROpPXrA）, Eric Garcia, Raman Arora, Maya R. Gupta, IEEE Transactions on Image Processing, 2012

[3] Monotonic Calibrated Interpolated Look-Up Tables（http://t.cn/ROp7ACb）, Maya Gupta, Andrew Cotter, Jan Pfeifer, Konstantin Voevodski, Kevin Canini, Alexander Mangylov, Wojciech Moczydlowski, Alexander van Esbroeck, Journal of Machine Learning Research (JMLR), 2016

[4] Fast and Flexible Monotonic Functions with Ensembles of Lattices（http://t.cn/ROp7tII）, Mahdi Milani Fard, Kevin Canini, Andrew Cotter, Jan Pfeifer, Maya Gupta, Advances in Neural Information Processing Systems (NIPS), 2016

[5] Deep Lattice Networks and Partial Monotonic Functions（http://t.cn/ROp76zu）, Seungil You, David Ding, Kevin Canini, Jan Pfeifer, Maya R. Gupta, Advances in Neural Information Processing Systems (NIPS), 2017

via：Google Research Blog（http://t.cn/ROa2DNR）

新人福利

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络 / AI / 大数据，教程，论文】

如何用 TensorFlow 生成令人惊艳的分形图案

▼▼▼

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

戴璐局长最新后续，更多细节流出！