【附全文PPT】南京大学周志华教授——深度森林：探索深度神经网络以外的方法

2017-11-08 德先生

周志华,南京大学教授，欧洲科学院外籍院士，校学术委员会委员，计算机软件新技术国家重点实验室常务副主任。

周志华教授总结神经网络的缺点如下：

1. 太多的超参数需要调试，这其中包含各种调参技巧。而且很难复现别人实验的结果。比如当几个作者用了类似的CNN结构，如果他们使用了不同参数比如卷积层数，实际得到的模型是完全不同的。
2. 如果结构确定了模型的复杂度也就固定死了。
3. 需要大量的数据。
4.理论分析困难。
5.黑盒。

深度神经网络在许多任务上并没有太多优势，比如在Kaggle比赛中随机森林和XGBoost通常效果更好些。对此周教授提出了gcForest，这是一种决策树集成方法（decision tree ensemble approach），性能较之深度神经网络有很强的竞争力。

深度神经网络需要花大力气调参，相比之下 gcForest 要容易训练得多。实际上，在几乎完全一样的超参数设置下，gcForest 在处理不同领域（domain）的不同数据时，也能达到极佳的性能。gcForest 的训练过程效率高且可扩展。在我们的实验中，它在一台 PC 上的训练时间和在 GPU 设施上跑的深度神经网络差不多，有鉴于 gcForest 天然适用于并行的部署，其效率高的优势就更为明显。此外，深度神经网络需要大规模的训练数据，而 gcForest 在仅有小规模训练数据的情况下也照常运转。不仅如此，作为一种基于树的方法，gcForest 在理论分析方面也应当比深度神经网络更加容易。