其他

俄罗斯最大搜索引擎Yandex开源梯度上升机器学习库,背后雄心满满

2017-07-19 专注报道AI 量子位
安妮 编译自 Tech Crunch
量子位出品 | 公众号 QbitAI

昨天,俄罗斯搜索巨头Yandex开源了Gradient boosting机器学习库CatBoost,它能够在数据稀疏的情况下教机器学习。即使没有像视频、文本、图像这类的感官型数据,CatBoost也能根据事务型数据或历史数据进行操作。

开源CatBoost只是Yandex新战略的一个开头。

 Yandex是目前世界第五大搜索引擎

两次亮相

Yandex昨天的登台方式可不只一种。

首先,Yandex宣布,将用自研的新服务框架CatBoost替代原来的机器学习算法MartriNet。自2009年被研发出后,MartriNet一直被Yandex应用在多种任务处理上,比如排名、天气预报、出租车服务以及推荐任务上。现在,这些工作将逐渐被CatBoost取代,于未来几个月持续进行。

之后,Yandex宣布将免费提供CatBoost,任何想应用这项技术的人均可在Apache许可证下应用。“CatBoost是Yandex多年研究的尖端成果,”Yandex机器智能研究的主管Misha Bilenko在接受采访时表示,“我们曾用过很多开源的机器学习工具,是时候向社会作出回馈了。”

成为“中心”

Bilenko补充说,还没有计划要将CatBoost商业化,或以其他任何专利的方式将其关闭。“这和竞争对手无关,”他说,“我们会很高兴看到竞争对手使用它。”

近几年,随着Yandex实力增强,它一直在寻找提升它在俄语世界外的国际影响力。开源这项行为,不仅强调了Yandex对开源社区的承诺,还展示了Yandex想成为世界“中心”的雄心,无论作为大型科技公司还是更大的开发者社区。

CatBoost的三重奏

Bilenko说Yandex开源CatBoost是受到了两方面启示——一是谷歌在2015年开源TensorFlow,二是Linux的建立与成长。正如谷歌持续发展并升级TensorFlow一样,CatBoost的第一版将继续更新并将持续迭代。目前,这一版本主要有三种特性:

减少过拟合:它可以帮你在训练项目中得到更好结果。这是“基于一种专有算法来构造不同于标准Gradient boosting方案的模型”。

支持类别特征:将改进你的训练结果,同时允许使用非数字的因素,“而不是必须预先处理数据,或者花费时间和精力将数据转换为数字。”

用户友好的API界面:它还使用了一个API接口,允许从指令行或通过API让Python或R语言使用CatBoost,包括公式分析和培训可视化工具。

调适量少

虽然有大量其他数据库帮助增加梯度或用其他解决方案帮助训练机器学习系统,但Bilenko认为CatBoost相较其他框架的最大优点是测试精准度高。

“很多恶劣的机器学习代码需要大量调试,”Bilenko说,“CatBoost只需少量调试,并且性能良好。这是最重要的一个区别。”

最后,附CatBoost开源代码区地址:

https://catboost.yandex/

祝你玩得愉快~

【完】

交流沟通

量子位读者6群开启,对人工智能感兴趣的朋友,欢迎加量子位小助手的微信qbitbot2,申请入群,一起探讨AI。

想要更深一步的交流?

量子位还有自动驾驶NLPCV三个专业讨论群,仅接纳相应领域的一线工程师、研究人员等

同样需要添加qbitbot2为微信好友,提交相应说明,符合条件后将被邀请入群。(审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者等岗位,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

 扫码强行关注『量子位』

追踪人工智能领域最劲内容


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存