其他

AI一周热闻盘点:北大团队开源大规模稀疏数据机器学习库xLearn,Mozilla开放语音识别模型和voice数据集

2017-12-02 周末放送 AI前线


作者|Tina
编辑|Emily

AI 前线内容导读:

  • 百度 AI 公开数据集计划 BROAD

  • 北大团队开源大规模稀疏数据机器学习库 xLearn

  • 澳大利亚将建面部识别数据库,并向电信和银行提供相关数据

  • 2017 年度计算机视觉技术盘点报告已发布

  • 亚马逊发布多项人工智能新服务

  • Mozilla 开放了语音识别模型和 voice 数据集


 百度 AI 公开数据集计划 BROAD

百度 AI 公开数据集计划公开了三大数据集:室外场景理解数据集、视频精彩片段数据集、阅读理解数据集。室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,实现更精准、安全的自动驾驶。它是世界范围内第一个带像素级语义标签的室外 3D 视频。视频精彩片段数据集主要来源于爱奇艺精彩视频片段。视频类型为综艺节目,目前囊括 1500 个长视频,视频总时长约 1200 小时,还从中手动收取出 18000 个精彩小视频,同时能够提供视频帧的图片特征序列。百度阅读理解数据集 DuReader,是规模最大的中文公开领域阅读理解数据集。数据集基于真实应用需求,来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案是基于问题与文档人工撰写生成的。数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含 20 万问题、100 万文档及 42 万人工撰写的优质答案,并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑,加速相关技术和应用的发展。

百度 AI 公开数据集计划链接:

http://ai.baidu.com/broad

新闻来源:

https://mp.weixin.qq.com/s/aEgl7R7m5-u8sgFiv8C4Tw


 北大团队开源大规模稀疏数据机器学习库 xLearn,c++ trending 已超 TensorFlow

机器学习博士马超近日在微博上介绍了他和导师肖臻教授一起开发的一款专门针对大规模稀疏数据的机器学习库 xLearn,并声称已经开源。他在微博中介绍说:“在机器学习里,除了深度学习和树模型 (GBDT, RF) 之外,如何高效地处理高维稀疏数据也是非常重要的课题,Sparse LR, FM, FFM 这些算法被广泛运用在实际生产和 kaggle 比赛中。现有的开源软件例如 liblinear, libfm, libffm 都只能针对特定的算法,并且可扩展性、灵活性、易用性都不够友好。基于此,我在博士期间开发了 xLearn,一款专门针对大规模稀疏数据的机器学习库,曾在之前 NIPS 上做过展示。

经过打磨,现开源:

https://github.com/aksnzhy/xlearn。

我们的 vision 是将 xLearn 打造成和 xgboost,MXNet 一样的工业事实标准。相比于已有的软件,xLearn 的优势主要有(1)通用性好,我们用统一的架构将主流的算法(lr, fm, ffm 等)全部囊括,用户不用再切换于不同软件之间。(2)性能好。xLearn 由高性能 c++ 开发,提供 cache-aware 和 lock-free learning,并且经过手工 SSE/AVX 指令优化。 在单机 MacBook Pro 上测试 xLearn 可以比 libfm 快 13 倍,比 libffm 和 liblinear 快 5 倍(基于 Criteo CTR 数据 bechmark)。(3)易用性和灵活性,xLearn 提供简单的 python 接口,并且集合了机器学习比赛中许多有用的功能,例如:cross-validation,early-stopping 等。除此之外,用户可以灵活选择优化算法(例如,SGD,AdaGrad, FTRL 等)(4) 可扩展性好。xLearn 提供 out-of-core 计算,利用外存计算可以在单机处理 1TB 数据。除此之外,xLearn 也提供分布式训练功能”。

新闻来源:

https://www.weibo.com/1633615122/FwzEG8UPF?type=repost#_rnd1512129585900


 澳大利亚将建面部识别数据库,并向电信和银行提供相关数据

澳大利亚政府近日宣布将建立面部识别数据库,计划将通过改建其智能安防系统,通过人工智能企业的协助,用人脸识别项目来识别目标人物。目前澳大利亚联邦政府将要求各个州和地区提交驾照持有人的照片,用来建立一个全国范围的生物识别数据库,同时允许政府对闭路摄像机拍到的片段或图片中人进行即时扫描面部信息,用来识别身份,找出可能的犯罪目标,并且可能向电信和银行提供相关数据。

新闻来源:

https://www.engadget.com/2017/11/26/australia-may-offer-facial-recognition-data-to-companies/


 2017 年度计算机视觉技术盘点报告已发布

The M Tank 团队发布了一份年度计算机视觉技术盘点报告《A Year in Computer Vision》。该报告分为四个部分:

  • 第一部分:分类 / 定位,目标检测,目标追踪

  • 第二部分:分割,超分辨率、风格迁移、着色,动作识别

  • 第三部分:3D 目标,人体姿势估计,3D 重建,其它

  • 第四部分:卷积架构,数据集等。

新闻来源:

http://www.themtank.org/a-year-in-computer-vision


 亚马逊发布多项人工智能新服务

美国拉斯维加斯时间 2017 年 11 月 29 日上午,AWS CEO Andy Jassy 在一年一度的 AWS re:Invent 大会上发布了主题演讲。在短短两小时内,Andy 宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价 249 美元的、名为 DeepLens 的人工智能摄像机;一套用于开放并部署机器学习算法的 SageMaker 平台;外加实时视频识别、文字翻译等多项应用层服务。

这些发布包括:

Amazon SageMaker

这也许是本次 re:Invent 上发布的最大杀器,也可能是自各类开源机器学习框架流行以来在 AI 领域出现的最大杀器(如果使用体验真的如 Andy Jassy 所描述的那样好的话):普通开发者也想用机器学习来玩自己的数据,但是数据清洗、建模、各种试错太难太花时间,把开发者都吓跑了。SageMaker 的目标是,开发者只需要关心自己输入什么数据,自己想用什么框架和什么算法,其他的各种参数调优什么的脏活儿就让机器自己用机器学习来做。

AWS DeepLens

这是个硬件,一个可编程的摄像头。Andy Jassy 对它的定位是个“学习机”——手把手帮助开发者学习如何入门图像识别 / 视频识别。现在在 Amazon.com 上预售,价格 249 美元,2018 年 4 月发货。

此外还有一些应用层的新服务如下:

  • Rekognition Video:继去年发布的 Rekognition 图像识别服务之后,本次发布的视频识别服务。可以做人物跟踪一类的任务,可以实时出分析结果。

  • Amazon Kinesis Video Streams:帮助用户把来自不同设备、不同制式的视频流上传云端的一项服务。

  • Amazon Transcribe:音频转文字服务,目前支持英语和西班牙语。

  • Amazon Translate:翻译服务。

  • Amazon Comprehend:自然语言识别服务。

  • Alexa for Business:通过 Amazon Echo 或类似的智能设备,Alexa for Business 可以帮助用户完成一些预定会议室、查询航班、发起电话会议一类的任务。触发任务的指令是通过语音进行的,执行任务的应用可能是来自 Amazon 自家的服务,也可能是 AWS Marketplace 上的第三方服务。

新闻来源:

  • http://www.infoq.com/cn/news/2017/12/werner-vogels-aws-reinvent-2017

  • http://www.infoq.com/cn/news/2017/11/why-amazon-sagemaker-important

  • http://www.infoq.com/cn/news/2017/11/aws-reinvent-2017-andy-announce


 Mozilla 开放了其语音识别模型和 voice 数据集

Mozilla 的机器学习小组开放了他们的语音识别工作成果:Project DeepSpeech 和 Project Common Voice。他们称这是他们语音识别工作中达到的两个重要里程碑。目前只有少数大公司有高质量的商业语音识别服务可用,为了让更多的公司(包括初创公司)和研究人员有更多的选择,Mozilla 选择了开源他们的 DeepSpeech,使用了复杂的机器学习技术和创新技术构建的语音转文本引擎,在 LibriSpeech 测试数据集上得到的错误率仅为 6.5%。同时开放了用来训练机器学习算法的高质量转录语音数据集 Common Voice,包含近 400,000 个录音,500 个小时的演讲数据。

新闻来源:

https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

注:

由于微信不支持打开外链,“新闻来源”相关链接可请点击【阅读原文】,在“AI前线”知乎专栏中查看。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存