40岁高中老师开源的数据集LAION,改变了生成式AI的未来丨智源大会嘉宾风采
导读
如今,拥有超过50亿个图文对的 LAION数据集已经成为生成式AI未来的中心ーー而随之而来的关于如何监管人工智能的争论也日益激烈。
在德国北部城市汉堡郊区的一栋房屋前,一个信箱上用铅笔潦草地写着一个单词——“ LAION”。这唯一的记号表明,这栋房子属于一个特殊的人。正是他,在人工智能繁荣时期在数据收集方面做出了巨大的努力,引起了全世界的关注。这个人就是来自德国的高中老师Christoph Schuhmann,LAION(Large-scale AI Open Network,“大规模人工智能开放网络”的简称)正是他热衷的项目。近期,Schuhmann接受了美国彭博社的采访,谈到了他关于开放数据集的观点。智源社区对采访进行了不改变原意的编译。
Christoph Schuhmann
LAION组织者和创始人,在维也纳大学获得计算机科学与物理学学位。 此前曾在维也纳演员工作室学习方法派表演。他是著名开源社区LAION(代表作是赫赫有名的数据集LAION-5B)的组织者,近期开源Open Assistant。
LAION
LAION是一个拥有全球成员的非营利组织,旨在向公众提供大规模的机器学习模型、数据集和相关代码来解放机器学习研究。团队著名研究成果LAION-5B是为AI图像生成发展做出巨大贡献的超大数据集。今年4月,LAION 发布了世界最大 ChatGPT 开源平替——OpenAssistant,它一个基于聊天的开源助手,旨在为开发者提供一个可以轻松与第三方应用程序接口、数据库和互联网进行交互的大型语言模型。通过对Open Assistant的定制和修改,开发者可以更便捷地从各种来源获取所需信息,提高工作效率。
要点速览
◆ 如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。
◆ 一开始我非常怀疑Emad的动机,但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。
◆ 任何互联网上免费的东西都是公平竞争。
◆ 相比于图像中涉及的偏见问题,我更关心让数据“获得自由”。
◆ 如果我们试图放慢速度并过度监管,最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。
一万美元的捐赠,让数据“获得自由”
数据就是新石油,任何互联网上免费的东西都是公平竞争?
过度监管会带来危险
更多内容 尽在智源社区