最聪明玻璃诞生:以光散射为核心算法,无需耗电,可识别数字
The following article is from DeepTech深科技 Author 孙滔
福利:联系扑克小公举(id:puoke002)申请成为扑克财经App智咖;关注公众号引一汪活水(id:puokebaijia)获得大宗商品/投资交易领域更多干货。
文 | 孙滔,转载自DeepTech深科技
这大概是世界上最聪明的一块玻璃,它可以用来识别数字,并且无需耗电,也不用传感器,只要光亮即可。
这个玻璃 AI 研究将人工智能嵌入了一个非计算机的物理装置中,自带科幻色彩。它能够实时区分手写数字,也就是说,一块小小的玻璃实现了传统 AI 的相机、传感器和深度神经网络的功能整合。当数字变换时,系统能及时作出反馈。
该研究来自威斯康星大学麦迪逊分校电子及计算机工程系副教授喻宗夫(ZongFu YU)团队,研究以封面形式发表在 7 月 8 日的光学期刊 Photonics Research 上。
核心算法:光的散射
光学神经计算最重要的特点是,几乎不消耗能量,且因其有内在的并行性可大大加快计算速度。与此前光学神经计算不同,喻宗夫团队的研究没有遵循数字神经网络架构,也不采用分层前馈网络,而是利用光学反射连接各个激活单元。正是这种光反射作为反馈机制,从而导致了丰富的波动结果。
这是一种无需分层的连续人工神经计算系统。这套系统利用了特意嵌入玻璃中的石墨烯和小气泡。当目标图像的光线穿过玻璃 AI 时,其路径就会被这些气泡和石墨烯反射或折射而造成弯曲,弯曲后的光线会聚焦到玻璃另一侧 10 个点中的某个点上。
图丨玻璃 AI 的原理。(a)传统的人工神经网络架构,其中信息只能向前传播; (b)玻璃 AI 系统的光学神经网络,采用通过具有线性和非线性散射体的光进行神经计算。(来源:喻宗夫)
这 10 个点对应了从 0 到 9 这 10 个数字。就像一把钥匙开一把锁,如果某个数字的光线没有对焦到相应的数字,研究者就调整系统中的杂质大小和位置。研究者对此进行了成千上万次训练,最终玻璃 AI 学会了精确的数字对应。即使手写数字风格不同,这套系统也能准确聚焦、识别。
这是一种以简单结构获得复杂行为表现的研究。在机器学习的过程中,研究人员训练的是物理材料,而不是数字代码。也就是说,光传播的波动力学实现了人工神经计算的功能。相对于数字计算,这是颠覆性的观念。
研究人员认为,这套系统在现实中的应用还不确定,但理论上可以制作成生物识别锁,进行人脸识别。只是这个系统还缺乏计算上的灵活性,以及面对多线程或不同的任务。
显然,这个玻璃 AI 看起来和我们此前认识的 AI 系统不一样,它为何会被称为 AI 系统?这个系统有人脸识别的潜力吗?研究者下一步会如何开发这个系统?带着诸多问题,DeepTech 专访了作者喻宗夫。
模糊识别很难,是 AI 的体现
DeepTech:能不能介绍你们课题组的工作内容以及你们的研究目标?利用光来做 AI 系统,这个思路是怎么产生的?
喻宗夫:我们希望在纳米光学技术和机器学习的交叉口创新,希望对光敏材料、传感器件、光学成像系统和机器学习全栈优化。以前硬件和软件的研究比较分立,我们希望把软硬件看作一个整体,以具体应用为目标导向,从新整体考虑视觉感知。在这个大方向下面,我们组成员们展开思路,不拘泥于现有光感、成像、识别的架构体系,于是 Erfan 和其他组员就想出了这个点子。
DeepTech:与其他的光计算相比,你们这个研究是怎样的特点?
喻宗夫:以前的光计算本质上还是数字计算,只是把电子换成了光子,从电路改成了光路。用光作为载体来计算有几十年历史了,这次我们利用的是结构材料本身特性。
首先第一点,我们的玻璃 AI 不存在以前神经网络的分层概念,它整个就是一体化的。另外,我们整个优化方法的过程也不是按照模拟数字神经网络的思路,而是优化麦克斯韦方程,去控制光的物理散射过程。
从实现的结果上来说更不一样。就是说我这个装置可以做得非常小,也不需要用任何能量,因为以前的结构需要分层,体积和能耗就比较大。
DeepTech:这个玻璃 AI 看起来和我们此前认识的 AI 系统不一样,它为何会被称为 AI 系统?能不能说,这只是一套数字密码系统?
喻宗夫:模式识别是典型的 AI 应用。这和密码系统完全相反,我们需要这个玻璃有很大的容错性:一个数字谁来写,都要认出来,这种模糊识别很难,是 AI 的体现。相反,密码则要一个比特也不能差,却容易实现多了。
DeepTech:这个 AI 系统与计算机是什么关系呢?该系统的训练学习过程是一个调整玻璃内石墨烯杂质的过程,而不是其他 AI 系统那样在计算机输入数据、在终端输出结果那样的过程,对吗?
喻宗夫:光在玻璃里面传播就是一个偏微分方程控制的波动过程,而神经网络和偏微分方程有很大的相似性。我们利用这种相似性,以波动方程为载体实现神经网络的计算效果。
光打到玻璃里的小孔上,就会被散射开。小孔就像数字神经网络里的节点,它们把输入混合起来,产生输出。我们这个训练过程,就要去做和神经网络一样的梯度下降,去调整玻璃里面的小孔和非线性材料的位置与大小。
DeepTech:这个思路很出奇,做出这样的系统需要哪些研究基础呢?
喻宗夫:其实做这个事情需要很多领域的配合。我们不是仅仅把数字改换成光子,我们还要去解电磁场方程。所以对机器学习、电磁场方程这两块领域都要熟悉。我们希望在这个交叉领域继续研究创新。
DeepTech:似乎这个 AI 系统不需要那么巨量规模的训练,是这样理解吗?
喻宗夫:不是,我们也需要很多训练。因为这个是在电磁场介质里面传播,我们要仿真整个电磁场传播的过程,然后在这个基础上要对偏微分方程整体做优化,所以计算量其实是非常大的。我们用的是机器学习的方法,但解的是电磁场的优化问题,所以这两块结合起来很有挑战,需要从头写整个训练工具。
视频 | 玻璃 AI 的二维图像识别(来源:喻宗夫)
视频 | 玻璃 AI 的三维图像识别(来源:喻宗夫)
一个新的概念
DeepTech:这个研究是一个怎么定位?是技术的突破,还是说创造了一个新的工具?
喻宗夫:我觉得这是一种新的概念。我们是用玻璃本身来实现人工智能的计算,而以前的人工智能都是用计算机完成的,那么现在是利用非数字模拟的物理作用就可以实现这件事情,所以说在这方面是一个突破。如此引申的话,很多其他物理作业比如声波也可以这样操作。
DeepTech:能说这是一个计算机吗?
喻宗夫:对。通用的计算机可以做很多事情,我们这个系统只能做一件事情,所以在这一点上它跟计算机是有差别的。但是目前来说,计算机的发展也渐渐地趋向于只做一件事情。比如说挖比特币的矿机。
我觉得,这个不是为了取代已有的图像识别系统,更多的可能是一些更广阔、以前没有应用的方式。比如说,虽然说我们现在有了数字锁,但是没电或者断网就不能用。我们这个人脸识别锁就像传统物理锁,只要有钥匙它就一直可以用。
所以可能是在这种更加特殊的时候,如果你担心 AI 系统被攻击的话,那么这个系统完全没有可能从外界去攻击或干扰,它对安全性很有保障。
DeepTech:除了数字识别,这个系统如果用来开发人脸识别的话,还需要做哪些工作?以及其挑战有多大?
喻宗夫:人脸识别在概念上的可行性已经可以通过现在的工作证明。人脸识别的应用需要不少工程工作,可能超出一个学术问题了。比如训练的样本的光场建模需要大量的计算。
DeepTech:你们下一步会如何开发这个系统?这个系统将来如何能便捷应用到普通民众中,能成为一款便携式的智能产品吗?
喻宗夫:这个概念为我们自己打开了一个思路:不一定要有数字和芯片才能智能。智能可以无所不在,我们称之为物理驱动智能。我们今天证明玻璃可以识别图像,就是麦克斯韦电磁场定律赋予的。还有很多物品可以利用物理定律的来智能化。
数字芯片是人类的智能产品,物理定律的智能产品一定更广阔。我们觉得利用物理来做智能计算很有意思,而且有广泛的应用价值。
专家点评:
阮智超(浙江大学物理学系教授):本研究原创性较高,与 2018 年一篇 Science 研究有异曲同工之妙,后者创造了一种 3D 打印的全光学衍射深度神经网络架构。在喻宗夫研究中,如要应用到如人脸识别等复杂场景,需要进行复杂的调参,这对于这种玻璃 AI 装置有挑战性。
喻宗夫简介:
喻宗夫(ZongFu YU),威斯康星大学麦迪逊分校电子及计算机工程系副教授。2004 年本科毕业于中国科学技术大学物理学系,博士毕业于美国斯坦福大学,主要研究领域是微纳光子学、机器视觉和新能源。他是非互易纳米光子学开创人之一,提出了纳米太阳能电池的效率理论,并开发了多模视觉相机,应用于下一代的机器视觉。
(感谢清华大学计算机系自然语言处理实验室副教授刘知远对本文提出意见。)
-End-
参考:
https://www.osapublishing.org/prj/abstract.cfm?uri=prj-7-8-823
https://www.newscientist.com/article/2208975-ai-made-from-a-sheet-of-glass-can-recognise-numbers-just-by-looking/
https://news.wisc.edu/simple-smart-glass-reveals-the-future-of-artificial-vision/
福利一:联系扑克小公举(id:puoke002)申请成为扑克财经App智咖;
福利二:关注公众号引一汪活水(id:puokebaijia)获得大宗商品/投资交易领域更多干货。
福利三:后台回复关键词百科,使用一站式大宗金融百科搜索引擎。
【扑克财经APP爆款圈子大合集】
国内顶级投资大咖、资深产业专家、一线基金经理、顶级咨询机构合作的重磅投研策略产品,价值千万;
这是一份不可错过的投研伴侣,
已服务1000+产业/机构/投资者;
这是一个属于你的专属研究院,
让你站在巨人的肩膀上看世界,
站在大咖的投研成果上做投资!
为什么要加入顶级投研圈子?
这是和国内顶级投资大咖、资深产业专家、一线基金经理、顶级咨询机构合作的
重磅投研策略产品,价值千万;
这是一份不可错过的投研伴侣,已服务2000+产业/机构/投资者;
这是一个属于你的专属顶级研究院,
让你站在巨人的肩膀上看世界,站在大咖的投研成果上做投资!
超低成本构建你的顶级研究院,
让大佬们一起帮你解决产业决策和投资交易难题
找到一个顶级分析师要多少成本?
构建一个全是顶级分析师、资深产业大佬和一线投资大咖的投资顾问团队要多少成本?
订阅扑克投研圈子,超低成本享受千万级研究和策略服务。
我们的优势
最顶级的智咖资源
汇聚2000+产业、研究、投资领域最顶级的投研大咖。
最全面的领域体系
覆盖投资交易、黑色建材、能源化工、有色金属、农副产品、宏观六大领域的精品圈子。
最实战的策略指导
全面及时的信息、系统完善的分析、具体实战的策略,每个圈子都给你不一样的精彩。
以下是详细圈子列表,
长按识别二维码可直接订阅
投资交易(多品种)
【投资交易】张庭伟“知行合一”期货交易顶级实战圈(圈主:张庭伟)
推荐语:热销400+万,复购率80%以上,一线机构投资人的真实实战分享,圈友评价至少价值10万,圈友中高手如云(产业链企业和金融机构高管、投资总监、基金经理占比过半)。
扫码订阅
【投资交易】扑克-帕丁顿宏观对冲交易策略圈(圈主:帕丁顿宏观)
推荐语:深度利用资产市场的宏观属性,对横跨各资产类别的交易标的进行精细的收益风险标刻,通过简洁、易读、可执行的策略报告为载体为客户投资和交易提供决策支持。
扫码订阅
【投资交易】投机情报院(圈主:情报院院长)
推荐语:专注于技术分析研究,核心成员均任职于海外投行交易部门,筛选出短线市场机会,并通过通俗易懂的策略报告及时为客户提供交易决策支持。
扫码订阅
农副产品
【棉花棉纱】棉花产业分析和投资实战圈(圈主:刘鑫)
推荐语:一线棉花大咖的高频产业信息和精准实战策略分享,善于站在宏观的高度,将产业思维和金融思维相结合,精准把握棉花单边、套利和点价机会。
扫码订阅
【油脂油料】油脂油料研投圈(圈主:朱奇)
推荐语:立足油脂油料全球市场,高频深度分享及时资讯、深度分析、实战策略和系统商品投研方法论,通过策略优化对冲组合,把握更多盈利。
扫码订阅
能源化工
【甲醇】甲醇投研图表平台(圈主:贾瑞斌)
推荐语:具备业界顶尖的在线甲醇基本面数据库(百万级数据量),基本面策略回测与优化技术可以为交易提供更详实、可靠的策略建议,让圈内成员交易更轻松。
扫码订阅
【聚烯烃】范羽的聚烯烃圈(圈主:范羽)
推荐语:聚烯烃产业链和基本面深度分析,从基差出发,通过基差分析准确判断趋势行情,有效把握主要行情节点,为实际投资提供行之有效的交易指导。
扫码订阅
【橡胶】颜冬(东荪)橡胶圈(圈主:颜冬)
推荐语:橡胶基本面深度分析,短中长期供需解读、供需矛盾挖掘、事件推演,把握宏观+基本面+技术+风控策略相结合的交易机会。
扫码订阅
黑色建材
【黑色建材】刘源•熵研-黑色钢铁量化研究圈(圈主:刘源)
推荐语:擅长从产业供需基本面来发现市场的主要矛盾、行情逻辑驱动力等,以翔实的研究数据进行逻辑推演,发现市场中的趋势和套利机会。
扫码订阅
【焦煤焦炭】兰工双焦圈
推荐语:深耕双焦20年,用1年时间将经验心得、研究方法和市场研判与你倾囊相授,近几年来多次准确预测双焦大行情,擅长发现月间价差、跨品种套利机会和期限套利机会。
扫码订阅
宏观
【宏观】莫尼塔宏观策略研究圈(圈主:财新智库莫尼塔研究)
推荐语:独立、客观、深度的第三方研究机构,“宏观政策、市场策略、草根调研、海外研究”四大产品线帮你彻底读懂宏观和把握宏观下的投资机会。
扫码订阅
郑重推荐:以上圈子都是和国内顶级投资大咖、资深产业专家、一线基金经理、顶级咨询机构合作的重磅投研策略产品,价值千万,我们用最优惠的价格提供给你,订阅这些产品相当于超低成本拥有了自己的顶级专属研究院,真诚推荐给你!
爆款圈子热销进行中,可以直接扫码购买或点击阅读原文进入扑克财经App圈子版块查看详情。