至顶智库 | 从苹果秋季发布会到苹果AI发展史
北京时间2024年9月10日凌晨,苹果召开一年一度的秋季新品发布会,今年以AI为亮点,吸引全球广泛关注。发布会以iPhone 16等重磅产品为核心,主打Apple Intelligence智能应用、AI芯片及全新机型。
在人工智能领域,苹果以「并购+自研」的方式,一方面收购相关的AI初创公司,另一方面自研,完成AI硬件开发到软件应用的落地。2011年以来,苹果相继推出Siri智能语音助手,Face ID人脸识别系统,苹果AI芯片等产品。2024年作为苹果在人工智能发力的关键之年,AI手机、AI应用及AI大模型成为焦点。
2024苹果秋季发布会,iPhone 16系列AI手机发布
2024年9月10日凌晨1点(北京时间),苹果召开秋季新品发布会,发布首款真正意义上的AI手机,至顶智库将重点介绍iPhone 16系列产品情况。
全新iPhone 16系列推出iPhone 16、iPhone 16 Plus、iPhone 16 Pro和iPhone 16 Pro Max四款机型,其中前两者将首发A18芯片;后两者将首发搭载A18 Pro芯片。
Pro版有两个尺寸可选,iPhone 16 Pro为6.3英寸,iPhone 16 Pro Max为6.9英寸。储存容量方面,iPhone 16 Pro 提供128GB、256GB、512GB、1TB,iPhone 16 Pro Max提供256GB、512GB、1TB。
外观设计
Siri能够以独有的方式为个人提供帮助。例如,预订航班时需要护照号码,Siri可以帮忙找到所需信息,而不会侵犯个人隐私。更丰富的语言理解和增强的语音使与Siri交流更加自然。例如,如果说话磕磕巴巴,Siri仍然知道在说什么。不确定如何在iPhone上操作,例如调整肖像的背景虚化,凭借广泛产品知识,Siri可快速为提供分步说明。
A18 Pro芯片
A18 Pro芯片搭载于iPhone 16 Pro,该芯片同样采用了第二代3nm工艺,拥有16核神经引擎,每秒可以处理35万亿次运算,速度更快且能效更高,内存带宽提升了17%;A18 Pro的6核CPU,相比A17 Pro最高提速15%,耗电减少20%,缓存比A18更大。芯片内置新一代机器学习加速器,能帮助驱动Apple Intelligence,可直接通过编程控制来实现高能效、高吞吐率、低延迟的运算;A18 Pro全新6核GPU,优化了芯片图形性能,其GPU速度最高比A17 Pro快20%。
A18芯片
照片和视频
拍摄方面,iPhone16系列在设备侧面新增了一个新的电容式“相机控制”按钮,滑动手指即可调整曝光、景深等相机功能,还能切换各个镜头或使用数码变焦取景构图。按一下启动相机 app,再按一下秒拍照片;在视频模式下,一按即可开拍视频;轻按一下可打开变焦等各种控制选项;轻按两下可切换选择其他相机设置。选好后滑动手指即可调整相应设置。
苹果AI发展史
苹果大举收购30余家AI初创公司
智能语音助手Siri
2010年2月,Siri作为一款iPhone应用程序发布,同年4月苹果在乔布斯领导下收购Siri公司。2011年10月,Siri语音助手在iPhone 4S上正式推出,成为苹果自然语言处理和语音识别领域的里程碑。Siri作为一款语音助手,可以在各类苹果设备中使用,通过Siri查询天气、查询全球城市时间、设置闹钟、查询股票信息、寻找餐厅、地图和导航、阅读和回复消息、日程安排、搜索网页、语音拨号、播放音乐等。
面部识别系统Face ID
Face ID是苹果推出的面部识别系统,于2017年9月首次搭载于iPhone X,可用于iPhone、iPad等设备解锁和支付。Face ID技术是基于PrimeSense公司之前在低成本红外深度感知方面的工作。2013年11月苹果收购PrimeSense,关键技术是通过视觉让设备获得对真实世界的三维感知能力。
苹果AI系列芯片(A系列/M系列)
除苹果A系列芯片以外,M系列芯片均采用神经网络引擎。苹果M1芯片于2020年11月发布,搭载于Mac台式机、笔记本以及iPad Pro、iPad Air,拥有160亿个晶体管,16核神经网络引擎。M2芯片于2022年6月发布,拥有200亿个晶体管,Vision Pro也搭载了M2芯片。M3芯片发布于2023年10月,搭载250亿个晶体管,16核神经网络引擎。
Apple Intelligence
2024年6月WWDC大会,苹果推出Apple Intelligence,深度集成于iOS 18、iPadOS 18和macOS Sequoia中,带来文本和图像处理、Siri智能升级等重要更新。文本处理引入新工具Writing Tools,增强用户写作能力;图像处理涵盖Image Playground、照片和视频搜索回忆等功能,发布新版Siri,与OpenAI合作将ChatGPT智能应用植入苹果手机中。
2)Image Playground:借助于Image Playground,用户可在数秒间创作出趣味图像,有动画、插画、手绘三种样式可以选择。Image Playground直接内置在信息等多款app中,也可单独进行安装和使用,适合试验不同创意和风格。所有图像均在设备端创建生成,不受图像数量限制。
3)新版Siri:在Apple Intelligence助力下,Siri与系统体验结合更加浑然一体。Siri语言理解能力提升,表现得更自然,更契合场景,更贴合用户个人需求,还能简化和加快日常任务流程。Siri能理解用户碎片化表述,还会为连续请求沿用语境场景。Siri可为用户提供设备支持,回答数千个有关如何使用iPhone、iPad和Mac的问题。
Siri具备屏幕感知能力,能够理解用户在更多app中的内容,并据其进行相应操作。例如,用户在信息app中收到朋友发来的新地址时,只需说一句“把这个地址加到他的联系人名片里”即可。
4)ChatGPT接入:Apple将ChatGPT整合至iOS 18、iPadOS 18和macOS Sequoia操作体验中,让用户能够直接使用ChatGPT的特殊功能,包括图像和文档理解能力,为用户省去切换工具时间。
Siri可根据需要直接调用ChatGPT特殊功能。征得用户同意后,才将问题发送至 ChatGPT,连同任何文档或照片,最后直接答复用户。
苹果自研AI大模型
Apple Intelligence由多个高性能的生成式模型组成,可实现写作和优化文字、对通知排序和总结、创作图片、简化跨程序交互。论文着重介绍了两个模型的构建过程:AFM-on-device和AFM-server(AFM代表苹果基础模型Apple Foundation Model)。
AFM-on-device是30亿参数的模型,可在端侧高效运行。AFM-on-device在2048块TPUv5p芯片上训练,从更大模型蒸馏和剪枝而来。
AFM-server是一个基于服务器的大语言模型,用于私有云计算。AFM-server在8192块TPUv4芯片上从头开始训练,训练数据集共6.3T token。
AFM 预训练分为三个阶段:1)核心阶段:AFM-server从头开始,AFM-on-device从更大模型蒸馏和剪枝;2)继续阶段:减少低质量网页爬取数据权重,增加代码和数学数据权重;3)上下文扩展阶段:使用更长的序列长度和合成长文本数据,以提高模型对长文本的处理能力。
后训练过程包含两个阶段:监督微调(SFT)和人类反馈强化学习(RLHF)。Apple提出两种新的训练后算法:(1)迭代教学委员会(iTeC):使用多种偏好优化算法,包括拒绝采样、直接偏好优化和在线强化学习,迭代模型。(2)在线RLHF算法:使用 Mirror Descent策略优化和 Leave-One-Out优势估计器(MDLOO)来最大化奖励,提高模型质量。
适配器架构:苹果使用LoRA适配器来针对特定任务进行模型微调。对于每项任务,研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器,基础预训练模型的原始参数保持不变,可以保留模型的一般知识,同时定制适配器以支持特定任务。
苹果AI大模型核心技术团队
Van Hoff、Giannandrea、Pang三位技术大佬在不同程度上对苹果的AI大模型发展起到重要推动作用。
Arthur Van Hoff:作为苹果大语言模型带头人,曾开发新版Siri。Van Hoff是Sun Microsystems团队的早期成员,该团队在20世纪90年代创造Java,后来Van Hoff成为知名企业家。2019年,Van Hoff加入苹果,一开始负责开发内部代号为Blackbird的新版Siri,但苹果最终放弃该项目。随后,Van Hoff的团队开始专注于大语言模型,最初的目标是开发出用于Blackbird的模型基础版本。Van Hoff团队最初只有几名成员,其中最著名的是两名专门从事自然语言处理的英国研究人员Tom Gunter和Thomas Nickson。这两名研究人员都曾在牛津大学获得高级学位,并于2016年加入苹果公司从事Siri的研发工作。
John Giannandrea:苹果大语言模型主推人。Giannandrea是前谷歌AI部门主管,在2018年加入苹果。一开始加入苹果公司是为了改进Siri,并将更多的机器学习技术融入苹果的软件中。加入苹果后,Giannandrea帮苹果公司招募到来自谷歌的关键工程师和研究人员。四年前,Giannandrea组建一个名为Foundational Models的团队来开发大语言模型,这个团队规模不大,大概有16个人。
往期回顾