只见树木,不见森林:解析2023年AI数据基础设施
为什么2023年被视为AI发展的重要转折点? 开源软件如何促进AI的发展,以及与专有软件相比有何优势? 为什么数据基础设施在AI发展中被视为核心要素,以及它是如何推动AI发展的? AI的核心要素是什么,以及这些要素之间的相互关系如何影响AI的整体发展? 随着AI的发展,对网络速度的需求是如何增长的,网络基础设施在这一过程中起到了什么关键作用? 目前生成式AI面临的主要局限是什么,这些局限是否阻碍了AI的发展,以及如何克服这些局限? 2024年及未来,AI数据基础设施将如何演变?
2023年注定是意义非凡的一年,甚至可能成为AI发展史上最为关键的时刻之一。从本质上讲,这是一个引爆点。
自2022年底OpenAI推出ChatGPT以来,其引发的连锁反应令人惊叹。短短数月间,我们看到了Meta的LLaMA 2、Google的Bard聊天机器人以及Gemini、Anthropic的Claude等项目的涌现。开源与专有软件之间的竞争愈演愈烈,甚至强大的Google也意识到原有的护城河已不复存在。然而,我们认为这对开源软件的发展是有利的。
尽管发展迅猛,但我们的视线常常被表象所蒙蔽。我们,尤其是媒体,往往只关注表象,而忽略了权重、度量、令牌和参数这些“树木”。实际上,真正的“森林”是支撑OpenAI等机构运作的数据基础设施。在年底的总结中,我们应该将焦点放在这个方面。
让我们用一些混搭的比喻来思考人工智能这杯“鸡尾酒”的核心要素:
GPU:人工智能计算的火花点主要来自GPU和其他专用的人工智能芯片,尤其是GPU。对于复杂计算和并行处理至关重要,它们是机器学习算法和深度学习神经网络的关键组成部分。
CPU与TPU:尽管CPU常常被人们所忽视,然而事实上,缺少了它们,端到端的处理过程便无法实现。在未来,它们将愈发类似于GPU(甚至可能比GPU更像CPU)。
对象存储:为人工智能系统所需的多样化数据类型提供了一种可扩展、灵活且经济高效的存储方案,并在扁平化环境中得以实施,因此成为了人工智能所常依赖的非结构化数据的优选。同时,对象存储充分利用了开发人员和机器学习从业者所熟知且钟爱的S3 API。这也是众多基础模型选择在对象存储上进行训练的重要原因之一。尽管文件系统领域的专家可能会发布众多合作伙伴关系公告,但数据科学界深知,存储的核心仍在于对象存储。
网络基础设施:在人工智能领域,网络的至关重要性常常被严重忽视。如今,对网络速度的需求日益增长。未来,双网卡100GbE可能会显得过慢。尽管如此,它仍然能够完成所需的任务。
软件和算法:尽管今年被誉为“大爆炸”的一年,但机器学习框架和库的稳步发展同样不容忽视。这涵盖了卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)、强化学习、拓扑数据分析以及自然语言处理等多项技术。它们为大型语言模型(LLM)、检索增强生成模型(RAG)以及联邦学习等前沿技术奠定了坚实基础。当然,2023年所取得的巨大进展同样不容小觑,它们为我们迈向未来铺平了道路。
大规模数据和数据集:如果说GPU是引擎的火花塞,那么数据则是人工智能和机器学习引擎的燃料。为了确保其高效运行,我们需要大量准确、纯净、具有代表性和多样性的实时数据。数据的结构化、半结构化或非结构化性质不应成为限制。此外,数据需要进行版本控制和溯源跟踪,以确保其质量和可靠性。尽管数据是至关重要的主角,但我们绝不能低估数据的路由、存储和复制管道的重要性。
安全与合规性:在其他领域,安全总是被放在首位,但在人工智能领域,我们对其重视程度却有所不足,相关讨论并不充分。不过,我们确实深入探讨了合规性问题,这主要归因于解释性和安全性的重要性。这两者不仅是关键的技术要素,更是数据基础设施不可或缺的组成部分。
我怀疑我们可能忽略了一些细节,或者可以为上述某些部分补充一些额外的内容。不过,总的来说,这已经包括了构建成功的人工智能数据基础设施所必需的关键要素。
确实,2023年的聚光灯下是LLM、RAG以及每周的新突破,然而回归最初的比喻,那些仅仅是“树木”而已。真正的“森林”,是支撑这一切的底层数据基础设施。它才是推动进展的根本动力,也将是2024年继续前行的基石。现代数据基础设施堆栈与人工智能的关系,就如同鱼与水一般,缺一不可。在可预见的未来,这种相互依存的关系仍将持续。这是一套复杂且常被低估的组件组合,它们协同工作,才能释放出人工智能的真正潜力。没有哪个模型,无论其设计得多么精妙,能够超越其数据和相关基础设施的限制。我们虽然设计了卓越的模型架构,但其完整潜力的发挥,却受限于计算、数据、网络和存储等相关因素。
现代数据基础设施极大地拓展了我们的可能性。清洁的数据管道为更多领域提供了更为准确、更少偏见的数据集,从而立即改善了下游模型的表现。同时,扩展的基础设施还通过消除数据瓶颈,为我们实现了加速实验进程的可能。
LLM的最大优势在于其被训练成理解现实世界的概率分布,更具体地说,是理解其训练数据集中的数据。然而,这同时也是其最大的弱点。LLM可以为用户的问题提供一个很好的猜测,但这仅仅是一个猜测。目前来看,生成式人工智能缺乏推理和批判性思维的能力。这意味着LLM的可靠性和基础知识完全依赖于一个因素,那就是:大规模的网络训练数据。为了处理这类数据的收集和训练工作负载,一个组织需要具备可扩展的数据基础设施。基础设施决定了数据的广度和多样性。因此,为了从当前的局限中解脱出来并实现长期的进步,改进底层数据结构将带来最广泛的影响。数据是人工智能的生命线,而基础设施则是其导航的指南。
展望2024年及未来的AI创新,我们对一个关键组件充满期待:那就是灵活的、软件驱动的对象存储。它能够以经济实惠的方式在规模上提供卓越性能,助力实现宏大的项目目标。因此,对象存储已经确立了自己在软件定义基础设施堆栈中的核心地位。从Anthropic到YOLO的生态系统中的各类应用,都在充分利用对象存储的优势。
---【本文完】---
近期受欢迎的文章:
更多交流,欢迎添加我的微信
---【下面是广告】---
闲着也是闲着,分享一些我觉得不错的东西