其他
人工智能数据困境:如何克服信息超载
障碍 | 不足之处 | 困难 |
50% 管理与 AI 相关的风险 | 50% 执行承诺 | 46% 将 AI 集成到日常运营和工作流程中 |
42% 实施人工智能技术 | 50% 首次启动后保持或持续支持 | 44% 与其他组织/业务系统集成 |
40% 证明商业价值 | 44% 支持采用的培训 | 44% AI解决方案过于复杂或难以最终用户采用 |
44% 获取训练模型所需的数据或输入 | 42% AI 开发人员与业务需求/问题/需求/使命之间的一致性 | 42% 确定具有最大业务价值的用例 |
41% 技术技能 | 38% 选择正确的 AI 技术 | |
38% 用于人工智能技术和解决方案的资金 |
存储。存储 I/O(输入/输出)性能对于 AI 工作流至关重要,尤其是在数据采集、预处理和模型训练阶段。从不同来源读取数据并将其传输到存储介质的速度进一步实现了差异化的性能。存储吞吐量对于防止 GPU 等待 I/O 至关重要。请注意,AI 训练(耗时)和推理(I/O 繁重且延迟敏感)对 I/O 的处理和存储访问行为有不同的要求。对于大多数企业来说,本地NVMe + BLOB是这里最好,最具成本效益的选择。如果没有足够的本地 NVMe SSD 容量,或者 AI 需要高性能共享文件系统,请考虑使用 Azure Managed Lustre 和 Azure NetApp 文件。如果 I/O 模式需要非常低延迟的共享文件系统,请选择 Azure NetApp Files 而不是 Azure Managed Lustre。 联网。优化数据可访问性和移动的另一个高影响领域是存储和计算之间的关键链接和传输路径。这里的交通堵塞是灾难性的。像InfiniBand这样的高带宽和低延迟网络对于实现大规模训练至关重要。这对于大型语言模型 (LLM) 深度学习尤其重要,其中性能通常受到网络通信的限制。 当利用多个 GPU 加速服务器在大型 AI 工作负载上进行协作时,GPU 之间的通信模式可分为点对点或集体通信。发送方和接收方之间的整个系统中可能会同时发生许多点对点通信,如果数据可以在“高速公路”上快速传输并避免拥塞,这将有所帮助。一般来说,集体通信是一组进程参与的模式,例如广播或缩减操作。大容量集合操作存在于AI算法中,这意味着智能通信软件必须通过采取最快,最短的路径和最小化带宽来将数据传输到多个GPU并在集体操作期间重复。这是像NCCL(NVIDIA集体通信库)这样的通信加速库的工作,它广泛存在于深度学习框架中,用于高效的神经网络训练。 高带宽网络优化了网络基础设施,允许在一个跃点或更少的跳中进行多节点通信。由于许多数据分析算法使用集合运算,因此使用网络内计算可以使网络带宽效率翻倍。为每个 GPU 配备一个用于网络基础设施的高速网络适配器可以让 AI 工作负载(想想推荐引擎等依赖于数据的大型模型)高效扩展,并允许 GPU 协同工作。 相邻技术。除了建立强大的基础设施来支持将数据与 AI 一起使用的端到端生命周期之外,医疗保健和金融等受监管行业还面临着加速采用的另一个障碍。他们训练 AI/ML 模型所需的数据通常是敏感的,并受到一套快速发展的保护和隐私法律(GDPR、HIPAA、CCPA 等)的约束。机密计算可在计算过程中保护使用中的数据和 AI/ML 模型。这种防止未经授权的访问的能力有助于确保合规性,并解锁大量以前被认为风险太大的基于云的 AI 用例。