具身智能专题研究：解耦还是耦合？从AI化到工程化！

文琳行业研究 2024-04-11

（报告出品方：申万宏源研究）

1、产业链图理解传感器+大模型+具身智能

1.1 从框图开始理解具身智能 AI

它尤其适用于描述 L2-L3-L4 自动驾驶的智能化处理方式。而自动驾驶是“具身智能” 重要落地场景。最上面是“传感后融合“，传感器数据处理后再融合、预测、决策、控制。中间是“传感前融合“，即数据先同步和融合后，再预测、决策、控制。下面近似为“端到端”，大大增加了预测、规划、控制的数据处理。如果这个问题扩张到更大的范畴，例如增加 AI 推理+理解+运动，把机器人也绘制进去，就得到下面的“具身智能产业链图”。

1.2 传感器：机器人传感器

值得一提的是， 2020-2022 年是智能汽车传感器获得高关注的阶段，尤其“硬件预埋”趋势下。2022-2023 年是机器人传感器获得高关注的阶段。

1.3 AI 3D 视觉：NeRF，三维重建新范式

NeRF，即 Neural Radiance Fields（神经辐射场)。其通俗理解：给予海量不同视角的二维图，合成同一场景不同视角下的图像。还可以通俗理解为 X-Y-Z 到三维极坐标的转化，第三视角到第一视角的转化。NeRF 提出的隐式表达以空间点的坐标和观察者的视角、位置作为输入，输出则是点的 RGB 信息和占用密度。占用密度这一点与占用函数相似，但没有像占用函数那样粗暴地用 0 和 1 表示一个点是否被占用，而是用 0~1 之间的数字表示点被占用的程度这样可以大幅减少计算量。

辐射场：如果我们从一个角度向一个静态空间发射一条射线，我们可以查询到这条射线在空间中每个点（x,y,z）的密度 ρ ，以及该位置在射线角度 (θ, φ) 下呈现出来的颜色 c （ c=(R,G,B) ）。即 F(x,y,z, θ, φ)→(R,G,B, ρ) 。密度是用来计算权重的，对点上的颜色做加权求和就可以呈现像素颜色。给定 F(x,y,z, θ, φ)直接查表获得 RGB 值和密度，给体渲染方法。体渲染：对上述辐射场的密度和颜色做积分，就可以得到像素的颜色，并遍历所有像素，这个视角下的图像就渲染出来了。

1.4 AI 3D 感知：BEV，可用于具身智能感知

BEV 鸟瞰图。BEV 的全称是 Bird’s eye view（鸟瞰图），我们以特斯拉为例：特斯拉车型使用多个摄像头采集图像，并进行有效的融合。系统直接通过将所有摄像头采集图像通过矫正后，统一输入到神经网络来提取特征。然后利用大模型的 Transformer，将这些特征进行关联，之后再投影到一个向量空间之中。BEV 的通俗理解：把不同视角的观察合成一个“天眼模式”整体图，了解全局。尤其图像是 2D 传感，通过连续序列，恢复出 3D 信息。

这种方式的优点有：减少硬件传感器、提高纯视觉精度、可复用多种数据源（甚至多模态），缺点是成本高。1）这种鸟瞰图仿佛就是开了一个整体视角，让车辆能够把近处的感知统一放到一个平面中，尽可能的增大了感知的范围和冗余度。2）但缺点是成本，2023 年，如果要做 BEV 的城市辅助驾驶，可能需要投入超过百亿元。3）BEV 可以结合国内的传感器优势。尽管国外通常利于 AI 软件优化智能驾驶，国内通常利用激光雷达等传感器优化智能驾驶，但 BEV 可以融合激光雷达的点云，做到尽量统一。下图就是一个案例：主要有两个分支将点云数据转换为 BEV 表示。上分支提取 3D 空间中的点云特征，提供更准确的检测结果。下分支提取 2D 空间中的 BEV 特征（原始点云转换），提供更高效的网络。

1.5 AI 3D 感知：占用网络

占用网络 Occupancy Network。Tesla 在 2022 年 10 月的 AI Day 中展现了 Occupancy Network 感知技术。基本的思想是将三维空间划分成体素（voxel），通过 0/1 赋值对 voxel 进行二分类：有物体的 voxel 赋值为 1，表示 voxel 被物体占据；没有物体的 voxel 被赋值为 0。当然实际中的赋值可以是概率值，表示 voxel 存在物体的概率，这个概率也可以理解成密度或者透明度。Occupancy Network 的通俗理解：两维的鸟瞰 BEV，变为三维的鸟瞰。而增加运动序列预测。Voxel 的使用：1）voxel 其实是计算机图形学和计算机视觉中早期使用的三维重建表达方式，主要用于一些对精度要求不是很高的场景进行三维建模。2）Voxel 的属性除了是否被占据，还包含语义信息和速度信息（Occupancy Flow）等。其中速度信息是一个三维向量，用于表述 voxel 运动的速度和方向，类似于 2D 图像中的光流（Optical Flow）。这可以用于判断物体是否运动。Occupancy 和 Occupancy Flow 都是底层层次信息，非常适合表示非刚体(non-rigid)场景。3）一个应用领域是汽车 AI，还一个领域是 CT 医学图像。Voxel 的表达方法存在分辨率、内存占用大、渲染效率的问题，在三维重建领域早已经被 mesh 所取代。但近些年来，随着深度学习在三维重建领域中的兴起，voxel 的重建方案重新兴起（以上来自《自动驾驶之心》2023 年 1 月观点）。

在恢复空间特征后，融合、恢复高分辨率、复杂输出是关键。特斯拉采用暂时对齐（Temporal Alignment）将不同时序的特征，对齐后融合。进而采用反卷积上采样，恢复高分辨率。毕竟是分割 3D 空间的每个 voxel, 信息量更加稠密，低分辨率可能会导致性能受限。接下来就是占用网络的预测输出（Volume Outputs）。后面则可以做更多高级语义非任务和输出（比如：Occupancy Flow, Semantic，Shape，Road Surface 等）。可以根据特斯拉在 CVPR2022 workshop 的演讲、特斯拉历次 AI 发布会的披露，了解细节。占用网络有双重监督信号。第一是直接占用值的监督，第二是 NeRF 渲染的监督。智能汽车软件进步还包括端到端能力、多模态、大模型规控算法等。2023 年 5 月，特斯拉推出 FSD v1.4，要现 FSD 端到端能力，即包含高速领航、城市道路领航和泊车的智驾功能。2023 年 6 月，多模态神经网络可能成为后续特斯拉亮点，如摄像视频、地图、导航、 IMU（惯性测量单元）、GPS 等。虽然国内的传感器方案较为领先，预计会越来越多的借鉴 Transformer、BEV、占用网络等技术。2023 年 6 月，理想汽车家庭科技日的发布，可以作为国内汽车大模型发展的缩影: 1）AD Max 3.0 基于 BEV 架构的车端感知模型已经可以在绝大多数路段实时生成稳定的道路结构信息，奠定摆脱高精地图依赖的基础。2)不止感知算法层面，规控算法也使用了大模型技术。3）其 NOA 技术架构特点可以理解为：使用 NPN 特征和 TIN 网络增强 BEV 大模型，做到不依赖高精地图，识别万物；使用模仿学习让规控算法做出更加拟人的决策；全自动、全闭环的训练平台支撑大模型持续进化。

1.6 从 AI 感知，到端到端+具身智能（感知+预测+推理+理解+运动）

2023 年 6 月，《Planning-oriented Autonomous Driving》（以路径规划为导向的自动驾驶）获得本届 CVPR2023 年最佳论文奖（Best Paper Award），其涉及的是自动驾驶大模型，很多思路可以同时用于未来智联汽车、具身智能机器人。而上述难点 1）识别控制相关软件、2）基于感知的运动、5）学习与控制交叉，也在本篇论文的思路中有所涉及。从分块优化，变成一体化 AI 优化，即“端到端”。在过去自动驾驶 AI 中，一般将认为划分为多模块，例如感知、预测、路径规划等。论文提出的“端到端”，即一体化训练、一体化 AI（论文提出 Unified Autonomous Driving，即 UniAD）。它把感知、预测、规划等三大类主任务、多种子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的端到端网络框架下。

例如：1）在 backbone 环节，特征提取，其中涉及 BEV 和多模态等大模型技术。将一系列多相机图像输入特征提取器，并将生成的特征通过 BEVFormer 中的现成 BEV 编码器转换为统一鸟瞰图 (BEV) 特征。UniAD 并不局限于特定的 BEV 编码器，并且可以利用其他替代方案通过长期时间融合或多模态融合来提取更丰富的 BEV 表示。2）在感知环节，目标检测与跟踪模块可以实现对动态元素的特征提取、帧间物体跟踪。检测和跟踪 agents。MapFormer 将 map queries 作为道路元素（例如，车道和分隔线）的语义抽象(semantic abstractions)，并对地图进行全景分割。3）预测模块，实现动静态元素交互与长时序轨迹预测，而且已经有“联合训练 AI”。占据栅格预测模块实现了短时序全场景 BEV、实例级预测。由于每个单元的动作都会显着影响场景中的其他，因此该模块对所有考虑的单元进行联合预测。4）在规划模块，基于轨迹预测，做防碰撞，其中涉及占用网络（Occupancy network）等大模型技术。基于自身的轨迹预测和基于占据栅格的碰撞优化并使自己远离 OccFormer 预测的占用区域(occupied regions)以避免碰撞。

此前，端对端 AI 训练很容易出现的问题是：由于涉及环节太多、系统太复杂，很容易出现“局部最优”和“梯度下降”问题。我们本来以为会用残差网络（ResNet）增加反馈参数，来帮助自动驾驶大模型的训练。而论文提出的“联合训练 AI”，即预测联合训练、预测规划一体训练，实现了“类似全局优化”，而“子任务”的引入也细化了环节。这篇论文的趋势可能会改变具身智能（智联汽车+机器人+智能家居）的 AI 软件训练方式：尝试端对端，并用一系列联合训练，来防止局部最优，达到更好的效果。

1.7 具身智能：AI 推理+理解，例如谷歌+微软等

作为科技巨头，微软的 chatGPT 也在努力渗透硬件载体，例如机器人软件领域。而这些，恰恰将 AI 从感知，推进到推理和理解范畴。ChatGPT 在人机交互的 4 大潜在应用。

1）Zero-shot task planning。根据自然语言指令，生成适用于不同机器人平台和任务的代码，无需任何预先训练或微调。这种能力可以让用户快速地探索不同的机器人方案，而不需要了解底层的编程细节。场景：机械臂操作、无人机导航、家庭助理机器人等。优点：可以实现跨平台、跨任务的机器人控制缺点：可能存在代码错误或效率低下的风险。

2）User on the loop

交互式对话，以解决复杂的机器人任务，例如需要多步骤或多个目标的任务。用户可以通过对话提供高层次的反馈、指导或修改指令，而 ChatGPT 可以根据用户的意图和上下文调整代码或行为。这种能力可以让用户更灵活地控制机器人，而不需要一次性给出完整的指令。

场景：机器人协作、机器人教学、机器人规划等。优点：可以提高机器人任务的成功率和鲁棒性。缺点：可能需要更多的对话轮次或用户干预。

3）Perception-action loops

ChatGPT 可以利用视觉信息来指导机器人的动作，例如识别物体、估计距离、规避障碍等。可以通过 XML 标签或其他格式来接收和处理图像数据，并生成相应的代码或动作序列。这种能力可以让机器人更好地适应复杂和动态的环境，而不需要预先定义所有可能的情况。适用场景包括机器人导航、机器人抓取、机器人搜索等。优点是可以增强机器人的感知和决策能力。缺点是可能存在视觉误识别或动作不准确的风险。

4） Reasoning and common-sense robotics tasks

ChatGPT 可以利用常识知识和推理能力来解决一些需要逻辑、几何或数学思维的机器人任务，例如计算角度、判断方向、选择最优路径等。ChatGPT 可以通过自然语言或数学表达式来表达和解决这些问题，并生成相应的代码或动作序列。这种能力可以让机器人更智能地执行一些抽象或难以描述的任务，而不需要用户提供过多的细节。适用场景包括机器人推理、机器人游戏、机器人创造等。优点是可以拓展机器人的应用范围和难度。缺点是可能存在常识错误或推理失败的风险。

谷歌的 PaLM-E 会利于具身智能（Embodied AI）的发展。一方面，具身智能主要涉及机器人的感知、规划、控制、导航等上层部分。另一方面，具身 AI 不再像传统 AI 仅从图像、视频、文本等数据库中学习，而是基于自身传感器（多是视觉传感器）感知环境并通过与环境交互进行学习。大模型 AI 发展后，其对具身智能的提升至少包括：1）通过抽象的自然语言直接对机械智能控制。2）Zero shot 下的 CV 能力：图像分类、语义分割、目标检测、实例分割、物体追踪。3）更多跨模态的理解能力。其中，PaLM-E 目前一大特色就是跨模态。PaLM-E (562 Billion parameters) = PalM (540B) + ViT (Vision Transformer, 22B)。它本身是个多模态的大模型，不仅能理解文本，还能理解图片（因为加了 ViT），可以理解图片中的语义信息。Few-shot prompt 可以看懂笑话（左上角），zero-shot 可以具有图文思维链。

1.8 具身智能：AI 理解+运动

上述微软、谷歌等AI 功能，似乎和运动执行、路径规划等更加聚焦的智能关联度低，而以 UCLA 论文《Design of a Highly Dynamic Humanoid Robot》、《Development and Real-Time Optimization-based Control of a Full-sized Humanoid for Dynamic Walking and Running》为例，涉及这些软件较为深入。这些会启发我们 2023H2 甚至未来多年，机器人软件、AI 大模型的一些趋势。计算单元分为控制安全接口、控制接口、摄像感知接口、硬件接口等，均涉及软件。

它们对 AI 机器人软件的涉及包括：1）稳定性问题，可以归纳为识别、控制相关软件。ARTEMIS 的最初动机是一个可以进行超动态运动的平台。本论文侧重于这项努力的第一步，有力地行走和奔跑的能力。后续希望满足跳跃/转身等复杂问题，需要做一些延展。例如：其一为推广运动生成流水线，使其不需要专家知识和平台经验（可以归纳为 zero-shot 经验的运动生成），其二为提高稳定性的软件（跟踪潜在复杂和快速变化的鲁棒控制器）。2）路径规划。当前已经有一定“泛化”能力，希望后续发展身体控制/路径规划/跨平台运动（没有感知数据、地面上存在重大障碍物时，ARTEMIS 也能够保持平衡并在遇到意外时避免掉落。这是因为 ARTEMIS 的运动堆栈的反应性质）。但下一步可以在没有运算指引的情况下，通过身体控制、路径规划等，实现高效的运动(ARTEMIS 可以稳健地从 A 点移动到 B 点，但走哪条路仍然是一个未完成的任务)。如果这样做成，不仅限于 ARTEMIS，还为混合系统的路径规划领域开辟路径。3）基于感知的运动，下一步有两个路径，一个是多步骤足迹规划，一个是状态估计。当前基于环境的运动有一定进展。当前先感知数据，以告知机器人脚可以定位的安全区域，这可以从头部的立体相机或位于其身体的两个立体相机获得。感知数据可用后，下一个挑战是呆在安全区域。一个解决方法是，更长的足迹规划；另一个解决方法是，态估计。目前机器人浮动底座的位置状态不可观察，导致坐标系漂移。若将感知数据与定位上下文中的状态估计结合，则所有状态都变得可观察。

尽管这是当前领先的设计，但也做出下一步机器人软件发展的趋势展望：4）把物理接触建模，在抓取/碰撞等任务中，问题会放大。工作控制器中，模拟建模和实际物理情况，经常有差距。模拟与现实之间的差距经常在学习社区中讨论，但在机器人技术中却很少被强调。这个问题可能会在碰撞检查很重要的其他机器人领域反复出现，例如灵巧操作和抓取领域。5）学习与控制交叉口。硬件上做上述测试，成本太高。在考虑鲁棒性或随机性的作品，但另一种方法可能是在管道中采用基于机器学习 AI 的方法。而且可以推测，一旦 AI 训练资源足够，很可能后续的动作会更加多样。因为论文提到， “模型相关的计算负担，模型中的非线性通常会禁止它们在在线规划和控制中的使用” （“Additionally, nonlinearities in the models often prohibit their usage in online planning and control because of the computational burden associated with them“）。6）人机交互（HRI）。ARTEMIS 也可以成为一个有趣的平台，可用于探讨超动态运动以外的主题，其中之一就是人机交互。7）合成运动，也就是连续运动反映的意图和情绪。运动发生的规模和速度可以暗示接下来的运动是什么。此外，运动的空间和时间方面的差异也可以表示情绪和意图。而其中 1）识别控制相关软件、2）基于感知的运动、5）学习与控制交叉，正是下一章节论文涉及的。

1.9 具身智能的零样本尝试：如李飞飞 VoxPoser

解决需要预定义动作、机器无法直接被 LLM（大语言模型）操控问题。2023 年 7 月《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》中，指出：1）很多训练需要预训练、预定义。大语言模型 LLM 虽然取得了进展，但大多数人仍然依赖预定义的动作原语来与环境进行物理交互，这仍然是一个主要瓶颈。2）大语言模型直接输出控制不可行。文本通常由高维空间中的高频控制信号驱动，而机器人运动无法直接达到高维高频率。本论文的解决思路是利用 LLM 的优点。LLM 在自由形式语言教学中，擅长推断可能性和约束条件。而且，通过 LLM 可以具备代码编写能力。代码能力可以与视觉语言模型（VLM）交互，以组成 3D 价值图，将知识根植于观察空间。然后将组合的值映射为机器人的轨迹（专业说法是，基于模型的、零样本、具有动态扰动鲁棒性的闭环机器人轨迹）。论文将这种方法称为VOXPOSER。这是一种从LLM中提取可能性和约束的公式，用于在 3D 观察空间中组成体素（Voxel1）值图，以引导机器人与环境交互。具体来看：1) 从指令语言中，输出语言的可供性和约束；2) 转化成 PYTHON 代码；3) 代码调用 API；4) API 操纵 3D 体素（Voxel）；5）AI 的奖励机制（正文指出，有效地提供观察空间中的“密集奖励”，能够在每一步都重新规划）训练动作；6）路径规划期目标函数，并合成路径。

1.10 具身智能的泛化尝试：谷歌 RT1、RT2

我们分析了 2022 年 12 月《RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE》、2023 年 7 月《RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》，做一些分析。2022 年 12 月《RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE》，指出：1）难点是可扩展和大容量。AI 在视觉、NLP 等领域已经成功，从孤立的小规模数据模型转向大型通用模型（预训练过）。后续，要点是开放式任务不可知训练，以及能够吸收大规模数据，形成高容量架构。2）难点是机器人的多任务模型。在有监督学习中，消除对大型特定任务数据集的训练很有意义，但对于多任务训练很难。在机器人领域，希望训练一个强力的、大型的多任务骨干模型。

具体来说：3）对图像和语言，转为标记 Token。模型建立在 Transformer 架构上，以图像和任务描述的历史作为输入，并直接输出标记化的动作。4）依赖图像和语言的预训练，这是后续可以改善的。图像通过 ImageNet 预训练的 EfficientNet-B3（Tan&Le，2019）模型，该模型以 6 幅分辨率为 300×300 的图像作为输入，并从最终卷积层输出形状为 9×9×512 的空间特征图。对于语言的预训练，先通过 Universal 语句编码器嵌入（Cer 等人，2018）。然后转为 FiLM 层（Perez 等，2018）的输入。该层被添加到预训练的 EfficientNet 中，以调节图像编码器。5）经过 TokenLearner，到标记化动作。上述指令被转换后，通过 FiLM 层调节预先训练的 EfficientNet。生成的视觉语言标记由 TokenLearner 精简，输入到 Transformer 中，输出标记化动作。

2023 年 7 月《 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》。1）增加互联网学习能力，利于扩展。论文指出：研究了如何将基于互联网规模数据训练的视觉语言模型直接纳入端到端机器人控制中。并使 RT-2 能够从互联网规模的训练中获得一系列紧急能力。这利于解释机器人训练数据中不存在的命令的能力（例如将对象放置在特定数字或图标上），以及响应用户命令执行基本推理的能力（如例如拾取最小或最大的对象或最接近另一对象的对象）。2）增加有效率的“泛化“能力。论文指出：为了将自然语言响应和机器人动作都适应相同的格式，将动作表示为文本标记，并以与自然语言标记相同的方式将其直接合并到模型的训练集中。正文称之为视觉语言动作模型（VLA）。值得注意的是，本文的 VLA/VLM 与李飞飞团队定义的 VLM 的含义有相似之处，均为 vision language action model，只是 VLA 更强调动作 action。3）强调了动作微调。为了使视觉语言模型能够控制机器人，必须训练它们输出动作。论文采取了一种直接的方法来解决这个问题，将动作表示为模型输出中的标记（类似语言标记）。动作空间主要包括机器人末端执行器的六自由度（6DoF）位置和旋转位移。

连续维度（除离散终止命令外）被均匀地离散为 256 个仓。因此，机器人动作可以使用离散仓的序数表示为 8 个整数。为了使用这些离散化的动作将视觉语言微调为 VLA(视觉语言动作模型)，需要将模型的现有标记化中的标记与离散动作仓相关联。可见：RT-2 的发展，将“具身智能”的智能化继续推进。它 1）延续了 RT-1 的多模态（视觉、指令、动作一体化智能），与李飞飞团队 VoxPoser 的 VLM 思路有相似之处。2）泛化和延展性大大增加，但在“0 样本”和动作自由度上，依然有空间。3）投资者 2022-2023 年机器人投资标的主要是减速器、传感器等硬件，预计未来会走向大模型软件等标的。

1.11 产业链小结

可见：1）2020-2022 年，大智联汽车的传感器环节是产业链重点。2）2022-2023 年，大机器人成为重点，催化剂为特斯拉机器人的进展。3）2022H2 至今，软件能力、智慧能力，得到大幅度增强，主要是大模型的研发、营销、工程化落地加速。

2、两大关键问题

本章讨论两大关键问题：耦合/解耦，钟摆效应。

2.1 软硬件耦合或解耦：可能是两套体系

部分投资者认为具身智能会“解耦“，即软件、硬件（甚至制造和生产等）分离。我们认为：可能是两套体系。尤其“东方式”、“西方式”产业链不同。我们的科技 TMT 价值链往往属于“东方式”。我们每个环节的价值链都相对平均，体现“行行出状元”，也与“共同富裕”更加契合。这样为了变强变大，往往需要在零件/产品/IT 服务/品牌均较为出色，才能成为国内 tmt 领军。这样会促进“硬件+软件+生产一体化”，也会促进 tmt 领军直接接触客户。而“西方式”的 tmt 往往是“解耦“的，某个细分领域成为世界领先即可，即使当前甚至较长时间不盈利。一旦持续收入较快增长，预计会在某个时间扭亏为盈，利润率快速提升（例如 NFT、chatGPT、软件等较为虚拟的事物在西方更流行）。

2.2 钟摆效应

正是由于“解耦”与“耦合”，均在较长时间内存在，但市场往往一段时间只倾斜一个，这就形成认知的钟摆。

最终两种路径往往互相学习、借鉴，形成“折中”的形态。

3、下一步：现金流和工程化

当前情况下，具身智能和 AI 软件的工程化落地是关键。我们从历史经验中发现，现金流好的公司，创新胜率明显更高。工程化能力虽然难以量化，但净营业周期往往是很好的代替，就是经营周转能力。往往反映了“研发+产品+工程+销售+话语权”。

3.1 “仓廪实而知礼节”：适用于具身智能+AIGC

从当前互联网、互联网+，都可以发现：有较好的现金流，对创新的胜率明显提高。这也适用于具身智能、AIGC。众所众知，1995-2001 年“信息高速公路”，带来了产业和股票都较大表现。但此后为“泡沫破裂”、“去伪存真”。最后崛起的代表例如微软、亚马逊、思科、英特尔；让人惋惜的代表包括网景公司、Webvan、雅虎等。1）网景公司 Netscape。微软在于网景竞争中逐渐处于上风。1998 年 11 月 24 日，美国在线以 42 亿美元、免税换股的方式，收购网景。而在 2000 年美国在线又与时代华纳合并。2007 年 12 月 28 日，美国在线在博客表示将停止网景浏览器的开发 2）雅虎。1998 年，雅虎本来有机会收购当时的谷歌雏形——“BackRub（网络爬虫）” 项目，谷歌创始人拉里·佩奇和谢尔盖·布林要价 100 万美元将项目卖给雅虎。但当时的雅虎只愿意在搜索方面跟它合作。2006 年，雅虎报价 10 亿美元收购 Facebook，但最终收购价下调至 8.5 亿美元，雅虎没有收购。2008 年，微软出价 446 亿美金试图收购雅虎，但没有成功。

我们认为，雅虎对技术的关注度高低、对长期发展的关注高低，决定了这几次决策。3）Webvan。Webvan 是一家美国的网上杂货零售商，曾经一度非常著名。当时， Webvan 一度开支巨大。Webvan 斥资 10 亿美元建设先进的仓库，但这并不能迅速带来回报。Webvan 在 2001 年宣布破产。我们认为，1995-2001 年生存下来、甚至最终发展壮大为互联网领军的：第一点是长期主义，体验在战略和研发。1997 年亚马逊的贝索斯开始写致股东的信，希望创造一种“经久不衰的特许经营权”机制,一种通过释放互联网的力量，这体现着长期主义。这种精神，在最终互联网领军上均有体现。第二点是安全边际，主要通过现金流体现。相关公司 1996-2006 年财务情况验证了安全边际的重要性：即使网景公司如日中天时，自由现金流也不佳。即使亚马逊还在起步阶段，2002 年起自由现金流已经是正数。

3.2 技术和工程能力的财务筛选

工程化能力虽然难以量化，但净营业周期往往是很好的代替，就是经营周转能力。往往反映了“研发+产品+工程+销售+话语权”。

4、重点公司分析

4.1 萤石网络：工程能力强+2C 机器人

萤石网络短中长期逻辑均有较大看点：短期看，半年报业绩超预期且高增有望持续；中期看，“SaaS+AI”拉动新增量，萤石云有望非线性加速；长期看，面向具身智能积极备战，有望成为 2C 机器人“国家队”。首先，公司近期发布 2023 半年报，利润大超预期：2023 上半年收入 22.85 亿元，同比增长 9.3%；归母净利润 2.59 亿元，同比增长 70.3%。其中 23Q2 收入 12.06 亿元，同比增长 14.1%，归母净利润 1.67 亿元，同比增长 100%。我们在业绩前瞻中预测 23Q2 收入 12 亿元、归母净利润 1.25 亿元，实际收入完全符合预期，利润大超预期。23Q2 毛利率同比大幅提升 8.6pct 至 44.6%，是利润超预期的主要推动力。我们认为原因在于：1）公司通过对采购和订单管理精细化，使得供应链成本下降；2）上半年主要电子元器件价格处于下行周期；3）收入结构上，毛利率水平偏低的专业客户占比下降、高毛利率的物联网云平台业务占比提升、海外业务占比提升。以上 1）、3）两点因素将在长周期维度上，持续提升公司毛利率中枢。

其次，“SaaS+AI”拉动新增量，萤石云有望非线性加速。此前云服务付费率不高（根据公司年报，2022 年 C 端持有萤石设备的年度累计活跃用户数约 2100 万，持有萤石设备的年度累计付费用户数约 227 万，付费率约 10.8%），主要由于能力单一（云存储占绝对大头）。当前变化正在发生，2022 年底公司推出了首款老人看护服务套包，此外面向宠物看护、儿童看护等特殊场景将持续推出 SaaS 化订阅的 AI 算法包，通过为客户提供增量价值、切中用户刚需，实现云业务付费率、ARPU 值的上行。并且在未来有望结合 AI 大模型，在改善体验的同时增加收费点，进一步提升云服务收入增速和占比。

第三，面向具身智能积极备战，有望成为 2C 机器人“国家队”。我们认为，公司发展具身智能已集齐多重有利因素：1）起步早、能力全。公司在 2023 半年报中，明确表示“针对 C 端具身智能机器人方面做积极的布局沉淀和前瞻性预研。”截至上半年在研的 9 大项目中，多数与具身智能相关，其中技术涉及硬件的运动控制、软件的导航算法，以及大模型、云边融合等，均将为 2C 机器人的研发奠定基础。在智能服务机器人产品线上，目前公司已经布局了清洁机器人和陪伴机器人，未来产品线有望持续丰富。2）云能力+制造能力，两道护城河。一方面，公司凭借稀缺的云服务能力，能够为智能家居和机器人注入智慧的灵魂，提升用户体验，并实现快速迭代进化；另一方面，公司不断强化制造能力，包括 IPO 募投的萤石智能制造重庆基地项目，将为 2C 机器人降低成本、快速迭代带来关键优势，有望更快实现“更低成本-更高市占-更多数据-更大竞争优势” 的飞轮，在 C 端具身智能领域占据领先位置。3）既有国家队身份，又富有管理活力。萤石实控人为中电科，又背靠实力强劲的母公司，C 端机器人“国家队”身份下容易获得各方资源支持；同时，公司管理团队在长期的市场竞争中，已经充分证明了战略和管理能力，并拥有高度市场化的激励机制。

此外，公司在线上线下、国内国际渠道全面布局，助力上述逻辑加速兑现。1）国内电商渠道方面，加大在常规的电商平台上直播和优质达人带货，还积极开拓抖音等内容兴趣电商的直播渠道销售；2）国内线下渠道方面，公司形成了直营旗舰店、经销商专卖店、下沉市场堡垒店等多层次的终端渠道架构，积极布局线下专卖体验店，助力全屋智能系统业务；3）海外渠道方面，上半年在零售连锁卖场、家居建材类连锁店、专业经销渠道和街边店等多渠道中均取得了较好的增长，目前已在多个国家和地区实现线上与线下多渠道覆盖。

4.2 柏楚电子（申万机械）：具身智能领军。切割主业高速成长+焊接新品或迎放量期

公司上市前主业为激光切割设备运控系统，上市后公司纵向延伸智能激光切割头业务、横向拓展智能焊接机器人控制系统业务。

（一）业务 1：激光切割系统-柏楚方案降低行业准入门槛，综合市占率持续提升

运动控制系统是激光切割设备、自动化生产设备的关键功能部件，一个完整的激光切割流程包括：第一步，使用控制系统提供商提供的激光专用设计软件或第三方工业设计软件如 AutoCAD、Solidworks 等绘制零件、装配体的加工图纸；第二步，将加工图纸通过软件进行后期图形处理及排版，生成加工的机床代码；第三步，激光切割机床根据代码指令执行切割任务，整个切割过程中涉及图形编辑、工艺设置及具体加工工艺选择、运动控制、切割头和激光器等外设控制、加工控制、切割头与切割部件之间焦距控制及随动等各环节，最终完成零件、装配体的加工。激光切割过程所需的关键技术包括 CAD、CAM、NC、传感器技术等硬件设计技术：1）CAD 技术：通过计算机建模或从图纸读取数字模型，进行图形识别、编辑和优化处理，生成零件并将零件通过计算机辅助在板材或型材上进行排版，并输出待加工模型；2）CAM 技术：根据工艺要求，通过计算机辅助生成所需的刀路轨迹以及光路、气路、焦点等控制参数和自动化加工模型，并生成指令；3）NC 技术：可以实现根据生成的机床代码指令执行具体加工工序的功能，具体涉及加工过程中的运动/加工控制、切割头和激光器等外部设备控制等；4）传感器技术：通过传感器技术实现切割过程中温度、湿度、压力、光电、视觉、气压、激光加工头与被切割板材之间的间距等因素的控制，从而优化激光加工效率，提高智能化水平；5）硬件设计技术：针对激光行业特殊需求，定制开发相应硬件产品，合理的硬件设计和专业的检测手段可以起到提高切割稳定性及抗干扰能力的作用。

柏楚产品推出后重新定义激光加工行业标准、降低切割设备操作门槛及学习成本。公司核心技术自主研发，完整地掌握了激光切割控制系统研发所需的 CAD 技术、CAM 技术、 NC 技术、传感器技术和硬件设计技术五大类关键技术。在柏楚电子推出“CAD、CAM 和 NC 三合一激光切割控制系统”和“网络通讯式随动系统”两项技术变革前，国际激光切割的完整流程通常为：利用 AutoCAD、Solidworks 等专用 CAD 设计软件绘制零件图，然后再导入美国 SigmaNest 或西班牙 Lantek 等专业排样软件中进行零件后处理和排版，生成加工文件后导入德国倍福、德国 PA、西门子等数控系统中，搭配德国 Precitec 的电容随动系统进行后续加工操作。柏楚电子推出上述技术变革后，为下游激光设备制造商提供了一站式的解决方案，重新定义了我国激光加工行业的标准，用户可以在柏楚电子的控制系统中同时实现上述激光加工的全部流程，大幅降低激光切割设备的操作门槛和学习成本，简化激光切割设备的装机和调试过程。柏楚电子在激光切割领域保持强竞争力。1）中低功率激光切割控制系统：柏楚电子的中低功率产品在稳定性、可靠性、精度、速度、易用性等各方面均具备明显优势，市场占有率约为 60%。2）高功率激光切割控制系统：目前国际厂商依然占据绝对优势，为中国市场主导者，柏楚 2021 年市占率约 17%，近年随着国内高功率激光切割市场发展及柏楚产品日益成熟，柏楚份额持续提升中。

（二）业务 2：智能切割头-搭载高功率切割设备，渗透率提升+国产替代

切割头充当“四肢”的角色，与控制系统实现协同互补。激光切割控制系统与智能激光切割头是大脑与四肢的关系，两者软硬结合，需要在信息收集、传输、反馈的同步性和精密性上达到很高的契合。切割头在激光切割中的工作流程是：激光器产生激光，通过外光路传输，在切割头内经聚焦镜聚焦后，作用于被加工材料表面，将材料气化或者在切割气体辅助下形成熔池，以实现吹散被激光融化的金属熔渣或助燃。由于高功率激光切割的工作环境恶劣，设备需要在高温、高湿、粉尘污染大的环境下运行，外部环境和切割头内部任何微小的变化都会对设备性能和切割效果产生较大影响，因此及时将工况信息传递回控制系统，由控制系统进行实时调整，有助于最大程度保证激光切割设备的工作效率。

柏楚电子智能切割头产品与高功率软件搭载销售，客户认可度高、销售额快速提升。目前我国整机制造厂商使用的高功率激光切割头和三维激光切割头主要依赖进口，主要供应厂商分别为德国 Precitec 和德国 LT。且德国厂商生产的切割头的传感器数据无法与国产的激光切割系统进行实时的通讯，从而无法实现智能的闭环控制策略。公司激光切割头具备安装、调试简易，传感器齐全，将是目前市场为数不多的具备与国外同类产品竞争力的国产智能切割头。从产业层面来看，公司原有主业激光切割头软件和智能激光切割头在激光切割设备整机制造中属于平行工序的关系，下游客户高度重合。基于公司在控制系统细分领域内的龙头位置，公司拓展智能激光切割头具有渠道优势，且客户对于切割头评价反馈较高，子公司波刺自动化（切割头业务主体）营收快速增长。2020 年波刺自动化子公司营收进 0.11 亿元，2023 年上半年营收达到 1.54 亿。

（三）业务 3：智能焊接机器人控制系统-机器换人大势所趋、柏楚产品或迎放量期

钢构非标场景属性，倒逼智能焊接机器人需求。智能焊接机器人产品为电弧焊焊接机器人。按照机器人加工路径生成的方式不同，焊接机器人产品可以分为示教焊接机器人和智能焊接机器人两类。示教焊接机器人主要需要人工示教来编辑焊缝的加工的路径；智能焊接机器人通过离线编程来生成焊缝加工路径。目前国内焊接行业自动化水平较低，现有进口产品成本过高，且对操作调试人员的技术能力具备较高的要求。而随着我国钢结构产业的持续快速发展，钢构产品产量增加将直接带动钢构焊接市场需求。与此同时，焊工工种的持续短缺，使得钢构企业对于焊接自动化解决方案的需求与日俱增，智能焊接机器人替代人工为行业趋势。

完整的钢结构零件焊接加工流程及公司核心技术在焊接工艺的应用情况如下：第一步、从 Tekla，Revit 等建筑设计软件里导出需要焊接的钢结构零件模型。第二步、对钢结构零件模型进行编辑，设置焊缝，生成坡口并设置焊道顺序。第三步、在数字孪生系统中编辑机器人焊接动作，进行运动仿真，确认加工路径正确没有碰撞。并生成焊接加工站运行指令。第四步、3D 相机扫描整个工件，对工件进行识别和空间定位，并校正焊缝的加工位置数据。然后机器人根据焊接指令运动到焊缝起始位置进行焊接。焊接过程涉及机器人姿态自适应调整，动态规划路径以及自动避障，焊接工艺选择匹配，焊缝跟踪传感器控制，图像信号处理，焊缝跟踪过程以及焊接工艺动作实时调整，最终完成零件的焊接。

切割与焊接为上下道工序，柏楚切割场景积累技术工艺可部分复用于焊接场景。切割与焊接在钢结构产品生产制造中属于上下游工序的关系。由于焊接与切割在 CAD 技术、 CAM 技术、NC 技术、传感器技术和硬件设计在智能制造和自动化领域的共通性，公司在切割领域所积累的核心技术储备为进军智能焊接机器人及控制系统领域奠定了坚实的基础。目前，国产焊接机器人大多数为需要人工示教的半自动化模式，公司通过开发工件视觉定位系统、智能焊缝跟踪系统通过视觉传感器识别工件和焊缝，智能焊接离线编程、控制系统通过 CAD 技术、CAM 技术、NC 技术进行焊接机器人加工工艺控制，达到取代人工示教模式进行自动化智能焊接的效果。当前下游钢构企业迫于产能及成本压力，对于智能焊接机器人需求迫切，随着公司产品成熟度提升及积极市场推广，未来焊接产品或将迎来放量期。

4.3 德赛西威（tmt&汽车）：从中国领先 tier1 走向世界级

德赛西威是中国领先的汽车 tier1，从事智能座舱、智能驾驶、智能互联业务。预计未来要冲击成为世界级 tier1

公司成长来自乘用车销量、智能化渗透率、智能化 ASP、客户结构四重因子的成长。收入增长的持续强劲验证了渗透率和 ASP 的增加。现金流的优秀、减配压力下较强的毛利率（剔除汇兑影响）体现优质客户结构的增加。而 2023 年 5 月开始，车市恢复状态中。2） 2023H2-2024，预计德赛西威即将迎来 IPU02 增长、第四代座舱电子、高阶 ADAS 量产、 ADAS 出海等新型机会。

4.4 虹软科技：工程化能力强+车载 AI

虹软科技在 AI 底层视觉优化较好，适用于手机+车载+VRAR+商户 AIGC 等领域。伴随特斯拉视觉 AI 大模型热议，投资者寻找 BEV 路线图的标的。而虹软科技官方网站实际披露了虚拟 BEV 帮助停车。我们认为 BEV 和占用网络分成软件到硬件等多种工业实现级别，虹软科技可能已经布局较早较深，是特斯拉视觉 AI 路线图技术路线的核心标的。

4.5 立讯精密（申万电子）：被低估的汽车 tier1

向汽车 Tier1 进军：十年厚积薄发，可简单归纳为“投资“、“产品””扩张+客户“、 “合作+研发”等几大阶段。2012-2014 年，其通过投资试水。2015-2019 年，在提高汽车业务在公司的战略优先级，产品线也在拓展，但主要在连接器与线束。2019-2020 年报指出“汽车向智能汽车演进的过程中将迎来黄金十年”，开始清楚的绘制产品线矩阵图。2021-2022 年，在规模扩张、产品拓展、商务合作（主要是奇瑞与华为）的同时，执着于下一代研发成为特色：2021 年年报指出“线束、连接器、动力、智能网络等”，2022 年报指出“FAKA 线束、高压线束、二充电枪、MCU”。汽车 Tier1 空间：单车 ASP 1 万元，峰值 4 万元，预计空间 2000+亿。产品覆盖汽车线束、连接器、智能网联、智能座舱及新能源汽车动力系统等核心零部件，形成六大产品系列：汽车线束、连接器、智能新能源、智能网联、智能驾舱、智能制造等。我们依照其披露的产品，得到单车 ASP 价值约 4 万元。

4.6 双环传动（汽车&机械）：精密齿轮制造平台公司，机器人减速机打开新空间

公司深耕齿轮行业 40 余年，齿轮技术和工艺积累深厚，由传统燃油车到自动变速器、新能源车、商用车，再到工业机器人，平台化模式持续打开成长空间。乘用车齿轮：在新能源车的齿轮精度提升背景下，主机厂需求向有优质产能的第三方供应商转移，预计 25 年市场空间 107 亿。公司核心工艺+高端设备+二次开发能力构成护城河，保障领先地位。预计 23-25 年乘用车齿轮收入为 47.1/56.5/67.3 亿元，同比+29%/ +20%/+19%。商用车齿轮：国内商用车 AMT 渗透率远低于欧美，在景气回升+汽车油耗排量标准的驱动下，渗透率有望快速提升，预计 25 年市场规模 19 亿元；公司绑定大客户有望享受超额成长。预计 23-25 年收入为 8.6/11.4/13.3 亿元，同比+67%/+32%/+16%。工业机器人：RV 减速器目前尚未市场大规模国产化，公司产品已有 40+型号，产能超 10 万台，22 年市占率提升至 14%，在国产品牌中最高。人形机器人：目前尚处于 0-1 阶段，主流硬件方案尚未收敛，执行机构持续优化改进，公司具备齿轮加工经验+机器人行业深刻理解+客户资源，在机器人减速器领域潜力巨大！

4.7 中控技术（tmt&机械）：智能制造软件领军

中控技术是基于流程制造业智能制造的解决方案领军，其软件能力近年大大增强。根据 Wind,公司始终坚持通过自主创新打破跨国公司的技术壁垒，持续加大研发投入及研发平台建设，成功取得了一系列发明专利、技术奖项、产品认证及国际标准和国家标准。公司曾获得国务院授予的国家科学技术进步奖二等奖、一项中国标准创新贡献一等奖和多项省部级以上科技进步类奖项，牵头或参与制定国际标准、国家标准多项。2014 年公司成为首批被推荐的两化融合管理体系贯标咨询服务机构，首次通过 CMMI5 级软件能力成熟度认证；2017 年，公司入选全国首批智能制造系统解决方案供应商推荐目录和全国首批 30 家服务型制造示范企业名单；2018 年，入选中国智能制造系统解决方案供应商联盟第一批供应商推荐目录；2019 年，被工信部评为国家技术创新示范企业，被国家发改委认定为国家企业技术中心。

4.8 科博达（申万汽车）:汽车电子优秀系统方案提供商

根据 Wind，公司是汽车智能、节能电子部件的系统方案提供商，立足全球汽车产业平台并全面参与全球高端市场的竞争，专注汽车电子及相关产品在智能领域的技术创新与产业化，致力成为全球汽车电子高端产业链中富于创新和竞争力的卓越企业，公司是少数几家进入国际知名整车厂商全球配套体系，同步开发汽车电子部件的中国本土公司。公司终端用户主要包括大众集团(包括其下属子公司奥迪公司、保时捷汽车、宾利汽车和兰博基尼汽车)、戴姆勒、捷豹路虎、一汽集团及上汽大众等数十家全球知名整车厂商，且部分新产品已进入福特汽车、宝马汽车、雷诺汽车的供应商体系，在全球汽车电子尤其是汽车照明电子领域中享有较高的知名度。

（本文仅供参考，不代表我们的任何投资建议）

文琳编辑

免责声明：转载内容仅供读者参考，观点仅代表作者本人，不构成投资意见，也不代表本平台立场。若文章涉及版权问题，敬请原作者添加 wenlin-swl 微信联系删除。

文琳行业研究 2018年—2023年9月文章汇总

今日导读：点击下面链接可查阅

公众号：文琳行业研究

▼长按2秒识别二维码关注我们

《文琳资讯》

提供每日最新财经资讯，判断经济形势，做有价值的传播者。欢迎关注

今日导读：点击下面链接可查阅

公众号：就业与创业

点击下方可看

继续滑动看下一个

文琳行业研究

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

反内卷之都，这座直辖市藏不住了

具身智能专题研究：解耦还是耦合？从AI化到工程化！

1、产业链图理解传感器+大模型+具身智能

2、两大关键问题

3、下一步：现金流和工程化

4、重点公司分析

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

反内卷之都，这座直辖市藏不住了

生成图片，分享到微信朋友圈

具身智能专题研究：解耦还是耦合？从AI化到工程化！

1、 产业链图理解传感器+大模型+具身智能

2、 两大关键问题

3、 下一步：现金流和工程化

4、重点公司分析

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

1、产业链图理解传感器+大模型+具身智能

2、两大关键问题

3、下一步：现金流和工程化