如何评估AIGC初创公司的竞争优势？

Original SVTR SV Technology Review 2024-04-14

今天，生成式人工智能（AIGC）是最热门的话题：每天都有数百家初创企业在这个领域推出。作为密切关注生成式人工智能的投资者，我们希望深入探讨以下问题：生成式人工智能的发展格局如何，我们应该如何评估机会？

Pitchbook报告称，与AIGC相关的市场机会，预计到2023年将达到426亿美元，并以32.0%的年均增长率增长到2026年的981亿美元。

2013年至2022年间，生成式人工智能领域创立的公司数量以22.5%的复合增长率增加。

根据Pitchbook的数据，在2022年全球范围内，生成式人工智能在375笔交易中获得了47亿美元的资金支持。而在2023年第一季度，它在46笔交易中获得了17亿美元的资金支持。这意味着尽管经济放缓，在AI领域的投资还是超过去年，这个数字每周都在大幅增加。

Part1：技术部分

1. 什么是大语言模型（LLM）

大型语言模型（LLM）是一种深度学习算法，它可以根据从其他数据集中获取的知识识别、总结、翻译和生成内容。深度学习算法得以实现，得益于互联网上大量可用的数字数据，计算能力的提升以及图形处理单元（GPU）的发展。

一些模型是开源的，这意味着源代码对所有或部分公众可见，而另一些模型是闭源的专有源代码，公众无法访问。一些模型是多模态的，这意味着它们可以处理多种内容/数据格式（例如文本、图像、视频等），而另一些模型是单模态的。请参见下表，了解流行模型及其按开放/闭源和模态分类的详细情况。

2. 开源vs. 闭源 LLMs

LLM通常基于Transformer架构，并使用强化学习进行训练，适用于开源和闭源模型以及各种形式。所有LLM（无论是开源还是闭源）都需要大量的资金和时间来构建。除非是大型科技公司或者拥有充足资金的初创公司，否则几乎不可能构建这些模型。

对于初创公司来说，开源LLM具有许多优势，因为它们允许团队利用已经存在的模型和代码，加快开发人员的实验速度，而无需在LLM和机器学习方面拥有深入的经验。这使得初创公司可以灵活且具有成本效益地快速测试、实验和推出人工智能产品。然而，尤其是对于在特定高准确性垂直领域（如医疗保健和银行业）推出的初创公司，由于“幻觉”导致的错误事实和数据可能会成为问题。尤其在敏感行业的垂直应用背景下，需要进行事实核查。

另一方面，闭源专有LLM通常被吹捧为具有改进的隐私保护、由于对特定数据集和任务进行微调而导致的增加准确性，以及更好的性能（因为这些模型可以针对特定硬件进行优化）。然而，对于闭源LLM，初创公司需要依赖LLM开发者。从成本结构的角度来看，API费用可能会侵蚀初创公司的利润，并对商业模式的可持续性产生负面影响。还存在这样的风险，即由于监管打击或其他无法控制的因素，初创公司所依赖的LLM可能因某种原因而停止存在或不再向开发者提供。

在开源模型允许的速度和创新，与闭源专有模型提供的隐私和准确性之间需要达到平衡。在切换模型时，集成和兼容性是需要考虑的关键因素，对于初创公司来说，将现有的基础设施、软件和应用程序调整为与新模型配合工作可能是耗时和昂贵的。

3. AI 技术栈

过去一年，AI技术栈中的基础模型层得到了OpenAI的大量关注，然而，AI技术栈中还有多个层次共同构成了创业公司在这一领域的推出和繁荣。

（1）应用层：是大多数普通消费者将会与之互动的层次。

在这个领域，出现了许多创业公司，比如Jasper、Runway、Harvey和Tome。应用层的利润率可能高达90%，低端则在50%到60%之间。

（2）工具层：能够帮助开发人员更快地构建基础模型应用。

在这个层次上运营的创业公司有LangChain和HumanLoop等。这个层次尤其重要，因为它嵌入了工程师和设计师的工作流程中。切换成本很高，而这个层次对于使基础模型更易于访问和用户友好对于更广泛的开发人员来说至关重要。

（3）基础模型层：其中包括OpenAI的GPT 4和Google的PaLM等开源和闭源大型语言模型（LLM）。

（4）基础模型操作层：允许开发人员更高效地优化、训练和运行他们的模型。

OctoML和Modal是这个层次上的创业公司。

（5）基础设施层：即云和硬件基础设施，这个层次促进了LLM的训练。

在生成式AI革命的这个阶段，基础设施层的提供商是真正的赢家，因为训练LLM所需的计算能力非常庞大。像AWS、Azure和半导体制造商Nvidia这样的云提供商正在赚取利润。Nvidia在AI和ML行业的GPU市场占据了95%的份额。据估计，如今10%到20%的生成式AI的总收入归云提供商所有。

4. 应用层的机会和挑战

应用层开发通常快速且成本较低，然而：

产品差异化困难用户保留难度大利润率可能较低网络效应并非总是显而易见的

回顾整个应用层创业公司，必须区分生成型原生应用和生成型增强产品/公司之间的差异。

5. AIGC原生应用 vs. AIGC增强应用

生成式原生应用是一种全新的类别，与我们过去所熟悉的SaaS产品完全不同。这些应用直接构建在LLM之上，只要简单的“提示”即可生成内容。其中的例子包括Jasper、Harvey、RunwayML和fireflies.ai。

这些应用通常表现为水平应用。生成式原生应用可以从低成本构建中获益。当初创公司依赖API与外部LLM合作时，它们不需要一开始就投入大量资金来构建自己的模型。这使得产品开发更快。此外，类似于云计算，生成式原生公司可以根据工作负载和需求的变化调整其对LLM的使用。但是，要成为一个真正具有长久性的人工智能初创公司，创始人需要构建一些自己的模型，而不仅仅依赖API。

增强型生成产品可以看成已经存在的SaaS公司，如Notion和Canva，它们开始将人工智能或LLM功能集成到现有产品中。目前业内认为：如果一家公司在未来两到三年内没有将某种形式的LLM集成到其产品中，它们基本上是注定要失败的。我们已经看到像Notion发布了用于头脑风暴、摘要和初稿的Notion AI，Canva发布了Magic Write。

生成式原生应用与增强型生成应用的关键区别在于，增强型生成应用的核心价值主张不是基于生成式人工智能技术或LLM的，这些只是附加功能。这些应用的缺点是将生成式人工智能集成到现有工作流程中可能具有一定挑战性，开发成本和时间增加，并且可能导致兼容性问题，可能会影响用户体验。

6. AIGC原生应用— 垂直应用

生成式原生应用程序可以通过多种方式划分，可以按垂直应用领域、按模态（文本、图像、视频等）或按形式（桌面应用程序、移动应用程序、插件和Chrome扩展程序）划分。在这里，我们将关注垂直应用。这些应用程序用于解决特定行业或工作领域（银行业、会计、销售与营销、法律、生产力等）中的特定任务或问题。

解决特定问题的垂直应用程序具有根据专注数据集进行模型微调的优势（例如，医疗保健用例的患者数据）。对于在特定垂直领域运营的初创公司，要取得成功，他们必须找到一个单一的问题/用例来解决，并以简单而样本化的用户体验做得非常好。

Part 2: AIGC初创公司评估体系

创业公司快速推出和构建产品，但很难确定谁实际上在构建AIGC原生产品，而不是传统SaaS产品中功能。更重要的是，存在产品差异化的风险。创业者们使用相似的大模型，在相同的数据集和架构上进行训练来构建产品。现在大量创业公司集中在某些垂直行业（例如营销、文案撰写、邮件撰写），很难确定谁拥有独特的优势或壁垒，以及哪些解决方案具有真实市场需求且有望成功。

独特的优势可以通过降低成本、提高生产力和性能或增加收入来为客户创造价值。在评估是否一个AIGC项目是否存在独特的优势时，我们会从以下几方面考虑：

1. 专有数据

在机器学习时代，初创公司需要独特的新数据集，这些数据集源自用户的互动和对他们产品的反馈。当初创公司使用领域特定数据或客户数据（例如患者数据、法律数据）对基准LLM进行微调和改进时，就形成了算法壕沟或数据访问壕沟，其他人无法访问这些数据。专有数据加上人工智能以一种使最终用户保持回头的方式为其增加了价值。

然而，获得这种数据优势需要具备深厚的技术专业知识、高昂的成本、高资本需求，有时还伴随着监管摩擦。初创公司必须平衡数据获取和培训成本以及增量数据价值，确保他们正在获取、清理和标记的数据能够产生显著更好和更粘性的产品。由于构建专有数据壕沟所需的人才和计算成本高昂，我们看到初创公司筹集了大量的种子轮融资。举个例子，Jasper在2022年10月筹集了1.4056亿美元的A轮融资。

关键问题是：多少数据足够，增量价值是多少？

2. 用户体验

用户体验可以决定一个产品的成败。我们已经看到，用户体验推动了品牌忠诚度（以苹果产品为例）。甚至AIGC被广泛应用的原因之一，就是ChatGPT用户界面的易用性，它为任何想要使用OpenAI的LLM来回答问题的人提供了无缝对接的用户体验。在生成型人工智能时代，与以往不同，创业者需要考虑用户输入的类型和格式（即提示信息），以及用户在特定环境中需要的输出的类型、格式和质量。

关键问题是：用户输入的提示信息，是否被正确理解和解释，生成了用户预期的输出结果？产品是否从输入和输出的角度，能够轻松地集成到用户的工作流程中？

3. 先发优势

成为第一家进入市场并主导市场策略的公司，从而拥有强大的品牌认知度和庞大的用户基础，可能会带来优势。这种优势可以阻止其他竞争对手的进入，或者导致竞争对手很难迎头赶上。需要注意的是：随着模型、数据可获得性的增加以及近期技术裁员带来专业人才库的增加，保持先发优势变得更加困难。

关键问题是：领先优势有多大，能否保持？在这个领域中，其他人在构建什么，他们能否轻松追赶并复制？

4. 生态优势

与用户的日常任务深度整合至关重要。例如，与Chrome、Zoom和Microsoft产品的插件是无缝集成的例子。一个开发了广泛的生态系统，具有多种集成、插件或内容，并利用用户的数据和输入的创业公司很难被复制。

关键问题是：这家创业公司是否有潜力创建自己的多产品生态系统？该产品是否以一种能够与客户使用的现有产品轻松协作的方式运作？

Part 3：AIGC带来的挑战

随着新技术的出现，各大公司和初创公司正竞相确保所有权，但代价是什么呢？

1. 版权挑战

由于谷歌和Open AI使用互联网上的内容来训练他们的模型，因此明确定义在这一领域的所有权，并创建保护和商业化数据的工具是必要的。

Nvidia和Adobe都采取了支付版税的方式，并为遵守当今版权法创造了先例，从而创建了生成AI产品。

2. 伦理挑战

世界正在以极快的速度利用AI技术突破。随着大型科技公司继续主导生成AI领域，AI创新的未来和其对社会的影响将会对人类伦理构成极大挑战。

原文地址：

https://medium.com/alpaca-vc/field-study-the-potential-of-generative-ai-ce6b94a895ce

https://impact0.medium.com/generativeai-where-startups-can-win-8e7511db6020

更多阅读：

一个大学生如何在6个月内，通过开发AI工具，获得每月64000美元收入？

Hugging Face克莱姆·德朗格：开源AI的未来

Midjourney创始人大卫·霍尔兹

如果您也在从事AI相关工作，欢迎扫码添加小编微信（pkcapital2023），和一群对创业和投资有热情的小伙伴一起交流

继续滑动看下一个

SV Technology Review

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

如何评估AIGC初创公司的竞争优势？

1. 什么是大语言模型（LLM）

2. 开源vs. 闭源 LLMs

3. AI 技术栈

4. 应用层的机会和挑战

5. AIGC原生应用 vs. AIGC增强应用

6. AIGC原生应用— 垂直应用

Part 2: AIGC初创公司评估体系

1. 专有数据

2. 用户体验

3. 先发优势

4. 生态优势

Part 3：AIGC带来的挑战

1. 版权挑战

2. 伦理挑战

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

生成图片，分享到微信朋友圈

如何评估AIGC初创公司的竞争优势？

1. 什么是大语言模型（LLM）

2. 开源vs. 闭源 LLMs

3. AI 技术栈

4. 应用层的机会和挑战

5. AIGC原生应用 vs. AIGC增强应用

6. AIGC原生应用— 垂直应用

Part 2: AIGC初创公司评估体系

1. 专有数据

2. 用户体验

3. 先发优势

4. 生态优势

Part 3：AIGC带来的挑战

1. 版权挑战

2. 伦理挑战

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡