从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全
4 月 4 日,Y Combinator W2024 Batch Demo Day 正式开始。这次共亮相 260 个项目,YC 从 2.7 万份申请中筛选出来,通过率低于 1%,是历史上 YC 录取比例最低的一轮批次之一。
其中超过 60% 是 AI 相关。YC 身处科技最前沿的硅谷,与这一轮 AI 技术革命的核心生态有着深厚联系,以创业孵化器模式聚集了大量早期项目和优秀创业者,项目覆盖的广度和前沿性首屈一指。
Y Combinator 是硅谷最著名的创业加速器之一,每年会有冬季(W)和夏季(S)两个录取批次,YC 具有强大的校友网络和品牌优势。
自 2005 年由 Paul Graham 创立以来,YC 已经成为全球最具影响力和最成功的创业孵化器之一,孵化的公司包括 Airbnb、Dropbox 和 Reddit 等。YC 社区现在有超过 4,500 家初创公司和 11,000 名创始人。
这期入选项目中我们看到了 AI 很多落地场景和有想象力的应用;与去年相比,能明显感到 AI 落地在加速,越来越多创业者在尝试解锁 AI 全新的「打开方式」。虽然这些项目本身未来不一定会成为伟大的公司,但它们为探索 AI 创业机会带来了很多启发。我们总结了本期 YC 入选项目的最新趋势和让人眼前一亮的项目,与大家分享。
文章转载自公众号「Atom Capital」和「深思SenseAI」,Founder Park 略有增删。
随着大模型的火热,「具身智能」重新让人形机器人成为了热点话题。Google 的 RT-2、Figure 01 机器人、特斯拉 Optimus 等的新演示都让大家对于大模型赋能的「具身智能」有了新的期待。
具身智能现阶段的技术难题是什么?会如何迭代?
具身智能也会有自己的 Scaling Law 吗?
具身智能会带来 all-in-one 的超级机器人吗?
具身智能商业化前景有多大?
今晚(本周四)晚 8 点,极客公园创始人&总裁 张鹏,和三位具身智能领域的专家、创业者,一起来聊聊具身智能的想象和现实。
01
AI创造了新场景,
自训练模型依然需要
长尾效应正在延伸
除了头部的几个经典应用场景,可以看到的一个趋势是产品的行业分布更加广泛。这一批 YC 项目的公司类别大约有 35 种,而之前是 28 种(新的垂类场景包括人力资源、招聘和航空航天)。「人工智能并非万能良药」(「AI isn't a silver bullet」),当 GenAI 的浪潮逐渐冷静下来,人们依旧需要领域专业知识来吸引用户并解决问题。
但同样明显的是,随着人工智能技术的普及,我们也在创造新的问题。看到这批公司中有专注于 AI 安全的公司是很有趣的——有一家公司正在研究欺诈和深度伪造检测,而另一家公司正在构建易于对齐的基础模型。我们可能会继续看到更多公司处理新 AI 能力所需要的新场景。
AI 应用方式更加多样化。在上一批中,主要的一类产品是面向程序员的「编程助手」。虽然这些在当前批次中依然存在,但同时也有更多公司在构建「原生 AI」产品和平台——这些软件以简单地与 AI 助手侧边栏对话的方式使用 AI。
人工智能基础设施持续成熟
六个月前,Charlie 提到了几个观点:AI+Olps 领域的规模也展示了为真正实现大型语言模型和其他模型的生产化所需的工作量。在外部使用 LLMs 时,关于可靠性、隐私、可观察性、可用性和安全性仍有许多未解决的问题。
即使在今天,AI 运维也是最受欢迎的类别之一。虽然有些公司提供的是我们之前见过的服务,但许多公司也在帮助将人工智能产品开发前沿的技术 SaaS 化。比如直到去年,RAG,即检索增强生成在人工智能研究圈子之外还是一个鲜为人知的名词,但现在,多家公司正在构建「RAG 即服务」。
LLMs 部署的最佳实践包括策划训练数据、定期运行评估和测试向量块大小——但在生产中执行这些操作的行业标准工具并不多。开发人员正在研究有效的方法来减轻幻觉现象。部分原因是技术本身——当最先进的技术每 3-6 个月就发生显著变化时,很难找到一个稳固的立足点。亚马逊 S3 和 EC2 目前已经有 18 年的历史,而 GPT-3 出现还不到四年。
自训练模型依然需要
像 OpenAI 和 Anthropic 这样的公司专注通用基础模型的建设,人们很容易认为新公司主要在构建「套壳 GPT」。然而,可以从 YC W24 这批公司看到,让公司从头开始训练模型依然需要。下面是一些为新用例自己训练的模型:
Diffuse Bio:一个为疫苗和其他药物设计新蛋白质的模型。 Infinity AI:一个根据给定剧本生成短视频剪辑的模型。 Piramidal:一个基于脑电图(EEG)数据训练以理解大脑活动的模型。 SevnAI:一个针对图形设计,旨在创建可编辑矢量图形的模型。 Sonauto:一个根据歌词和简短提示创造热门歌曲的模型。 Yoneda Labs:一个优化化学反应的模型。
02
AI Agent、多模态、垂直领域
和 AI 安全是热门趋势
从 W24 项目的领域分布看,应用层产品里依然以 B2B SaaS 为主,其中 B2B SaaS 项目占比超过 60%,C 端消费者产品占 11%。虽然 C 端消费者占比只有 11%,但 YC 的合伙人 Jared Friedman 说到「这届 YC 的主要趋势之一是消费型人工智能公司的浪潮」, AI 给 C 端产品带来了更大的想象空间。
65% :B2B SaaS/企业 11% :消费者产品 10% :医疗保健 8%:金融科技 4%:工业 1% :政府科技 1%:教育科技
本届不仅在 AI 项目数量和占比有进一步提升,而且应用层项目和落地的垂直领域也有大幅增加。很明显,AI 的应用落地正在加速。从这些项目中,我们看到几个 AI 应用发展的新趋势:
AI Agent
AI Agent 开始从 Task 走向 Job。AI Worker 的概念产品已经出现,虽然还有很大挑战,但已经摆脱简单工具的束缚,走向可以独立工作的 Autonomous Agent。 领域知识库的构建,从简单的 RAG 技术走向知识的学习和使用。知识的核心表达也从 embedding 变成自然语言,而向量数据库最终将只是一个检索加速的技术。
垂直领域
陪伴聊天类应用逐渐走向专业心理和情感健康领域,从利用人性弱点获取流量变成真正对人类心灵健康有帮助。 Dev Agent 开始尝试从一次性代码生成走向真实的软件工程项目,但依然面临很大挑战。这期项目出现了软件开发较为前沿的一些创意,比如把 Figma 上 UI 设计直接变成代码、chat to repo 代码集层面的语义理解、支持以文档(而非代码)为中心的 AI 开发模式。 出现针对政府监管/审批流程的应用。这个场景非常适合 AI Agent,对中国市场也很有借鉴意义。 Healthcare 领域AI应用有爆发的趋势。一些高价值场景被聚焦,技术对医疗产业的巨大变革已经在路上。但由于中美医疗行业的体系、商业模式差异明显,很多创业思路未必适合国内。
多模态
语音技术已经成熟,可能比图像和视频模态更快地进入实际应用。 图像/视频生成已经从模型技术走向剧本故事和情景的描述,回归视频应用的本质。利用多模态的优势,游戏、影视和教育领域将会有很多改变。
AI 安全与评估
LLM 及 Agent 评测将成为一个巨大的潜在市场。
这届 YC 让我们看到创业者对 AI 技术的理解和应用日趋成熟,应用场景大量涌现,可以预见,未来一两年将有更多的场景爆发,人们期盼的 AI 应用百花齐放的时代可能会到来。
03
值得关注的新方向和项目
以下的项目让我们研究时眼前一亮,其中不少有意思的创意,也代表最新的 AI 应用发展趋势。
YC 官网有本次所有入围项目的详细资料:https://www.ycombinator.com/launches?batch=W2024&tag=Artificial+Intelligence&sort=date
AI Agent
从 AI Assistant 到 AI Worker
这期看到的 AI Worker 项目最主要的特点是:主动行动。从诊所前台主动给患者打电话,到医生助理主动进行患者治疗期间的行为监控;从招聘助理主动搜索简历和完成第一次 phone screening 面试,到 Sales 主动给潜在客户致电。
Agent 的行为范围从被动地完成某个任务,逐步扩展到主动完成一个完整的角色场景闭环,这种从 Task 到 Job 的扩展是 Agent 从 AI Assistant 到 AI Worker 发展的关键一步。
迈出这一步之后,Agent 将不受限于亦步亦趋地遵循人类的硬编码指令和工作流(SOP),走进一个更广阔的新世界。当然,获得自由的 Agent 还在等待更有效的 memory 机制、interactive learning 和来自 LLM 更强的推理能力支持。但无论这些技术发展快与慢,我们都将看到越来越多的 AI Worker 进入日常的工作和生活。
数字员工 Agent
HR 招聘:Parasale - AI Recruiter: Find and Engage Candidates on Autopilot(https://parasale.io) 销售 Agent:Ava, The Sales Rep Artisan - The AI Employee Who Automates Cold Email(https://artisan.co/)
领域知识库的构建,从简单的 RAG 技术走向知识的学习和使用
LLM 的神奇之处在于通过 pre-train 过程成功地编码了海量常识知识,并且能通过自然语言交互自如地应用这些知识。然而无论这些通用知识多么完善,都无法覆盖应用领域特定的知识。因此,Agent 如何构建自己的领域知识库、如何有效地使用这些知识、以及如何通过交互学习和积累知识,始终是 Agent 的根本问题,也是最前沿的研究课题。
这期 YC 有一些非常有意思的项目在探索 Agent 的知识发现、构建和学习的实践。领域知识库的构建和交互,从简单的 RAG 技术走向知识的学习和使用。知识的核心表达也从 embedding 变成自然语言,而向量数据库最终将只是一个检索加速的技术。
知识构建与学习
电商:Lumona - Skincare product search with Reddit and YouTube reviews(https://www.lumona.ai) 多模态文本理解:Reducto - Unlocking data behind complex documents(https://reducto.ai) 研究助手:Lumina - help researchers build a knowledge base in minutes(https://lumina-chat.com) 数据处理:Trellis - Make your unstructured data SQL ready(https://runtrellis.com/) 企业搜索:Danswer - Open Source Unified Search(https://www.danswer.ai/)
有趣的垂直应用
Chatbot—从陪伴聊天到心理健康
经过 Sam Altman 多次警告和 OpenAI 应用平台淹没套壳应用的两次重大发布,去年初各种套壳大模型的聊天项目逐渐淡去,创业项目的重点逐渐从通用的陪伴走向针对心理健康/情感的关注。
这期关注到的几个项目包括:心理健康治疗、伴侣关系改进、以及患者行为模式的健康监测。这些项目重点关注场景的专业性,Agent 主动发起交互,从被动的陪伴聊天到主动地有针对性聊天,从利用人性弱点获取流量变成真正帮助人类的心灵健康。
心理健康 Agent
Sonia - AI mental health therapy(https://soniahealth.com) Maia - Transforming relationships using AI(https://www.ourmaia.com/) Attunement - Patient monitoring and treatment recommendation for better behavioral health(http://attunement.ai)
Dev Agent 开始走向真实的软件工程项目,但依然面临很大挑战
这轮 LLM 从代码语料中获得推理能力的突破,而代码也是 AI 最核心的能力,正如过程记忆(Procedural Memory)是人类所有技能的归宿一样,学习任何技能和任务最终只有沉淀成过程记忆才可能获得高确定性、低成本和高度并行的能力。同样对于 Agent,任何任务学习最终只有变成代码才能高效可靠地运行。
虽然不断有明星项目声称自己开发了 AI Programmer 或 Dev Agent,引起市场和大众的追捧,但至今为止还没有哪个项目达到预期。能承担的任务是在变多,但都还没有解决大规模现有代码集的增量开发,哪怕是不影响软件行为的 refactoring 或 bug fixing 的一般任务都远没有做到,足见这个目标的现实难度。
也许,需要 LLM 的推理能力再上一个台阶才有可能突破。这期 YC 的项目应该反应了当下 AI 应用于软件开发领域较为前沿的一些创意,比如:把 Figma 上 UI 设计直接变成代码并支持更新,chat to repo 的代码集层面的语义理解,以及支持以文档(而非代码)为中心的 AI 开发模式。
软件开发 Agent
Agentic Labs - AI system design tools for dev teams(https://agenticlabs.com) ion design - Instantly turn Figma designs into clean React code(https://www.ion.design/) Greptile - AI expert that understands large codebases(https://www.greptile.com)
AI 在政府监管及审批场景的应用
这期项目中看到多个应对政府监管或审批流程的项目,例如:申请国家科学基金、通过 FDA 认证、发现和参与政府采购招标项目等等。这其实是一个非常适合 AI Agent 的场景——在应对严格的规范和过程时,需要非常仔细地研究每一步骤的规范文档,提供和填报高度相关的信息。
针对这些精细的自然语言任务,AI 显然比人类更有优势,而且目前 AI 已经具备了很强的文本理解能力,能够从众多素材中有效地抽取规范要求的内容,加以总结和整理,统一提报。AI 在这个特别领域的应用价值非常显著,缺点是使用频次较低,市场天花板可能不高。
政府流程与监管
政府监管流程:Artos - Turning science into regulatory submissions(https://www.artosai.com/) 政府采购流程:Hazel AI-driven marketplace for government contracts(https://hazeltech.ai/) 政府拨款流程:Aidy - We help businesses and nonprofits apply for grants(https://www.aidygrants.com/)
Healthcare 领域开始出现大批落地场景
由于美国医疗行业的商业价值太大(占 GDP17%),这一轮 LLM 在自然语言交流和理解方面的突破解决了医疗保健行业智能化最大的障碍,像诊所预约、患者回访、手术前沟通以及患者的追踪等,语音界面的 Agent 已呈现出非常好的可用性。这一切不仅显著降低了医疗成本,提升了质量,而且扩大了医疗的服务范围,对患者的健康改善提供了更广泛的支持。
Agent 和电子健康档案系统的集成,也为下一步 AI 参与更多的诊断和治疗任务打下了基础,整个 AI 医生融入现有医疗体系的基本条件已经具备。不过,中美医疗行业的体系、商业模式差异明显,很多创业思路未必适合国内。
医疗
Somn - AI receptionists for healthcare clinics(https://somnapp.com) Arini - The AI receptionist for dentists(https://www.arini.ai) Anaphero - Automating patient-facing tasks with voice AI(https://www.anaphero.com/) HonaLess time with charts. More connected patients.(https://www.hona.ai) Attunement - Patient monitoring and treatment recommendation for better behavioral health(http://attunement.ai)
多模态:视频生成领域创业更多关注剧本
Sora 的发布给 AIGC 领域带来了一场地震,而这场地震也让大家重新思考视频应用的本质。或许视频模型应该提供精细的渲染技术和强大的物理引擎,而场景情节和画面中到底该有什么人和物、角色的性格和表演以及故事主题线索的演进,所有这些才是视频更核心的东西。
毕竟在观众眼中,自然的纹理和物理世界的定律都是高度确定的,没有不行,一旦有了就不再是关注的重点。真正的故事、角色和体验才是人们真正想要的。这期 YC 创业者更多回归到视频生成应用这个更核心的方向上。
谈到故事情节和剧本,真正最能发挥创作想象力的就是游戏——不仅有文学的创作空间,还有声音和影像的体验,最重要是能通过互动,一边创作剧本,一边扮演角色,也就是所谓的互动叙事(Interactive Narrative)。另一方面,由于游戏场景受控,对视频技术的要求比真实物理世界和电影拍摄的要求都低很多,也是多模态 AI 技术的最佳试验场之一。
视频生成与游戏
视频:Eggnog YouTube for AI-generated content(https://www.eggnog.ai) 游戏:Arcane - AI powered Roblox(https://arcanelabs.ai) 视频: Focal - AI movie studio(https://focalml.com) 视频: sync labs- an api for realtime lipsync(https://synclabs.so)
LLM 及 Agent 评测将成为一个巨大的潜在市场
无论现代软件工程规范如何告诫 Test Driven Development 是高质量发展的基础,现实中很少有从开发测试用例开始做项目。背后的原因,一方面在于人们开始的时候很难完全想好自己最终要做的产品是什么样的(越是野心勃勃的产品,越是有这个问题),另一方面很多人都预期开始写的大部分代码将被丢弃。
而现在的 AI 也处于这个阶段,基本上整个产业还处于「裸奔」状态,尤其是 Agent 的评测,基本上是空白,已有的大部分 benchmark 都是用来证明 Agent 如何成功的,很难揭示出 Agent 多样性的失败模式。这期 YC 中有一个很值得关注的项目,其主要亮点就在于构建一个 Agent,专门用于评测其它的 Agent。这个想法虽然很平常,但真做起来会是非常有想象力的一个方向,尤其是如何避免这个评测的 Agent 自身成为一个邪恶的破坏者,也是业界一个很有挑战的问题。同一个方向上,另外一个项目是识别 AI 生成的图像和视频。这个想法虽不新颖,但确实是市场的刚需。
评估及安全
Agent 评估:MAIHEM - Automate quality assurance for your LLM application(https://www.maihem.ai) AI 生成内容检测:Nuanced Detect AI-generated images(https://www.nuanced.dev)
04
AI Native 时代的创业团队特色
我们注意到,这届 YC 有很多顶流学校毕业的年轻人,其中大多数在毕业后 3-5 年开始创业。虽然年轻,他们的项目却显示出了对技术和场景不俗的洞察力。很多公司成立时间很短,项目 demo 的完成度却很高,基本上都能有端到端的场景贯通,并能彰显出项目价值。
也许,这是新一轮技术革命到来的一个显著特征——面对新技术,很大程度上大家都在同一起跑线上,这时年轻人自然有很大的优势。此次入选的项目创始团队大都很紧凑,都是 2-4 个人已经走了很远,且联创者之间有长时间的共事经历和友谊。
另外,我们也发现了这期项目筛选背后的「精英主义」:创业者年轻、教育背景(Harvard、MIT、Stanford、CMU、Berkeley 等)和工作经历(Google、Meta、微软等)好,项目的定位和创意的想象力也出色。对于 W24 的创始团队而言,除了白人占比最多(36%),亚洲人占比其次(25%)。同时,21% 的 W24 公司有女性创始人,11% 的创始人是女性。
也许现阶段,在这些业界顶流的大学和大厂,人们有更多机会接触 AI 技术,对应用场景的洞察视野也更加开阔,周围的精英也更能激发创业者的想象力。YC 的这个选择倾向,在 AI 的时代,不知是原因还是结果。
更多阅读
谷歌又发大招:首款自研 Arm CPU、Gemini 1.5 Pro 公测、Imagen 2.0 对决 Sora
Q1 AGI 融资万字盘点:单笔最高30亿、PMF海外已跑通、资本军备竞赛已开启
明星 AI 产品 Perplexity 宣布加入广告,AI 搜索的下一步只能是「谷歌」吗?