小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

Original 可怜的小互小互AI

2025-01-03

继2023年的一路狂飙后，2024依旧是AI”度日如年“的疯狂发展，日新月异，每天依旧都是颠覆昨天的创新发展。

AI 已初步展现出推动人类迈向高速发展阶段的迹象。

虽然OpenAI依旧保持领先的地位，但是其他家与其的差距正在逐步缩小，Anthropic公司 Claude Sonnet 3.5 已追上 OpenAI 的先进模型，年末的Google的Gemini 2.0更是显示了Google后发制人的强劲实力。

开原模型也出现了爆发式的发展，Meta AI、微软、Google、Mistral AI 、阿里、智谱、幻方将开源模型推向了新的高度，不仅能力紧追OpenAI，价格成本也是一降再降，为明年的AI应用爆发奠定了基础。

同时OpenAI的o1和o3推理模型为明年的模型发展指明了方向。

在视频生成模型领域，OpenAI 的 Sora 虽然起了一个大早，但是赶了个晚集，2 月份发布，却一直到 12 月份才正式可以使用，效果也未及预期。反而快手在 Sora 发布 4 个月后，奇迹般的发布了可灵AI，一路高歌猛进，引领了全年的 AI 视频生成模型发展，随后 Runway、Luma、海螺、即梦等都采用了相似的 DIT 架构，推动了行业的发展。上线以来，可灵更是经过近 20 次产品功能快速迭代升级。截至 2024 年 12 月 10 日，可灵已拥有超过 600 万用户，累计生成超 6500 万个视频和超 1.75 亿张图片。而且已经在电商、影视娱乐、广告等领域开始商用。

随着年末Google Veo2加入战局，更是将AI视频生成模型推向了新的高度（虽然还未开放），明年 AI 视频将是更加刺激的一年。

不仅是模型能力的提升，在机器人领域、计算硬件、工具应用、科学研究等多个行业AI正在加速各行各业的发展，预示着明年将是AI应用落地的真正元年，不管是在硬件领域还是应用方面明年都将是大爆发的状况。

2024重大AI 科技和工具盘点：

1. 机器人快速发展

Tesla Optimus：特斯拉公开展示其最新一代Optimus机器人，22个自由度的第三代手部设计，能够自主处理复杂任务，如装配线作业、上下楼梯、物品搬运等。
宇树科技 Unitree Go2：宇树科技推出的四足机器人，具备自主避障、路径规划和复杂地形适应能力，可用于安防巡检、科研教育等领域。
波士顿动力 e-Atlas：全新的电动人形机器人，360度关节旋转，具备卓越的体操能力。
Figure 02：接入ChatGPT，能自主决策和对话，已进入批量生产机器人，进行全球发货的机器人。
Clone：可以生产类似西部世界里面的仿生机器人的公司，采用仿生肌肉和肌腱设计，具有24个自由度和37条McKibben肌肉，能够执行多种操作任务。

2. 嵌入式AI（机器人“大脑”）

Tesla FSD v12：世界规模最大的物理AI数据飞轮，全球首个端到端依靠纯视觉指导机器决策的AI，重新定义自动驾驶领域。
NVIDIA Project GR00T：英伟达开发的通用机器人大脑，可以在虚拟空间中进行训练然后无缝的转移到实体机器人身上。
HOVER：1.5M基础模型，模拟人类小脑的“潜意识”运动协调能力。
DrEureka：用模拟训练机器人狗在瑜伽球上平衡并行走，零次微调后即可直接在真实设备上运行。

3. 计算硬件

NVIDIA Blackwell：新架构达到单机架1 Exaflop的计算能力。
Jetson Nano Super：小型化高性能计算设备，售价仅$249，适用于机器人边缘计算任务。
Google Willow Chip：谷歌量子计算芯片，量子计算的突破，解决随机电路采样问题，仅用5分钟完成常规计算机需10^27年的任务。

4. 视频生成与世界建模

Sora：首个长视频生成模型发布，能模拟真实物理世界，开启AI视频生成新范式。起个大早赶个晚集。
Kling AI：由快手自研的视频生成大模型，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。紧随Sora，中国首款引领世界的AI模型，开启了AI生成视频模型新的高度。
Veo 2：Google年末逆袭推出的高物理精度生成模型，可精准模拟真实物理世界，生成的视频逼真而且符合现实世界的运动规律。
Runway Gen-3：基于文本和图像的多模态生成模型，它在保真度、一致性、运动和速度方面都比以前的模型有所改进，能够进行精细时间控制。Gen-3能够生成表达丰富的、逼真的人类角色，提供广泛的动作、手势和情绪控制，开启了新的视频叙事方式。

GameNGen、Oasis、GENIE-2：动作驱动的世界建模模型，能够生成交互式的3D游戏世界，如《DOOM》，用户可以直接进行交互，开启了实时游戏世界生成的新可能。

World Labs：由李飞飞领导的团队，展示了具几何一致性的3D世界生成模型。

5. 大语言模型（LLMs）

Claude Sonnet 3.5：Anthropic团队推出的新一代AI模型，最低版本的模型比肩OpenAI的高端模型GPT 4o。
Gemini 2.0：在速度和效率上相较前代有显著提升。其中，Gemini 2.0 Flash模型的处理速度是Gemini 1.5 Pro的两倍，关键性能指标也有大幅提高。可进行实时的视觉处理，开启了新一代多模态模型的新高度。
o1与o3：OpenAI推出的旗舰推理模型，利用强化学习来提高模型的推理能力，为实现AGI指明了新的路径。

GPT-4o：集成图像、大语言模型、、视觉、实时语音的多模态模型，支持实时的语音到语音的交流，是目前全球性能最全面的可商用模型。
Llama-3：Meta AI2024年推出的最新开源大型语言模型（LLM）系列，Llama 3系列包括不同规模的模型，参数量从80亿（8B）到4050亿（405B）不等，满足从消费级硬件到数据中心级应用的多样化需求。性能媲美GPT-4，为开源模型树立了新的标杆。
智谱AutoGLM：首个可以在手机和网页上完成自动任务的AI代理，能代替你在手机和网页上完成各种操作只需要说出你的需求，AutoGLM就可以可以模拟像人类操作手机或者网页全自动搞定。
豆包：国内唯一具有视觉能力、语音能力、多模态能力、音乐能力、图像生成能力的AI模型，国内唯一一个可以和ChatGPT匹敌的国产AI助手。
混元视频模型：腾讯开发的开源视频生成模型，能力和闭源视频生成模型相当，为视频生成模型领域贡献了开源力量。

6. 人类科技进步

AlphaFold：Google Deepmind 开发的能够预测蛋白质结构的AI模型，因蛋白质折叠的革命性成果获得诺贝尔奖。
Neuralink：马斯克脑机接口公司的Neuralink实现首位人类芯片植入，瘫痪患者通过脑控操作数字设备，包括打游戏、浏览网页等。
Apple Vision Pro：苹果正式发售其首款混合现实设备Vision Pro，为MR领域设立了新的行业标杆。
SpaceX的星舰：星舰在2024年进行了多次试飞，在第五次试飞成功实现了“筷子夹火箭”的火箭回收新壮举，标志着火箭可重复使用技术取得了重大突破。
嫦娥六号：成功将月球背面样品带回地球，完成了一次历时53天、往返38万公里的太空之旅。
核聚变突破： 国际热核实验堆（ITER）实现持续100秒以上的净能量输出，这是核聚变技术迈向实用化的关键一步。
癌症治疗的新策略：利用CRISPR基因编辑技术，科学家成功开发了个性化癌症疫苗，显著提高了某些类型癌症患者的存活率。

7. AI工具推荐

AI聊天助手

OpenAI o1：适合复杂任务的推理模型，效果好，速度慢
Claude3.5：编程和文字撰写、文档总结处理等工作一流
GPT 4o：综合能力强，高级语音、视觉能力、图像文档处理、网络搜索、图像生成一应俱全
Gemini 2.0 Flash：Google最新的模型，超长上下文、实时视觉能力，超越GPT 4o，但还没正式发布
豆包AI：中文AI模型唯一能和GPT 4o比拟的AI助手，语音、视觉能力、音乐、图像文档处理、网络搜索、图像视频生成，一应俱全，用户体验优异。
Monica：集合所有主流AI助手和图像视频生成模型的综合AI集合平台，物美价廉，体验优异
Poe：：集合所有主流AI助手和图像视频生成模型的AI集合平台，体验一般

图像生成编辑

Midjourney：图像生成、AI摄影优异选手
Flux（开源)：开源图像生成后起之秀，在图像清晰度和细节逼真度上表现出色，甚至在某些方面超越了Midjourney
Stable Diffusion（开源）：以其开源免费和强大的图像生成能力著称，但近期更新速度有所放缓。
即梦AI：专注于中文海报、字体和图像生成，具备强大的中文提示词理解和生成能力，适合中文用户使用。
Recraft：支持多种风格的图像生成和编辑，提供丰富的功能，满足用户多样化的创作需求。
Ideogram：适用于英文海报制作和图像编辑，特别擅长处理英文文本和图像的融合。
Freepik：在海报制作和图像编辑方面综合能力强，提供大量模板和素材，方便用户进行创作。
Canva：提供大量适用于社交媒体、演示文稿、海报、名片等的设计模板，覆盖不同场景需求。用户可以通过简单的拖放操作轻松创建个性化设计，降低设计门槛

视频生成编辑

Kling AI：由快手开发的文本到视频生成模型，可根据文本提示生成高质量、电影级视频，支持长达两分钟的内容
Runway：视频生成综合能力强，提供多种视频编辑工具，可进行大幅度镜头控制、表情动作转移，提供多种创新的编辑选项和智能工具
Hailuo AI：由MiniMax开发的AI视频生成器，可从文本描述生成高质量、独特的视频片段，对人物表情把握能力强，动画能力优异
即梦AI：具备强大的中文提示词理解和生成能力，对镜头的操控能力强，可大幅度进行镜头控制
Luma AI：3D效果能力强，能够生成物理准确、一致且充满事件的镜头
Krea AI：集成多种先进AI视频生成模型的一站式平台，包括Luma、Runway、Kling AI等，旨在简化创作者的视频制作流程。
PIka：AI驱动的从想法到视频的平台，能将文本、图像和视频转化为具有高级功能的沉浸式的内容。支持多个图像、场景和人物的融合。
Hunyuan（开源）：开源视频领域效果最好的模型，能够在低资源需求的设备上运行，适合本地AI视频创作。
Pixverse：AI视频生成工具，支持从文本或图像生成视频，提供多种风格和效果选择，漫画能力强

AI编程辅助

Bolt.new：支持在浏览器中进行完整的全栈开发，包括前端和后端代码的编写和预览，适合完全不懂代码的小白
Windsurf：AI 驱动的集成开发环境，提供自动化代码生成、上下文理解和智能修复功能
Cursor：基于 Visual Studio Code 的 AI 编程助手，提供智能代码补全、错误提示和代码生成等功能
v0：基于云端的 AI 驱动前端开发工具，专注于高效的 UI 原型设计，帮助开发者快速构建前端应用
Github Copilot：由 GitHub 和 OpenAI 合作开发的 AI 辅助编程工具，提供智能代码建议和自动补全功能，支持多种编程语言，提升开发者的生产力
Devin：首个AI工程师，可以将复杂的代码任务拆分成多个小任务，自动执行编码任务，大幅提升工作效率

语音工具

NotebookLM：由谷歌推出的实验性笔记工具，可以将任何文档转换成双人语音播客内容
Elevenlabs：全球领先的AI语音服务提供商，支持几乎全球所有语言，能生成各种语音风格，实时转换
Fish audio：开源TTS工具，支持语音克隆和文本转语音功能，中文语音能力强
SenseVoice 和 CosyVoice：阿里巴巴推出的开源语音处理模型，SenseVoice用于语音识别，CosyVoice用于语音合成，二者结合可实现高效的语音交互
Azure audio：微软Azure云服务中的语音合成功能，提供多语言、多语音风格的文本转语音服务，适用于各种应用场景
F5 TTS：开源的语音克隆和文本转语音工具，支持快速生成高质量的语音输出，支持中英文
Openai whisper：OpenAI开发的自动语音识别（ASR）系统，能够将语音转换为文本，支持多种语言和方言，具有高准确率。
ChatTTS：开源的文本转语音模型，支持多种语言和音色，能够生成自然流畅的语音输出
Suno：人工智能音乐创作工具，用户可以通过输入文本提示，生成包含人声和乐器的完整音乐作品。

AI搜索

Perplexity：全球最大的AI搜索工具，能够智能理解用户需求，提供精炼答案，并支持深度对话和多种搜索模式，如学术搜索等。
ChatGPT Search：ChatGPT增强型搜索功能，为用户提供实时、上下文相关的搜索体验。可生成显示各种交互界面，如天气、股票信息、地图等。
Felo：由日本公司Sparticle株式会社推出的AI搜索工具，具备跨语言搜索能力，能够突破封闭平台（如小红书、Reddit）的内容限制。
Genspark：通过整合多种信息源，提供深入的搜索结果，并能生成专门的类似维基百科的专属答案聚合界面，支持多种语言的搜索需求。
秘塔：通过智能算法，直接呈现最相关的结果，并提供思维导图等辅助工具，帮助用户快速建立知识框架。
纳米搜索：通过整合多种信息源，提供实时更新的搜索结果，同时支持对生成的结果进行二次直接创作，大幅提高工作效率。

看完记得点赞转发关注三连

加入XiaoHu.ai 日报社群每天获取最新的AI信息

结束...

继续滑动看下一个

小互AI

向上滑动看下一个

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

2024重大AI 科技和工具盘点：

1. 机器人快速发展

2. 嵌入式AI（机器人“大脑”）

3. 计算硬件

4. 视频生成与世界建模

5. 大语言模型（LLMs）

6. 人类科技进步

7. AI工具推荐

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

2024重大AI 科技和工具盘点：

1. 机器人快速发展

2. 嵌入式AI（机器人“大脑”）

3. 计算硬件

4. 视频生成与世界建模

5. 大语言模型（LLMs）

6. 人类科技进步

7. AI工具推荐

您可能也对以下帖子感兴趣