查看原文
其他

小互AI年度总结:2024重大AI技术和超实用AI工具盘点...

可怜的小互 小互AI
2025-01-03

继2023年的一路狂飙后,2024依旧是AI”度日如年“的疯狂发展,日新月异,每天依旧都是颠覆昨天的创新发展。

AI 已初步展现出推动人类迈向高速发展阶段的迹象。

虽然OpenAI依旧保持领先的地位,但是其他家与其的差距正在逐步缩小,Anthropic公司 Claude Sonnet 3.5 已追上 OpenAI 的先进模型,年末的Google的Gemini 2.0更是显示了Google后发制人的强劲实力。

开原模型也出现了爆发式的发展,Meta AI、微软、Google、Mistral AI 、阿里、智谱、幻方将开源模型推向了新的高度,不仅能力紧追OpenAI,价格成本也是一降再降,为明年的AI应用爆发奠定了基础。

同时OpenAI的o1和o3推理模型为明年的模型发展指明了方向。

在视频生成模型领域,OpenAI 的 Sora 虽然起了一个大早,但是赶了个晚集,2 月份发布,却一直到 12 月份才正式可以使用,效果也未及预期。反而快手在 Sora 发布 4 个月后,奇迹般的发布了可灵AI,一路高歌猛进,引领了全年的 AI 视频生成模型发展,随后 Runway、Luma、海螺、即梦等都采用了相似的 DIT 架构,推动了行业的发展。上线以来,可灵更是经过近 20 次产品功能快速迭代升级。截至 2024 年 12 月 10 日,可灵已拥有超过 600 万用户,累计生成超 6500 万个视频和超 1.75 亿张图片。而且已经在电商、影视娱乐、广告等领域开始商用。

随着年末Google Veo2加入战局,更是将AI视频生成模型推向了新的高度(虽然还未开放),明年 AI 视频将是更加刺激的一年。

不仅是模型能力的提升,在机器人领域、计算硬件、工具应用、科学研究等多个行业AI正在加速各行各业的发展,预示着明年将是AI应用落地的真正元年,不管是在硬件领域还是应用方面明年都将是大爆发的状况。

2024重大AI 科技和工具盘点:

1. 机器人快速发展

  • Tesla Optimus:特斯拉公开展示其最新一代Optimus机器人,22个自由度的第三代手部设计,能够自主处理复杂任务,如装配线作业、上下楼梯、物品搬运等。

  • 宇树科技 Unitree Go2:宇树科技推出的四足机器人,具备自主避障、路径规划和复杂地形适应能力,可用于安防巡检、科研教育等领域。

  • 波士顿动力 e-Atlas:全新的电动人形机器人,360度关节旋转,具备卓越的体操能力。

  • Figure 02接入ChatGPT,能自主决策和对话,已进入批量生产机器人,进行全球发货的机器人。

  • Clone可以生产类似西部世界里面的仿生机器人的公司,采用仿生肌肉和肌腱设计,具有24个自由度和37条McKibben肌肉,能够执行多种操作任务。


2. 嵌入式AI(机器人“大脑”)

  • Tesla FSD v12:世界规模最大的物理AI数据飞轮,全球首个端到端依靠纯视觉指导机器决策的AI,重新定义自动驾驶领域。

  • NVIDIA Project GR00T:英伟达开发的通用机器人大脑,可以在虚拟空间中进行训练然后无缝的转移到实体机器人身上。

  • HOVER:1.5M基础模型,模拟人类小脑的“潜意识”运动协调能力。

  • DrEureka:用模拟训练机器人狗在瑜伽球上平衡并行走,零次微调后即可直接在真实设备上运行。


3. 计算硬件

  • NVIDIA Blackwell:新架构达到单机架1 Exaflop的计算能力。

  • Jetson Nano Super:小型化高性能计算设备,售价仅$249,适用于机器人边缘计算任务。

  • Google Willow Chip:谷歌量子计算芯片,量子计算的突破,解决随机电路采样问题,仅用5分钟完成常规计算机需10^27年的任务。


4. 视频生成与世界建模

  • Sora:首个长视频生成模型发布,能模拟真实物理世界,开启AI视频生成新范式。起个大早赶个晚集。

  • Kling AI:由快手自研的视频生成大模型,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。紧随Sora,中国首款引领世界的AI模型,开启了AI生成视频模型新的高度。

  • Veo 2:Google年末逆袭推出的高物理精度生成模型,可精准模拟真实物理世界,生成的视频逼真而且符合现实世界的运动规律。

  • Runway Gen-3:基于文本和图像的多模态生成模型,它在保真度、一致性、运动和速度方面都比以前的模型有所改进,能够进行精细时间控制。Gen-3能够生成表达丰富的、逼真的人类角色,提供广泛的动作、手势和情绪控制,开启了新的视频叙事方式。

  • GameNGen、Oasis、GENIE-2:动作驱动的世界建模模型,能够生成交互式的3D游戏世界,如《DOOM》,用户可以直接进行交互,开启了实时游戏世界生成的新可能。

  • World Labs:由李飞飞领导的团队,展示了具几何一致性的3D世界生成模型。


5. 大语言模型(LLMs)

  • Claude Sonnet 3.5:Anthropic团队推出的新一代AI模型,最低版本的模型比肩OpenAI的高端模型GPT 4o。

  • Gemini 2.0:在速度和效率上相较前代有显著提升。其中,Gemini 2.0 Flash模型的处理速度是Gemini 1.5 Pro的两倍,关键性能指标也有大幅提高。可进行实时的视觉处理,开启了新一代多模态模型的新高度。

  • o1与o3:OpenAI推出的旗舰推理模型,利用强化学习来提高模型的推理能力,为实现AGI指明了新的路径。

  • GPT-4o:集成图像、大语言模型、、视觉、实时语音的多模态模型,支持实时的语音到语音的交流,是目前全球性能最全面的可商用模型。

  • Llama-3:Meta AI2024年推出的最新开源大型语言模型(LLM)系列,Llama 3系列包括不同规模的模型,参数量从80亿(8B)到4050亿(405B)不等,满足从消费级硬件到数据中心级应用的多样化需求。性能媲美GPT-4,为开源模型树立了新的标杆。

  • 智谱AutoGLM:首个可以在手机和网页上完成自动任务的AI代理,能代替你在手机和网页上完成各种操作只需要说出你的需求,AutoGLM就可以可以模拟像人类操作手机或者网页全自动搞定。

  • 豆包:国内唯一具有视觉能力、语音能力、多模态能力、音乐能力、图像生成能力的AI模型,国内唯一一个可以和ChatGPT匹敌的国产AI助手。

  • 混元视频模型:腾讯开发的开源视频生成模型,能力和闭源视频生成模型相当,为视频生成模型领域贡献了开源力量。


6. 人类科技进步

  • AlphaFold:Google Deepmind 开发的能够预测蛋白质结构的AI模型,因蛋白质折叠的革命性成果获得诺贝尔奖。

  • Neuralink:马斯克脑机接口公司的Neuralink实现首位人类芯片植入,瘫痪患者通过脑控操作数字设备,包括打游戏、浏览网页等。

  • Apple Vision Pro:苹果正式发售其首款混合现实设备Vision Pro,为MR领域设立了新的行业标杆。

  • SpaceX的星舰星舰在2024年进行了多次试飞,在第五次试飞成功实现了“筷子夹火箭”的火箭回收新壮举,标志着火箭可重复使用技术取得了重大突破。

  • 嫦娥六号:成功将月球背面样品带回地球,完成了一次历时53天、往返38万公里的太空之旅。

  • 核聚变突破: 国际热核实验堆(ITER)实现持续100秒以上的净能量输出,这是核聚变技术迈向实用化的关键一步。

  • 癌症治疗的新策略:利用CRISPR基因编辑技术,科学家成功开发了个性化癌症疫苗,显著提高了某些类型癌症患者的存活率。

7. AI工具推荐

AI聊天助手

  1. OpenAI o1:适合复杂任务的推理模型,效果好,速度慢

  2. Claude3.5:编程和文字撰写、文档总结处理等工作一流

  3. GPT 4o:综合能力强,高级语音、视觉能力、图像文档处理、网络搜索、图像生成一应俱全

  4. Gemini 2.0 Flash:Google最新的模型,超长上下文、实时视觉能力,超越GPT 4o,但还没正式发布

  5. 豆包AI:中文AI模型唯一能和GPT 4o比拟的AI助手,语音、视觉能力、音乐、图像文档处理、网络搜索、图像视频生成,一应俱全,用户体验优异。

  6. Monica:集合所有主流AI助手和图像视频生成模型的综合AI集合平台,物美价廉,体验优异

  7. Poe::集合所有主流AI助手和图像视频生成模型的AI集合平台,体验一般

图像生成编辑

  1. Midjourney:图像生成、AI摄影优异选手

  2. Flux(开源):开源图像生成后起之秀,在图像清晰度和细节逼真度上表现出色,甚至在某些方面超越了Midjourney

  3. Stable Diffusion(开源):以其开源免费和强大的图像生成能力著称,但近期更新速度有所放缓。

  4. 即梦AI:专注于中文海报、字体和图像生成,具备强大的中文提示词理解和生成能力,适合中文用户使用。

  5. Recraft:支持多种风格的图像生成和编辑,提供丰富的功能,满足用户多样化的创作需求。

  6. Ideogram:适用于英文海报制作和图像编辑,特别擅长处理英文文本和图像的融合。

  7. Freepik:在海报制作和图像编辑方面综合能力强,提供大量模板和素材,方便用户进行创作。

  8. Canva:提供大量适用于社交媒体、演示文稿、海报、名片等的设计模板,覆盖不同场景需求。用户可以通过简单的拖放操作轻松创建个性化设计,降低设计门槛

视频生成编辑
  1. Kling AI:由快手开发的文本到视频生成模型,可根据文本提示生成高质量、电影级视频,支持长达两分钟的内容

  2. Runway:视频生成综合能力强,提供多种视频编辑工具,可进行大幅度镜头控制、表情动作转移,提供多种创新的编辑选项和智能工具

  3. Hailuo AI:由MiniMax开发的AI视频生成器,可从文本描述生成高质量、独特的视频片段,对人物表情把握能力强,动画能力优异

  4. 即梦AI:具备强大的中文提示词理解和生成能力,对镜头的操控能力强,可大幅度进行镜头控制

  5. Luma AI:3D效果能力强,能够生成物理准确、一致且充满事件的镜头

  6. Krea AI:集成多种先进AI视频生成模型的一站式平台,包括Luma、Runway、Kling AI等,旨在简化创作者的视频制作流程。

  7. PIka:AI驱动的从想法到视频的平台,能将文本、图像和视频转化为具有高级功能的沉浸式的内容。支持多个图像、场景和人物的融合。

  8. Hunyuan(开源):开源视频领域效果最好的模型,能够在低资源需求的设备上运行,适合本地AI视频创作。

  9. Pixverse:AI视频生成工具,支持从文本或图像生成视频,提供多种风格和效果选择,漫画能力强

AI编程辅助

  1. Bolt.new:支持在浏览器中进行完整的全栈开发,包括前端和后端代码的编写和预览,适合完全不懂代码的小白

  2. Windsurf:AI 驱动的集成开发环境,提供自动化代码生成、上下文理解和智能修复功能

  3. Cursor:基于 Visual Studio Code 的 AI 编程助手,提供智能代码补全、错误提示和代码生成等功能

  4. v0:基于云端的 AI 驱动前端开发工具,专注于高效的 UI 原型设计,帮助开发者快速构建前端应用

  5. Github Copilot:由 GitHub 和 OpenAI 合作开发的 AI 辅助编程工具,提供智能代码建议和自动补全功能,支持多种编程语言,提升开发者的生产力

  6. Devin:首个AI工程师,可以将复杂的代码任务拆分成多个小任务,自动执行编码任务,大幅提升工作效率

语音工具

  1. NotebookLM:由谷歌推出的实验性笔记工具,可以将任何文档转换成双人语音播客内容

  2. Elevenlabs:全球领先的AI语音服务提供商,支持几乎全球所有语言,能生成各种语音风格,实时转换

  3. Fish audio:开源TTS工具,支持语音克隆和文本转语音功能,中文语音能力强

  4. SenseVoice 和 CosyVoice:阿里巴巴推出的开源语音处理模型,SenseVoice用于语音识别,CosyVoice用于语音合成,二者结合可实现高效的语音交互

  5. Azure audio:微软Azure云服务中的语音合成功能,提供多语言、多语音风格的文本转语音服务,适用于各种应用场景

  6. F5 TTS:开源的语音克隆和文本转语音工具,支持快速生成高质量的语音输出,支持中英文

  7. Openai whisper:OpenAI开发的自动语音识别(ASR)系统,能够将语音转换为文本,支持多种语言和方言,具有高准确率。

  8. ChatTTS:开源的文本转语音模型,支持多种语言和音色,能够生成自然流畅的语音输出

  9. Suno:人工智能音乐创作工具,用户可以通过输入文本提示,生成包含人声和乐器的完整音乐作品。 

AI搜索

  1. Perplexity:全球最大的AI搜索工具,能够智能理解用户需求,提供精炼答案,并支持深度对话和多种搜索模式,如学术搜索等。

  2. ChatGPT Search:ChatGPT增强型搜索功能,为用户提供实时、上下文相关的搜索体验。可生成显示各种交互界面,如天气、股票信息、地图等。

  3. Felo:由日本公司Sparticle株式会社推出的AI搜索工具,具备跨语言搜索能力,能够突破封闭平台(如小红书、Reddit)的内容限制。

  4. Genspark:通过整合多种信息源,提供深入的搜索结果,并能生成专门的类似维基百科的专属答案聚合界面,支持多种语言的搜索需求。

  5. 秘塔:通过智能算法,直接呈现最相关的结果,并提供思维导图等辅助工具,帮助用户快速建立知识框架。

  6. 纳米搜索:通过整合多种信息源,提供实时更新的搜索结果,同时支持对生成的结果进行二次直接创作,大幅提高工作效率。

看完记得 点赞转发关注 三连

加入XiaoHu.ai 日报社群 每天获取最新的AI信息



结束...

继续滑动看下一个
小互AI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存