拥抱开源,我在同一天实现了数字分身和3D手办的自由
腾讯悄咪咪开源了两款新模型:
Hunyuan3D-1.0 和 Hunyuan-Large
开源大模型更新到这个版本,早就从光刷榜变成了卷应用创新。简单来说,模型已经从只追求分数变成了探索能力实现的边界。
故事要从我是如何发现这两个模型开始:
到年底了,我开始计划打卡我的第一百座城市,
跟以往不同的是,我想挑战一下 AI 化这次的旅行。
旅行时,导航语音用自己配的,车载音乐用Suno实时生成,旅行结束修图时,还可以用AI生图把过去和现在融到同一个画面中。
当我到了下载离线地图的一步,发现腾讯地图悄咪咪上了一个自定义3D车标功能。(小声bb,隔壁家的3D车标还是付费功能)。
玩起来根本停不下来,
这个功能也太适合整活了,虽然已经反复跟我强调了要上传一个完整物体,但我还是传了一张我家狗的近照。
哈哈哈哈哈,虽然它没法陪我去,但是我可以做成狗狗车载着我去~
强烈建议腾讯做一个网站,专门拿来展示社区用户做出来的车标们,我想都收藏起来,或者将自己的手办墙都转成3D资产。
今天腾讯还把这个 3D 模型开源了,它就是:
Hunyuan3D-1.0
在两个公开的 3D 数据集 GSO 与 OmniObject3D 上,Hunyuan3D-1.0效果优于主流开源模型。
而这个 3D 生成功能也在腾讯元宝上线了,拍张正脸照就可以做个 3D 小人,还能自由切换不同的姿势。
仔细想想之后线下买手办是不是都可以实时3D化了。
(看👀,马斯克小人)
同期开源的还不止 3D 大模型,常规的文本生成模型也开源了更大规模的。
Hunyuan-Large
总参数量389B,激活参数量50B,上下文长度达128k,是当前业界参数规模最大、效果最好的开源 MoE 模型。多个榜单上全面超过 DeepSeek-v2,LIama3.1-405B,Mixtral-8x22B 等开源模型。
最爽的是支持用 openai 同款格式调用了,夸张点说市面能自定义模型 API 的软件都能用上 Hunyuan-Large。
光说参数,可能体现不出来它的实用之处。有一个功能,我就眼馋很久了:
一般搜索时,我们需要浏览10-30个页面才能把这一件事了解个大概,在质量远比不上一篇整理好的公众号文章。在腾讯元宝里,微信公众号可以直接作为 AI 搜索的信息源之一,单篇文章基本都能自成体系,效率加倍。
除了搜索,我还可以直接把公众号链接丢进元宝,就可以读取所有的内容,根本不用担心图片格式啥的。
除了这个,还有一个使用技巧,我称之为,
定向搜索
我们可以将平时常看的公众号做成列表,在使用元宝的时候将这些作为关键词,直接总结出这些主流账号对某件事的讲解、对于某些事件的看法、甚至是他们自己公众号的写作风格:
这有个硬伤,就是公众号的文章内容是外面的大模型读取不了的,但元宝都可以,而且非常好用。
就是那么巧,我昨天发现了 chatbox 能跟 hunyuan api 形成热血沸腾的组合技,
简单来说,我们可以通过 Hunyuan-Large API,在任意平台做一个原生元宝了,用来处理博客和 AI 写作都是一流!
目前,混元Large模型已上架腾讯云TI-ONE训练平台,支持在线精调专属模型。
官方的手把手级别教程让我计划后续做一个旅行博主版的数字分身,毕竟Vlogger这个新鲜的蛋糕我也想跨界尝一口。
写在最后
好耶,我想已经做好了旅行出发前的 AI 准备了,
为了24小时不掉线,我把混元接入到公众号后已经稳定运行了2个月了,
从后台的聊天记录上看,
大家甚至都没发现我是个赛博分身。
现在,电脑里安装了开源模型带来的安心感,
就像是开了飞行模式手机里还有100 部离线电影一样安心。
不依赖网络,未来人人也都模型自由,
这大概就是开源魅力所在吧。
@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro
最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……