查看原文
其他

拥抱开源,我在同一天实现了数字分身和3D手办的自由

AI沃茨 卡尔的AI沃茨
2024-11-06

腾讯悄咪咪开源了两款新模型:

Hunyuan3D-1.0 和 Hunyuan-Large

开源大模型更新到这个版本,早就从光刷榜变成了卷应用创新。简单来说,模型已经从只追求分数变成了探索能力实现的边界。

故事要从我是如何发现这两个模型开始:

到年底了,我开始计划打卡我的第一百座城市,

跟以往不同的是,我想挑战一下 AI 化这次的旅行。

旅行时,导航语音用自己配的,车载音乐用Suno实时生成,旅行结束修图时,还可以用AI生图把过去和现在融到同一个画面中。

当我到了下载离线地图的一步,发现腾讯地图悄咪咪上了一个自定义3D车标功能。(小声bb,隔壁家的3D车标还是付费功能)。

玩起来根本停不下来,


 这个功能也太适合整活了,虽然已经反复跟我强调了要上传一个完整物体,但我还是传了一张我家狗的近照。


哈哈哈哈哈,虽然它没法陪我去,但是我可以做成狗狗车载着我去~

强烈建议腾讯做一个网站,专门拿来展示社区用户做出来的车标们,我想都收藏起来,或者将自己的手办墙都转成3D资产。

今天腾讯还把这个 3D 模型开源了,它就是:


 Hunyuan3D-1.0 

在两个公开的 3D 数据集 GSO 与 OmniObject3D 上,Hunyuan3D-1.0效果优于主流开源模型。

开源地址:https://huggingface.co/tencent/Hunyuan3D-1

而这个 3D 生成功能也在腾讯元宝上线了,拍张正脸照就可以做个 3D 小人,还能自由切换不同的姿势。

仔细想想之后线下买手办是不是都可以实时3D化了。

(看👀,马斯克小人)

同期开源的还不止 3D 大模型,常规的文本生成模型也开源了更大规模的。


 Hunyuan-Large 

总参数量389B,激活参数量50B,上下文长度达128k,是当前业界参数规模最大、效果最好的开源 MoE 模型。多个榜单上全面超过 DeepSeek-v2,LIama3.1-405B,Mixtral-8x22B 等开源模型。

开源地址:https://github.com/Tencent/Hunyuan3D-1

最爽的是支持用 openai 同款格式调用了,夸张点说市面能自定义模型 API 的软件都能用上 Hunyuan-Large。

光说参数,可能体现不出来它的实用之处。有一个功能,我就眼馋很久了:

一般搜索时,我们需要浏览10-30个页面才能把这一件事了解个大概,在质量远比不上一篇整理好的公众号文章。在腾讯元宝里,微信公众号可以直接作为 AI 搜索的信息源之一,单篇文章基本都能自成体系,效率加倍。

除了搜索,我还可以直接把公众号链接丢进元宝,就可以读取所有的内容,根本不用担心图片格式啥的。

除了这个,还有一个使用技巧,我称之为,

定向搜索

我们可以将平时常看的公众号做成列表,在使用元宝的时候将这些作为关键词,直接总结出这些主流账号对某件事的讲解、对于某些事件的看法、甚至是他们自己公众号的写作风格:

这有个硬伤,就是公众号的文章内容是外面的大模型读取不了的,但元宝都可以,而且非常好用。

就是那么巧,我昨天发现了 chatbox 能跟 hunyuan api 形成热血沸腾的组合技,

简单来说,我们可以通过 Hunyuan-Large API,在任意平台做一个原生元宝了,用来处理博客和 AI 写作都是一流!

目前,混元Large模型已上架腾讯云TI-ONE训练平台,支持在线精调专属模型。

官方的手把手级别教程让我计划后续做一个旅行博主版的数字分身,毕竟Vlogger这个新鲜的蛋糕我也想跨界尝一口。

🔗官方教程:https://cloud.tencent.com/document/product/851/112032


写在最后

好耶,我想已经做好了旅行出发前的 AI 准备了,

为了24小时不掉线,我把混元接入到公众号后已经稳定运行了2个月了,

从后台的聊天记录上看,

大家甚至都没发现我是个赛博分身。

现在,电脑里安装了开源模型带来的安心感,

就像是开了飞行模式手机里还有100 部离线电影一样安心。

不依赖网络,未来人人也都模型自由,

这大概就是开源魅力所在吧。


@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……

继续滑动看下一个
卡尔的AI沃茨
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存