查看原文
其他

太离谱了,AI视频通话被这家厂商搞出来了

果核 果核剥壳
2024-09-25


之前给大家推荐过不少AI相关的工具,对话的、工具类型的、画图和生成视频的等等。


现在又多了一种新玩法!直接跟AI视频对话!AI能同步看清你身边的环境了!



在前不久,口碑非常好的智谱清言App端推出了“与AI视频通话”的功能,可以自由与AI语音对话并打断,就像是真人聊天一样。



更让人有体验感的是,它能通过摄像头感知你身边的环境,有什么问题,对准摄像头直接问就可以。



现在这个功能已经不需要申请,大家等不及想自行探索的,可以直接长按二维码前往APP进行体验!这也是第一个“长眼睛”的国产大模型!


长按上方图片识别


下面来介绍一下这个让人感觉到“强大”的功能。



识别物体



在开启通话功能之后,连接好视频,之后你可以自由移动镜头,比如说让AI描述一下当前的环境,它就能把摄像头里的场景描述出来。


像是播放的动画片也能识别出来,甚至还能看到大雄的表情。


如果是某些商品,你想知道价格,也可以直接问它。不需要说提示词什么的,也不需要特定的前置指令,把AI当做是正常人来提问就行了。



关注的果核的朋友大多对软件感兴趣,也试了一些软件界面(要注意拿近一点),它也能识别屏幕上的内容:是什么软件、界面上的内容等等。




学习利器



像是用它来临时翻译与询问一下身边的英文内容,就非常很方便了,不用反复拍照上传,再等待翻译结果输出。



说完要求,它就能像真人翻译一样给出结果。如果你把AI当做口语老师,它甚至还可以帮你纠正语音和语法错误!好家伙,要知道这在一些教学类型的APP上,是一个月花几百块钱才有的功能。



以后的玩具上也加上类似的功能,那就更有“科幻感”了。


果核试了一下,它也是可以记住看过内容的,而不仅仅是当前画面,比如说,你连续做出两个表示数字的手势,它能知道相加的结果。


另外遇到了书本上的问题,或者直接对着屏幕上的题目,也可以用智谱轻言通话功能来交流,它会在它的能力范围内进行解答。


并且它会用一步一步的解答过程来引导你,而不是直接告诉你全部答案。




圈出重点



在与智谱清言AI对话的过程里,如果画面内容的元素比较多,同时又不想凑太近的时候,你也可以使用它的“圈重点”功能,问它圈出来的内容。



圈出内容之后,像是上面的文字,你就可以与AI聊相关的书籍内容,获取更多相关的知识,在一些场景下,比搜索引擎更快更好用。



积极主动



在体验里,还有一个让人印象深刻的特点,这个AI视频通话它不是一问一答的机械模式,而是“有来有回”,AI会思考一些相关的问题,来询问甚至是关心你的心情。


比如说,它会一些语气助词,会说:“哦~我知道了,你是不是想让我......”


像是下面这个,会问你是不是要查询保质期具体到期时间。



又或者是:“我们上次谈论了XXXXX,现在怎么XXXXX,你感觉XXXXX”。


它还会推测你拍摄的内容,来推测你可能交谈的意图,或者是化身一台夸夸机来夸你。但毕竟是AI,所以它也会说错话,不过等你回过神来,会发现自己是以真人的标准在与它对话。


这种感觉挺微妙的。



不是视频文字总结!



智谱一直瞄准着通用人工智能的技术,在大模型技术上也是在独立自主创新,在 KDD 国际数据挖掘与知识发现大会上,智谱 GLM 团队介绍了新一代基座大模型GLM-4-Plus。


GLM-4V-Plus 是智谱全自研 GLM 大模型的最新版本,在拥有图像理解的基础上,还有基于时间感知的视频理解能力。



它不是那种提取视频文字进行总结的AI助手,而是真正理解视频内容,哪怕没有声音也能理解!像是这段视频中打篮球的内容。



你可以这么问它:



这才是真正的视频AI助手!


一整套流程下来,能感觉到AI加入了“视频视觉能力”之后,一下子就把体验感拉进了,仿佛AI真的像人一样观察着你身边的事物



更多玩法



更多玩法可以看看智谱官方做的Demo视频,近5分钟的内容,量大管饱,看上去确实有意思,从游戏互动到观察论文,以后要是能搭配上个人音色...那赛博生命可就越来越近了。



这类功能之前OpenAI的4o模式也展示过类似的功能,但迟迟没有大范围实装,现在国产的智谱清言倒是抢先一步,免费开放出来了让大家使用。


等到后面加入更多功能和电脑端支持,可玩性会更高,如果你想成为AI类软件的高级玩家,趁大家还在同一起跑线上,赶紧玩起来吧!


长按上方图片识别


附上智谱清言的工具地址二维码,也可以点击文末的“阅读原文”访问。

继续滑动看下一个
果核剥壳
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存