查看原文
其他

商汤科技“日日新5o”发布,能听会看还会找话题

上海徐汇
2024-10-04




随便翻开一本书的任何一页,它都能自动介绍,不是简单的文字识别,而是能够总结“文章大意”;给它一幅画,它“瞥”一眼就能言简意赅地介绍出图画的内容,还能根据图案细节猜测人物心情;当你和它面对面,它能根据你所处的场景,推测出你大概在什么场合,还叮嘱你要“好好学习”……






是的,你并没有看错,“它”就是商汤科技7月5日发布的“日日新5o”——国内首个所见即所得模型。它通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,带来一种全新的AI交互模式,即实时的流式多模态交互。交互体验对标GPT-4o。


作为2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴,商汤科技召开了“大爱无疆·向新力”人工智能论坛。现场,近千人共同见证这一创新交互模式——


工作人员刚开始仅是和“日日新5o”打个招呼,它就自动识别出工作人员佩戴的胸卡带子上的字,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。


接下来工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及穿戴——一顶印有商汤科技logo的白帽子,很给主场人排面。



再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。


工作人员还现场发挥“画功”,随手画了一只简笔画小兔子,“日日新5o”直呼画得可爱;而后工作人员又画了一个微笑表情,“日日新5o”从这个平静的表情中捕捉到了笑意;工作人员又改了一笔,把嘴巴画大增添了舌头,“日日新5o”看到后立马说道:“这表情开心多了。”


能听,会看,还会找话题,和“日日新5o”的交互就如同和真人对话一般。这种交互模式特别适用于实时对话和语音识别等应用,其多任务适应性强,能够在同一模型中自然处理多种任务,且根据不同上下文自适应调整行为和输出。


商汤科技表示,能够实现对标GPT-4o的交互体验,正是源于“日日新5.5”基础模型能力的全面提升。7月5日,商汤科技正式发布“日日新5.5”大模型体系,在今年4月商汤科技发布的“日日新5.0”大模型基础上又迎来多项升级,综合性能较“日日新5.0”平均提升30%,数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标对标GPT-4o。



据了解,“日日新5.5”采用混合端云协同专家架构,最大限度发挥云边端协同,降低推理成本,模型训练基于超过10TB tokens高质量训练数据,包括大量合成的思维链数据,提升推理思维能力。


为了让更多企业用户低门槛接入并使用“日日新”大模型体系的强大能力,商汤于近期推出了“大模型0元Go”计划。凡是“日日新”的新注册用户,都可获得涉及调用、迁徙、训练等多项免费服务大礼包。同时,商汤还将赠送5000万tokens包,并且派出专属搬家顾问,帮助OpenAI用户实现零服务成本迁移。


猜你喜欢:

70年老字号开到“家门口”!未来徐汇这些地方也会有……

110平方米,这里的儿童友好城市阅读新空间正式开放!

百警护千企,“四位一体”助力漕河泾开发区跑出“加速度”

构建“15分钟产业社区圈”!他们有了“活力街区”新名字

118项活动!“上海之夏·尽享徐汇”集中预热活动地图抢先发布


记者:王永娟

编辑:宁平英

审校:韦丽

转载请注明来自上海徐汇官方账号

继续滑动看下一个
上海徐汇
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存