查看原文
其他

别期待AI比人类更高效,它可能故意模仿人类的低效率。AI每日资讯-4.2

Dan 洛克AI 2024-04-02

尽管机器人通常被期望具有比人类更高的效率,但有时它们被故意设定为模仿人类的工作速度,甚至包括人类的低效率。


  • 01
    今日资讯概述

亲,都是些热乎乎的AI新闻和动态,快告诉我哪些让你感兴趣吧!

  • 中旅v7:打造个人定制模型,视频生成功能;

  • 微软与OpenAI:着手打造"星环"AI超级计算机;

  • 中国:14纳米AI芯片规避制裁,价格实惠;

  • 布朗大学:开发出像盐粒般小的脑传感器;

  • OpenAI:15秒语音克隆,发布推迟以待完善;

  • 5款新AI工具;

  • 最新AI研究论文。


  • 02
    AI头条新闻


中旅要祭出大招了!
不仅要推出v7升级版,提升图像质量、理解能力,还要在年底实现视频生成。最值得期待的是用户专属模型,通过分析你对图像的评价,为你量身定制偏好设置,摆脱固有模型的束缚。

微软和OpenAI要合作打造一台代号为"星环"的超级计算机
号称将集成数百万颗芯片!对于AI发展来说绝对是个重大突破。它将成为OpenAI更广阔AI集群网络的一部分,助力加速AI研究进程。

中国一家芯片公司也很有创意
他们规避美国制裁,推出了一款14纳米的AI芯片"DeepEyes",售价仅140美元,相比GPU价格实惠90%!虽然工艺较为陈旧,但通过定制化设计,性能依然强劲。这款产品的推出,意在让更多企业用户享受AI红利。

布朗大学的科学家们做出了一项了不起的成就
他们研发出了脑科学传感器,体积小到仅相当于一粒盐!这些芯片模仿大脑的工作原理,只在检测到事件时才传输数据,节能高效。它们未来不仅可应用于脑机接口,还可用于监测各种生理活动。

OpenAI最新语音克隆引擎出炉了
只需15秒语音样本,再加文本输入,就能生成出高度拟真的人声!虽然它在教育和辅助通信领域大有应用前景,但OpenAI为防止被滥用,如在选举期间模仿他人发言等,暂缓向公众开放。不过像ElevenLabs这类现成的语音克隆平台,你完全可以尝试一下了。

总之都是些超酷的AI科技进展,让我们拭目以待未来将带来怎样的惊喜吧!

  • 03
    AI次条新闻

谷歌AI推出了AutoBNN这一全新开源机器学习框架,专门用于构建复杂的时间序列预测模型。作为一个开源项目,它必将促进这一领域的快速发展。

NICE公司宣布将上下文记忆功能引入其联系中心AI系统,提升对话质量。毕竟有了记忆,AI助手就能更好地把握语境,提供更加连贯、合理的响应。

纽约市计划在地铁系统中引入人工智能枪支探测技术,以应对日益严重的犯罪问题。尽管这一做法受到争议,但说明AI技术正开始介入更加实际且高风险的安全领域。

据报道,Scale AI和Cohere两家AI创企正在进行新一轮数亿美元融资谈判。看来大家对AI的前景都是充满信心的。


  • 04
    AI工具


LM Studio
支持在本地离线运行大型语言模型,有效保护隐私。还能与OpenAI API兼容,提供灵活应用途径。

Breadcrumb.ai
是一款智能数据分析平台,能让用户轻松获得洞见,生成叙事化报告,大幅提高效率。

Prototyper
则是UI设计神器,只需输入文字或上传截图,就能智能生成可运行的界面代码,革新了团队协作模式。

Faune
融合了GPT等先进语言模型,设置动态对话提示和个性化积分系统,为语言学习提供沉浸式AI伴读体验。

Salieri's Multiverse
可让你在AI的帮助下构建丰富的交互式故事和虚拟场景,给孩子们的无限创造力插上翅膀。

  • 05
    AI论文里的新鲜事

📄 ReALM:大有来头的苹果AI

苹果出手就是重磅炸弹!他们开发出ReALM系统,可以利用大型语言模型的力量,矫健无比地解决各种语境下的指代消解问题。无论你说的是即时对话情景、屏幕上的元素,还是背景知识,它都能游刃有余地把握重点。ReALM的表现媲美GPT-4,但所需参数却大幅减少,真是物超所值。它的奥秘在于用自然语言编码实体信息,保留屏幕上的空间关系,从而实现了强大的消解能力。虽然已经相当高效,但论文也承认处理一些复杂情况的挑战,并呼吁进一步探索先进技术,比如基于网格的空间编码。总之,这一创新方案为AI驱动的消解系统开辟了全新的实用途径,必将大幅提升人机交互体验。


📄 视觉语言模型该不该承认自己"不懂"?

这篇论文为视觉语言模型引入了一个全新的"不可解问题检测"挑战。简单说就是评估模型在遇到无法解答的视觉问答任务时,是否能够体面地"开口不解"。论文将这个挑战分为三种情况:无匹配答案、候选答案不符合、问题与图像不符。研究者在GPT-4V和LLaVA等知名模型上做了大量测试,结果表明它们在这方面还有很大提升空间。文中介绍了不需训练和需训练两种应对方案,比如提示工程和指令调优等。结果表明,完成这一挑战绝非易事,期待未来有更多创新方法来提高模型在此方面的可信赖性。


📄 Gecko:小身板大能耐

这项研究提出了Gecko,一种紧凑且多才多艺的文本嵌入模型。Gecko的"智慧"其实都是从大型语言模型那里挤"提"出来的。首先用大模型生成各种合成的查询-文档对,然后不断提高质量,甄别候选正负样本,最终在大模型的指导下留下精华。实验表明,Gecko不但在大规模文本嵌入评测中表现出色,甚至超越了占用内存更多的大型对手。Gecko的诞生再次证明,利用大模型强大的知识,我们完全可以提炼出小而美的精锐模型,在下游任务中发挥超高性价比。


📄 大模型是如何"吞下"整篇文章的?

这项合作研究追根究底,探索语言模型是如何将整段文字牢牢"烙印"进记忆的。通过一系列精心设计的分析,研究者们发现虽然这种记忆能力分散在模型各个层面和组件上,但在记忆段落方面的梯度存在一种独特的空间分布模式,尤其是在模型下层突出。更有趣的是,他们发现了一个注意力头对记录段落情有独钟,而且对输入中的罕见token也特别偏爱。通过扰动分析,他们进一步揭示了单个token对模型生成的影响,为未来缓解大模型记忆效应提供了重要线索。


📄 我们在评估大型视觉语言模型的道路上走对了吗?

这篇论文指出了当前评估大型视觉语言模型的两大问题:一是评估样本中视觉内容匮乏,主要考察文本能力;二是训练数据存在无意的泄露,影响模型对视觉问题的表现。为了解决这些问题,作者们构建了MMStar,这个全新的精英测评集,包含1500个精心筛选的视觉必需样本,涵盖6大核心能力和18个细分维度,旨在真实评估模型的多模态综合能力。此外,他们提出了"多模态增益"和"多模态泄漏"两个指标,以衡量模型在训练中实际获益和遭受数据泄露的程度。对16种大型模型在MMStar上的评测结果,既揭示了它们在多模态能力上的优劣,也暴露了数据泄漏的普遍存在,为未来制定更严格的评估标准指明了方向。


所以你看,随着AI研究日新月异,确实涌现出了一大批智慧结晶。不过探索之路也并非一帆风顺,前方依然存在诸多有待攻克的难题和挑战。不过就让我们拭目以待吧,定能在这条征途上越走越远!

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存