将门创投

其他

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

香港,作为国际商业及贸易枢纽和国际金融中心,紧密连接中国内地及全球各地,助力个人和企业追求卓越。充满活力的商业环境和蓬勃发展的创业文化,造就有利的初创生态环境,吸引初创企业以香港作为跳板,打进其他亚洲市场和全球市场。
8月7日 上午 8:22
其他

将门创新伙伴 | 2024城越科技创新峰会全阵容详细公布

倒计时7天!1个未来城市畅想主论坛、4个多元分会场,科技路演、机器人动态展示专区,6月19日,2024城越科技创新峰会汇集50+位重磅嘉宾、近30家科技企业,即将在深圳市福田保税区市花路32号(香港科学园深圳分园)盛大开幕!大模型、机器人、新能源、新材料……丰富的话题将为所有来宾带来一场科技创新的精彩旅程。截至目前,已吸引近300位投资机构、政府单位、企业高管、学界大咖等各领域伙伴报名参与。扫描下方二维码,即刻锁定您的专属席位!日程速览01科技创新嘉年华机器人动态展示时间:10:00~17:30地点:香港科技园深圳分园B栋1层02分会场1:2024全球智慧城市大会.杭
6月13日 上午 8:22
其他

将门创新伙伴 | 2024城越科技创新峰会,早鸟票限时开售中

UrbanLab,成为生态合作伙伴,与联合发起方仲量联行、太古地产、瑞安新天地、嘉民集团及圣戈班集团一起,在相融共创中同筑未来。·
5月24日 上午 8:22
其他

将门创新伙伴 | “欧莱雅BIG BANG美妆科技共创计划”中国大陆赛区火热报名中

BANG期待进一步深度联动全市场、全领域和全链路伙伴,最大限度激发各区域市场开放式创新生态圈,为北亚乃至全球市场注入新动能。欧莱雅北亚总裁及中国首席执行官博万尚表示:“我们非常激动能将BIG
4月29日 上午 8:22
其他

CVPR 2024 | NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型

近一段时间以来,扩散模型在各大厂商以及众多学术顶会上都受到了广泛的关注,尤其是大规模文本到图像(text-to-image,T2I)扩散模型,在生成富含语义的连贯图像方面展现出了惊人的效果。最近的一些工作开始尝试在扩散模型中引入对象定位、姿态和图像轮廓等因素的控制,这对于个性化图像生成任务具有重要意义。但是目前的方法对于生成图像中对象之间的交互关系控制的并不是很好,本文介绍一篇来自南洋理工大学和马来亚大学合作完成的论文。本文提出了一种全新的可控扩散模型框架InteractDiffusion,InteractDiffusion重点研究了如何利用人与物体交互(HOI)信息来扩展现有的扩散模型,该信息由三元组标签(人、动作、物体)和相应的边界框组成,可以灵活的嵌入到各种扩散模型中生成复杂的交互图像。本文方法生成的图像在
4月29日 上午 8:22
其他

CVPR 2024 | REAL:检索增强提升zero-shot性能,深挖视觉语言模型中的长尾分布现象

以CLIP为代表的视觉语言大模型(VLMs)在zero-shot识别等领域表现出了优异的性能,这改变了很多下游任务的学习范式,研究者们纷纷尝试如何将VLMs集成到现有的框架中来提高下游性能。虽然CLIP在ImageNet等代表性数据集达到了较高的准确率,但是其不可避免的出现了长尾数据识别较差的现象。例如对于“night
4月28日 上午 8:23
其他

IJCAI 2024 | 基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

Lab)负责人、青年科学家,西北工业大学光电与智能研究院研究员,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、具身智能。共发表CCF-A类论文50余篇,含一作T-PAMI×2(IF:
4月28日 上午 8:23
其他

CVPR 2024 | NUS联合腾讯提出人物为中心的视频编辑框架DynVideo-E

近来一段时间,基于扩散模型的视频生成和编辑技术引起了学术界和工业界广泛的关注,但由于逐帧编辑与视频长序列一致性之间的固有矛盾,导致现有的方法仅能处理较短的视频。之前的工作通过引入2D视频特征来解决这一问题,但在以人物为中心的场景中表现不佳。本文介绍一篇发表在CVPR
4月26日 上午 8:22
其他

Talk预告|西湖大学鲍光胜:Fast-DetectGPT—高效零样本机器生成文本检测

University)·博士生—鲍光胜的Talk将准时在TechBeat人工智能社区开播!他与大家分享的主题是:
4月9日 上午 8:22
其他

何恺明香港中文大学讲座回顾 | 科研经历、大模型、AI For Science

最近“AI大牛”何恺明在香港中文大学参加讲座时提到“科研中95%的时间是令人沮丧的"这一观点时,立马引起无数科研人共鸣
2023年11月4日
其他

强化学习与视觉语言模型之间的碰撞,UC伯克利提出语言奖励调节LAMP框架

在强化学习(RL)领域,一个重要的研究方向是如何巧妙的设计模型的奖励机制,传统的方式是设计手工奖励函数,并根据模型执行任务的结果来反馈给模型。后来出现了以学习奖励函数(learned
2023年10月13日
其他

RSS 2023|30分钟教会机器人做家务!CMU提出全新结构化世界模型SWIM

教会机器人在现实环境中解决各种复杂任务,一直是机器人控制领域的关键研究课题。近来随着具身智能的快速发展,机器人代理已经被要求拥有自主路径规划和对任务进行推理的能力。但是现有的方法仍然需要大量高质量的特定任务数据来训练代理模型,这使得机器人很难在一个陌生的环境中正常运作。本文介绍一篇发表在机器人顶级会议RSS
2023年9月28日
自由知乎 自由微博
其他

ACL 2023杰出论文奖 | 上科大、达摩院联合提出探测语言模型对本体知识的记忆与理解

推理任务通过对实验数据的分析,我们发现:BERT和RoBERTa模型对本体知识的理解也是比较有限的。下图展示了对所有推理规则和BERT与RoBERTa模型取平均之后的推理表现。当输入文本中明确给出
2023年8月10日
其他

KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

数据集,MIMIC-Diff-VQA。论文地址:https://arxiv.org/abs/2307.11986该数据基于放射科胸片报告,设计了种类更加丰富,内容更加准确的具有逻辑递进的问答对,涵盖
2023年8月9日
其他

Meta-Transformer:1个框架理解12种模态引发的质变与涌现(已开源)

的框架图:对于不同模态的数据,研究人员基于不同模态的信息特性设计了相应的特征序列构造方式,接着将得到的特征序列输入到预训练后参数冻结的编码器中,由此提取的表征能够在多个模态上解决下游多个任务1.2
2023年8月2日
其他

Talk预告 | 新加坡国立大学博士生施宇钧:DragDiffusion-基于扩散模型的关键点拖拽图片编辑

8月2日(周三)20:00地点:TechBeat人工智能社区http://www.techbeat.net/
2023年8月1日
其他

ICLR 2023 | 用于分布外泛化的拓扑感知鲁棒优化

本文的研究者提出了一种整合两个优化目标的拓扑感知鲁棒优化(TRO)方法,通过无缝地集成拓扑信息,以增强模型的分布外(OOD)泛化性能。实验结果证明,TRO在包括分类、回归和语义分割在内的广泛任务中相对于SOTA具有更优越的性能。目前,该工作已被ICLR
2023年7月28日
其他

Talk预告 | 卡内基梅隆大博士生侯博涵:MLC-LLM-机器学习编译与在大语言模型上的应用

7月26日(周三)20:00地点:TechBeat人工智能社区http://www.techbeat.net/
2023年7月25日
其他

CVPR 2023 Highlight | GAM:可泛化的一阶平滑优化器

内仅有一个极值点时,由于零阶平滑性关注的是最大损失数值与当前点的比较,而无法捕捉到上升趋势的差异,所以在一些局域内最大损失值较小而上升趋势较大的波谷中零阶平滑性容易出现判断错误的问题。图4
2023年7月19日
其他

Talk预告 | CVPR'23 Highlight - 多伦多大学陈云:面向自动驾驶测试的仿真系统

如何加速无人车的开发?仿真系统可能会是一个解决方案。在仿真系统中对自动驾驶系统进行测试,既可以避免真实道路测试的可能发生的事故,也可以通过构建罕见的长尾场景以加速无人车的开发。Talk大纲
2023年7月18日
其他

Shikra:新一代多模态大语言模型,理解指向,说出坐标

设计简单统一,采用非拼接式设计,直接使用数字表示坐标,不需要额外的位置编码器、前/后目标检测器或外部插件模块,甚至不需要额外的词汇表。二、模型效果比如上图,用户指着右边的女生问
2023年7月17日
其他

Meta提出全新参数高效微调方案,仅需一个RNN,Transformer模型GPU使用量减少84%!

近来,随着ChatGPT和GPT-4模型的不断发展,国内外互联网大厂纷纷推出了自家的大语言模型,例如谷歌的PaLM系列,MetaAI的LLaMA系列,还有国内公司和高校推出的一些大模型,例如百度的文心一言,清华的ChatGLM等模型。几乎隔几天就会有一个全新的大模型发布,但是对于研究者和开发者来讲,可能大家更关心的是在基础大模型训练、微调、推理和部署等实际落地方面上的创新。这就不得不谈到大模型底层的语言建模架构了,现如今,绝大多数大模型的基础架构,仍然使用6年前发表在NeurIPS上的Transformer。随着模型规模和任务数量的增加,对整个Transformer模型进行微调也变得越来越昂贵。因此很多参数高效的迁移学习方法(Parameter
2023年7月13日
其他

结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力

记忆模块。他们从现代计算机架构中汲取灵感,利用符号性记忆模块来增强大型语言模型。这种符号性记忆模块可以利用符号性的操作,精确的控制记忆模块中的信息。这样的符号性记忆框架由一个大语言模型(如
2023年7月10日
其他

Talk预告 | 南洋理工大学助理教授潘新钢:拖动你的GAN - 在生成图像流形上基于控制点的交互式图像编辑

助理教授潘新钢是南洋理工大学计算机科学与工程系助理教授,隶属于MMLab-NTU和S-Lab。他的研究方向是生成式人工智能与神经渲染,主要工作包括DragGAN,GAN2Shape,Deep
2023年7月5日
其他

Talk预告 | 新加坡国立大学博士侯皓文:RWKV论文解读 - 在Transformer时代重塑RNN

长按识别二维码,一键预约TALK!Talk·介绍▼RWKV作为一种新型的大语言模型架构,具有O(1)的推理复杂度,将会降低大模型的硬件限制和部署成本,将推动大模型进行一次架构迁移!Talk大纲1.
2023年7月4日
其他

CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架

论文链接:https://arxiv.org/abs/2306.11087项目主页:https://henghuiding.github.io/PADing/代码链接:https://github.com/heshuting555/PADing图1.
2023年7月4日
其他

VALSE 2023 | 走向计算机视觉的通用人工智能:GPT和大语言模型带来的启发

这段时间,对于AI业界甚至整个世界,都是惊心动魄的。在这段时间里,最令人印象深刻的大事莫过于ChatGPT和GPT-4的发布。毫无疑问,GPT-4是有史以来最为强大的AI程序。在随后发表的一篇论文[1]中,学者们将GPT-4称为通用人工智能(AGI)诞生的火花。诚然,每个人对于AGI的定义不尽相同,现阶段的GPT也尚未真正解决AI领域的所有难题;然而,基于大模型的技术,确实已经接近完成NLP领域的大一统,甚至让人隐约看到了AGI的曙光。或许,在3-5年内,我们就能够看到冯诺伊曼架构基础之上的AGI计算架构;倘若如此,大模型将在其中占据核心位置。除了GPT系列外,计算机视觉领域也好不热闹,几个前沿方向都出现了令人惊叹的进展。对于公众来说,感受最深的莫过于AI绘画了。Stable
2023年7月3日
其他

大模型入局传统算法,LLMZip基于LLaMA-7B实现1MB文本压缩率90%!

论文链接:https://arxiv.org/abs/2306.04050随着以ChatGPT、GPT-4为代表的AI大模型逐渐爆火进入公众视野,各行各业都开始思考如何更好的使用和发展自己的大模型,有一些评论甚至认为大模型是以人工智能为标志的第四次产业革命的核心竞争产品。例如在5月26日的北京中关村2023论坛上,百度公司创始人、CEO李彦宏发表了题为《大模型改变世界》的演讲。在这次演讲中,李彦宏提出:“百度要做第一个把全部产品重做一遍的公司”。这意味着,大模型现有的能力,已经可以向传统的互联网应用和方法发出挑战。本文介绍一篇来自得克萨斯A&M大学的工作,在本文中,作者瞄准的领域是传统的文本压缩算法。作者巧妙地发挥了现有大模型的文本预测能力,例如使用LLaMA-7B对输入的前几个token预测其下一个位置的文本,并且对大模型预测英语熵(entropy
2023年6月29日
其他

Talk预告 | CVPR'23 Highlight-UC Berkeley史百丰:自底向上和自顶向下的视觉注意力:原理与应用

本期为TechBeat人工智能社区第508期线上Talk!北京时间6月28日(周三)20:00,加州大学伯克利分校博士生—史百丰的Talk将准时在TechBeat人工智能社区开播!他与大家分享的主题是:
2023年6月27日
其他

SIGGRAPH 2023|你的AI Tony老师上线了,英伟达提出毛发模拟新基线

2018年,网易《逆水寒》与AMD合作开发出来一款名为“海飞丝”的算法,该算法基于AMD的TressFX毛发模拟技术,可以在游戏中较为清晰的模拟人类头发的运动,大大增强了游戏场景的真实感。一个健康的成年人大概拥有10万根头发,如果想在游戏场景中模拟头发,就需要对这10万根头发自身以及周围环境进行交互建模,很明显,这是一项非常吃显卡算力的算法。最近,在AI领域属实“赚麻了”的另外一家显卡巨头NVIDIA也公布了自己在毛发模拟领域的最新进展,他们提出了一种基于ADMM算法的离散弹性模拟求解器(Discrete
2023年6月26日
其他

CVPR 2023 | 3D循环视频构建 (3D Video Loops from Asynchronous Input)

论文链接:https://arxiv.org/abs/2303.05312项目主页:https://limacv.github.io/VideoLoop3D_web/DEMO:https://limacv.github.io/VideoLoop3D_web/注:1、点开网页(Demo)后是一个实时渲染的动态的3D(严格意义上来说是2.5D)的视频,可以通过手指拖动或鼠标滑动来实时改变视角。2、在宽屏下体验更加,在手机上可以将手机横屏然后刷新一下网页。3、由于托管在github
2023年6月26日
其他

大模型能否通过图灵测试呢,AI21 Labs做了一个百万级在线游戏《human or not》

论文链接:https://arxiv.org/abs/2305.20010项目地址:https://www.humanornot.ai/“我相信,在今后50年的时间里,计算机有可能会展现出更出色的能力,以至于普通测试者在5分钟的提问后区分出机器和人的可能性不会超过70%。”——阿兰·图灵,1950年以上就是大名鼎鼎的图灵测试,图灵测试由世界计算机科学与人工智能之父阿兰·图灵在1950年提出在一篇名为《计算机器与智能》(Computing
2023年6月21日
其他

TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理

(MTB),如图5(b)所示,MTB的目的是建立问题和外观(运动)特征之间的多模态交互关系。类似的,AS和MS模块同样采用MTB来基于问题语义推理出外观和运动信息。具体信息请参阅原论文。图5.
2023年6月20日
其他

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT
2023年6月16日
其他

IJCAI 2023 | 图生成扩散模型综述:算法与应用

(Discreteness):图的数据结构是离散的,由节点和边组成。这增加了图生成模型的训练和优化的复杂性(例如梯度的计算)。这使得广泛应用的优化算法难以直接应用于反向传播训练。2.复杂的依赖关系
2023年6月15日
其他

医学大模型新标杆!谷歌Med-PaLM 2霸榜医学问答领域

2能够根据用户的输入来检索医学知识,并对其进行推理来回答医学问题,可以达到辅助医生完成日常报表,甚至辅助医生进行诊断的效果。事实证明,LLMs在医学领域的应用前景非常广阔。在Med-PaLM
2023年6月14日
其他

LLM推理提速2.8倍,CMU提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理

24.8%。更多更详细的实验结果可以参考论文原文:https://arxiv.org/abs/2305.09781五、总结SpecInfer
2023年6月13日
其他

DeepMind强化学习再放大招,这次他们设计了一个专业足球机器人OP3

那个曾经训练出AlphaGo模型(第一个击败人类职业围棋世界冠军的计算机程序)的DeepMind,最近又有大动作,这次他们瞄准的目标是足球,使用的”杀手锏“仍然是那个魔力无限的深度强化学习(Deep
2023年6月12日
其他

ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案

点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球
2023年6月9日
其他

ICML 2023 | 你的AI被黑客攻击了吗?如何用期望扰动分数揭秘对抗数据?

Samples)会对已经广泛部署的机器学习模型系统造成威胁,急需高性能的对抗防御方法来保障神经网络模型的安全性和鲁棒性。现有的对抗样本处理策略主要分为对抗训练(Adversarial
2023年6月8日
其他

Talk预告 | 北卡罗来纳州立大学唐圣坤&浙江大学张磊: 数据为中心的高效视觉语言学习—动态退出与数据蒸馏

本期为TechBeat人工智能社区第504期线上Talk!北京时间6月8日(周四)20:00,北卡罗来纳州立大学在读博士生—唐圣坤与浙江大学硕士生—张磊的Talk将准时在TechBeat人工智能社区开播!他们与大家分享的主题是:
2023年6月7日
其他

ICML 2023 | 轻量级ViT的预训练实践手册

https://arxiv.org/abs/1203.0550作者:wangsr文章来源:https://zhuanlan.zhihu.com/p/626948587Illustration
2023年5月19日
其他

一个BLIP2加两个ChatGPT就能造一个机器人?KAUST提出具身智能框架LLM-Brain

最近,来自阿卜杜拉国王科技大学(KAUST)的研究团队开发了一种基于现有LLMs的机器人交互框架LLM-Brain,LLM-Brain可以直接将LLM作为机器人的大脑,并以此来构建一个以自我为中心的记忆和控制框架。论文链接:https://arxiv.org/abs/2304.09349随着ChatGPT、GPT-4等大模型逐渐进入大众视野,大家开始想象如果将这些大语言模型(LLMs)接入到实实在在的物理机器人中,能否使机器人获得自主的智能感知决策能力呢?例如电影《星际穿越》中的飞船辅助机器人塔斯(TARS)就具有感知外界并进行自主决策的能力,塔斯在电影中多次做出非常智能的决策,力挽狂澜。最近,来自阿卜杜拉国王科技大学(KAUST)的研究团队开发了一种基于现有LLMs的机器人交互框架LLM-Brain,LLM-Brain可以直接将LLM作为机器人的大脑,并以此来构建一个以自我为中心的记忆和控制框架。作者团队提到,对物理机器人开发能够与环境动态交互的智能系统,需要重点从机器人系统的记忆能力和控制能力两方面入手。LLM-Brain可以通过zero-shot学习方法为机器人集成多个多模态语言模型,这些模型可以实现像ChatGPT一样使用自然语言进行闭环的多轮对话,包括感知、规划、控制和记忆,以达到使机器人能够自行维护一套记忆并自行控制的效果。作者团队通过主动探索(active
2023年5月19日
其他

VPGTrans:10%的成本定制你自己的类GPT-4多模态对话模型

最近的多模态(对话)大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如最近的GPT-4、BLIP-2、Flamingo等。但咱们普通玩家训练一个多模态GPT代价非常昂贵。新加坡国立大学与清华大学最新的研究工作提出一个高效的迁移学习框架,VPGTrans,帮助小伙伴们实现极低成本训练一个高性能多模态大模型。论文:https://arxiv.org/pdf/2305.01278.pdf代码:https://github.com/VPGTrans/VPGTrans多模态对话模型Demo:https://vpgtrans.github.io/本工作亮点摘要1.极低训练成本:通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)
2023年5月18日
其他

Talk预告 | 香港中文大学博士生徐英豪:从不规则的单目图片数据构建3D生成模型

“从不规则的单目图片数据构建3D生成模型”,届时将介绍和探讨3D场景生成模型的标注与生成。Talk·信息▼主题:从不规则的单目图片数据构建3D生成模型嘉宾:香港中文大学
2023年5月17日
其他

CVPR 2023 | EfficientViT:让ViT在多个部署场景实现实时推理

计算冗余瓶颈Transformer中的多头自注意力将输入序列在多个子空间中分别计算注意力,以获得更多样化的特征表达。然而,注意力计算非常耗时,而且已有研究表明并不是所有的头都对结果有显著贡献
2023年5月15日
其他

ICLR 2023 | 场景三维重建新SOTA——3D-Former

Transformer相关的工作仅小心翼翼地进行了省资源的特征处理,基本没有下采样和上采样。然而,在3D重建中,自上而下自下而上的结构对于特征提取和预测生成更为合理,就像大多数基于3D
2023年5月15日
其他

Talk预告 | 香港中文大学博士生徐英豪:从不规则的单目图片数据构建3D生成模型

本期为TechBeat人工智能社区第498期线上Talk!北京时间5月18日(周四)20:00,香港中文大学博士生
2023年5月12日
其他

Talk预告 | 大连理工大学IIAU Lab在读博士生严彬:走向通用实例感知

“走向通用实例感知”,届时将介绍和探讨通用实例感知的相关应用与挑战。Talk·信息▼主题:走向通用实例感知嘉宾:大连理工大学IIAU
2023年5月9日