专知

其他

适配还是提示?微软最新《通用大模型是否超过专业领域微调大模型》论文,GPT-4多种策略提示超越医学大模型

通用基础模型,如GPT-4,在多种领域和任务中展现出了惊人的能力。然而,普遍的假设是,它们在没有对专业知识进行密集训练的情况下,无法匹敌专家的能力。例如,迄今为止在医学能力基准测试上的大多数探索都利用了领域特定的训练,如BioGPT和Med-PaLM的努力就是典范。我们在之前的研究基础上,探讨了GPT-4在没有特殊训练的情况下对医学挑战基准的专家能力。与为了突出模型开箱即用能力而故意使用简单提示不同,我们进行了系统的提示工程探索,以提升性能。我们发现,提示创新可以解锁更深层次的专家能力,并展示出GPT-4在医学问答数据集上轻松超越之前的领先成果。我们探索的提示工程方法具有通用性,不需要特别使用领域专家知识,从而消除了对专家策划内容的需求。我们的实验设计严格控制了在提示工程过程中的过拟合。我们引入了基于多种提示策略组合的Medprompt。Medprompt大幅提升了GPT-4的性能,在MultiMedQA套件中的全部九个基准数据集上都达到了最新的成果。该方法以数量级更少的模型调用次数,大幅超越了如Med-PaLM
2023年12月4日
其他

【干货书】无穷维统计模型的数学基础,705页pdf

在非参数和高维统计模型中,经典的高斯-费舍尔-勒卡姆关于最大似然度和贝叶斯后验推断的最优性理论并不适用,过去的几十年里已经发展出了新的基础和理念。这本书对无限维参数空间中的统计理论提供了一个连贯的描述。数学基础包括对高斯过程和经验过程理论、近似与小波理论以及函数空间基础理论的自足的"迷你课程"。在此模型中的统计推断理论
2023年10月24日
其他

【EPFL博士论文】统计学习问题的基本限制:块模型和神经网络,183页pdf

本论文聚焦于两个选定的学习问题:1)图模型上的统计推断;2)神经网络上的梯度下降,共同的目标是定义和分析表征基本限制的度量。在论文的第一部分,我们考虑了图上的自旋同步问题,该问题包括基于图边缘上它们的交互的噪声观察来重构图顶点上的n个独立自旋的向量。特别是,我们考虑了带擦除(BEC)边信息的同步模型,在这些模型中,一小部分节点的自旋被揭示,并研究了这样的边信息如何影响远距离位点上的自旋的相关性。我们表明,在树上,当边缘观察给出的远距离位点上的自旋几乎是独立的时,那么给出边缘观察和边信息的自旋仍然几乎是独立的。我们推测这对任何图都适用。另一方面,(Kanade等人,2014)推测,在正规树和Galton-Watson树上,只要揭示了任何小部分节点标签,无穷深度处的边界就无法检测到根位,即使在重构范围内也是如此。我们解释了这如何用于计算具有两个对称社区的稀疏随机块模型(SBM)的极限熵。最后,我们表明,后一推测不适用于每一棵树。在论文的第二部分,我们考虑了用全连接神经网络上的梯度下降(GD)学习布尔目标函数的问题。我们引入了一个概念,即神经网络在初始化时与目标函数之间的“初始对齐”(INAL),并证明如果网络和目标在初始时没有显著的INAL,那么在具有i.i.d.
2023年9月26日
其他

大模型如何做个性化?中科大等最新《当大型语言模型遇到个性化》综述,详述大模型与个性化的挑战与机遇

大型语言模型的出现标志着人工智能领域的一次革命性突破。得益于前所未有的训练规模和模型参数,大型语言模型的能力得到了显著提升,从而在理解、语言合成和常识推理等方面达到了与人类相似的表现。这种在通用AI能力上的重大飞跃将从根本上改变个性化服务的实施模式。首先,它将改变人类与个性化系统之间的交互方式。大型语言模型不再是像传统的推荐系统和搜索引擎那样的被动信息过滤介质,而是为主动用户参与提供了基础。在这样一个新的基础上,可以主动探索用户的请求,并以自然、互动和可解释的方式提供用户所需的信息。其次,它还将大大扩展个性化服务的范围,使其从仅仅收集个性化信息发展到提供个性化服务的复合功能。通过利用大型语言模型作为通用界面,个性化系统可以将用户的请求编译为计划,调用外部工具(例如搜索引擎、计算器、服务API等)的功能来执行这些计划,并整合这些工具的输出,完成端到端的个性化任务。如今,大型语言模型仍在快速发展,而在个性化应用中还大都未被探索。因此,我们认为现在是时候审视个性化服务的挑战以及用大型语言模型来解决它们的机会了。特别是,我们在这篇展望性论文中专门讨论了以下几个方面:现有个性化系统的发展和挑战、大型语言模型新出现的能力,以及如何利用大型语言模型进行个性化的潜在方法。https://www.zhuanzhi.ai/paper/325807b835937e4e1b068dc515b57c26大型语言模型的出现[1]在理解人类表达方面显示出了显著的进步,深刻地影响了AI社区。这些模型配置了大量的数据和大规模的神经网络,展示了在理解人类语言和生成与我们相似的文本方面的卓越能力。其中的能力包括推理[2]、少次学习[3]以及在预训练模型中融合大量的世界知识[1]。这标志着人工智能领域的一个重大突破,导致了我们与机器互动的革命。因此,大型语言模型在从自然语言处理和机器翻译到创意内容生成和聊天机器人开发的各种应用中都变得不可或缺。特别是ChatGPT的推出,受到了人类社区的广泛关注,促使人们反思大型语言模型的变革力量及其推动AI能够达到的界限的潜力。这种颠覆性的技术承诺改变我们在无数领域与AI的互动和利用方式,为创新打开了新的可能性和机会。随着这些语言模型继续进步和发展,它们有望塑造人工智能的未来,使我们能够探索未知领域并在人机合作中发掘更大的潜力。个性化,即根据个人喜好量身定制体验的艺术,是连接人类与机器之间差距的一个关键且动态的纽带。在当今的技术驱动世界中,个性化在增强用户与各种数字平台和服务的互动和参与中起到了关键的作用。通过适应个人的偏好,个性化系统赋予机器满足每个用户独特需求的能力,从而使互动更为高效和愉快。此外,个性化不仅仅是内容推荐;它涵盖了用户体验的各个方面,包括用户界面、交流风格等。随着人工智能的不断进步,个性化在处理大量互动和多样化的用户意图方面变得越来越复杂。这要求我们开发更先进的技术来应对复杂的场景,提供更加愉快和满意的体验。对改进个性化的追求是由希望更好地了解用户并满足他们不断变化的需求的愿望驱动的。随着技术的发展,个性化系统很可能会继续演变,最终创造出一个人机交互无缝融入我们生活的每一个方面的未来,为我们的日常生活提供个性化和量身定制的体验。大型语言模型,凭借其深入和广泛的能力,有潜力革命化个性化系统,改变人类的互动方式并扩大个性化的范围。人机之间的交互不再仅仅可以被分类为主动和被动,就像传统的搜索引擎和推荐系统一样。然而,这些大型语言模型不仅仅是简单的信息过滤,它们还提供了多样化的附加功能。具体来说,系统会主动和全面地探索用户的意图,使用户和系统之间能够通过自然语言进行更直接和无缝的沟通。与依赖于抽象且难以解释的基于ID的信息表示的传统技术不同,大型语言模型能够更深入地理解用户的确切需求和兴趣。这种更深入的理解为更高质量的个性化服务铺平了道路,以更精细和有效的方式满足用户的需求和偏好。此外,通过大型语言模型的能力,各种工具的整合得到了极大的增强,大大扩展了个性化系统的可能性和应用场景。通过将用户需求转化为计划,包括理解、生成和执行它们,用户可以访问各种各样的信息和服务。重要的是,用户并不知道后台发生的复杂转换过程,因为他们体验到的是一个无缝的端到端模型。从这个角度来看,大型语言模型在个性化方面的潜力尚未被充分探索。本文探讨了个性化中的挑战,并探索了使用大型语言模型的潜在解决方案。在现有的相关工作中,LaMP
2023年8月9日
其他

黑盒模型如何透明化?MIT博士论文《黑盒模型的可解释性和透明性技术》,207页pdf阐述可信赖机器学习路径

过去的十年见证了机器学习在诸多领域(如医疗保健、金融和司法)的巨大进步。然而,近年来的技术进步主要依赖于深度神经网络,这种网络的不透明性阻碍了人们对这些模型的检查能力。此外,一些法律要求正在提议,要求在部署和使用模型之前必须先理解模型。这些因素推动了提高这些模型可解释性和透明度的研究。本论文在这个方向上做出了一些贡献。首先,我们对当前用于定义和评估模型预测解释的技术进行了简洁而实用的概述。然后,我们观察到各种可解释性概念的定义和评估之间存在一种新颖的对偶性,并提出了一种新的生成解释的方法,研究了这些新解释的属性。接下来,我们详细研究了良好解释的两个基本属性:正确性
2023年4月30日
其他

从ChatGPT看AI未来趋势和挑战 | 万字长文

持续成为大家关注的焦点,开启通用人工智能(AGI)之门。北京交通大学桑基韬教授和于剑教授撰写的《从ChatGPT看AI未来趋势和挑战》,详述了ChatGPT
2023年4月18日
其他

【2023新书】《ChatGPT在做什么…以及它为什么好使》,112页pdf

Resources专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复或发消息“C112”
2023年4月16日
其他

ChatGPT懂常识吗?中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

2004)。常识知识对于构建能够理解和生成类人语言的NLP系统至关重要。尽管常识知识对许多任务都很重要,但在机器中获取和表示常识知识一直是NLP中的一个长期挑战(Li
2023年4月5日
其他

​CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

模型),注意该模型不使用任何外部知识,但是在这个数据集的测试集上已经可以达到一个较弱的性能。然后我们从模型中提取两种答案启发:答案候选和答案感知示例。具体的,我们以模型分类层输出的置信度(模型输出的
2023年4月1日
其他

【ChatGPT系列报告】AIGC行业应用畅想,22页ppt

随着ChatGPT等语言大模型落地,AIGC技术落地在各行各业中得到发展和推进。根据模型的分类,AIGC的应用可被分为单模态和多模态两类。单模态模型可以助力各个应用,提升原有的能力和生产力。诸如ChatGPT已与Bing结合,使搜索更智能化。同时,搜索引擎又能很好地弥补语言模型预训练时不具备的数据实时性。单模态模型与操作系统的连接也能改变传统的人机交互模式,使系统响应更智能,软件间的数据流通更广泛;与游戏应用的结合可以使NPC更鲜活,与玩家的对话更真实;应用于文学作品可以激发创作灵感,提高写作效率,掀起AI电子书热潮;应用于客服场景可以提升原智能客服的多轮对话能力,个性化回答能力。
2023年3月28日
其他

【牛津大学博士论文】机器学习中的组合性和函数不变量,224页pdf

本文的目的是表明,研究机器学习系统中潜在的组成和函数结构使我们能够更好地理解它们。本文探索了机器学习许多子领域的范畴理论表述,包括优化、概率、无监督学习和有监督学习。本文首先研究了当用一般的范畴理论结构取代梯度时,各种优化算法的行为。证明了这些算法的关键性质在非常宽松的假设下是成立的,并通过数值实验证明了这一结果。本文还探索了动态系统的范畴论视角,使我们能够从简单操作的组成中构建强大的优化器。其次,从范畴理论的角度研究了概率建模与梯度优化之间的关系;本文从这个角度来研究最大似然估计如何在从统计模型到监督学习算法的转换中保持某些关键结构。https://ora.ox.ac.uk/objects/uuid:ec72e338-d95e-4bd6-9412-7ac76b7ddc15接下来,我们从函数的角度来研究无监督学习。我们基于非监督学习算法的函式表示的范畴论性质,开发了非监督学习算法的分类法,并证明了这些分类法是算法行为的预测。用这个视角推导出了一系列用于聚类和流形学习的新无监督学习算法,并证明了这些新算法在真实世界数据上可以优于常用的替代算法。还用这些工具证明了关于流行的无监督学习算法的行为和局限性的新结果,包括细化界限和在噪声面前的稳定性。最后,转向监督学习,并证明数据科学和机器学习中许多最常见的问题都可以表示为Kan扩展。本文用这个角度推导出新的分类和监督聚类算法。同时在真实数据上对这些算法的性能进行了测试。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复或发消息“M224”
2023年3月25日
其他

ChatAug: 利用ChatGPT进行文本数据增强

在许多自然语言处理(NLP)任务中,文本数据增强是克服有限样本挑战的有效策略。这一挑战在少样本学习场景中尤其突出,在这种场景中,目标域中的数据通常要少得多,质量也较低。缓解此类挑战的一种自然且广泛使用的策略是对训练数据进行数据增强,以更好地捕获数据不变性并增加样本大小。然而,现有的文本数据增强方法要么不能保证生成数据的正确标注(缺乏忠实度),要么不能保证生成数据的足够多样性(缺乏完整性),或者两者兼有。受最近大型语言模型的成功,特别是ChatGPT的发展的启发,本文提出了一种基于ChatGPT的文本数据增强方法(名为ChatAug)。ChatGPT在具有无与伦比的语言丰富性的数据上进行训练,并采用大规模人类反馈的强化训练过程,使模型与人类语言的自然性具有亲和力。我们的文本数据增强方法ChatAug将训练样本中的每个句子重新短语为多个概念相似但语义不同的样本。然后,增强后的样本可以用于下游模型训练。在小样本学习文本分类任务上的实验结果表明,与当前主流的文本数据增广方法相比,ChatAug方法在测试精度和增广样本分布方面具有更好的性能。自然语言处理(NLP)的有效性在很大程度上依赖于训练数据的质量和数量。由于可用的训练数据有限,这在实践中是一个常见的问题,原因是隐私问题或人工标注的高成本,训练一个准确的NLP模型,使其很好地泛化到未见过的样本,可能是一项挑战。训练数据不足的挑战在少样本学习(FSL)场景中尤其突出,其中在原始(源)域数据上训练的模型有望从新(目标)域[1]中的少数示例中泛化。许多FSL方法在克服这一挑战的各种任务[2]中显示出良好的效果。现有的FSL方法主要集中在通过更好的架构设计来提高模型的学习和泛化能力[3],[4],[5],以预训练语言模型为基础,然后使用有限的样本对其进行微调[6]与元学习[4],[7]或基于提示的方法[8],[9],[10],[11]。然而,这些方法的性能仍然受到源领域和目标领域数据质量和数量的本质限制。除了模型开发,文本数据增强还可以克服样本量的限制,并与NLP中的其他FSL方法协同工作。数据增强通常与模型无关,不涉及对底层模型架构的更改,这使得这种方法特别实用,适用于广泛的任务。在NLP中,有几种类型的数据增强方法。传统的文本级数据增强方法依赖于对现有样本库的直接操作。一些常用的技术包括同义词替换、随机删除和随机插入[14]。最近的方法利用语言模型来生成可靠的样本以进行更有效的数据增强,包括反向翻译[15]和潜空间[16]中的词向量插值。然而,现有的数据增强方法在生成文本数据的准确性和多样性方面存在局限性,在许多应用场景[14]、[17]、[18]中仍然需要人工标注。GPT族[8]、[19]等(超大型)语言模型的出现,为生成类似于人工标注数据的文本样本带来了新的机遇,极大地减轻了人工标注人员[20]的负担。llm以自监督的方式进行训练,随着开放域中可用的近无限数量的文本语料库的扩展。llm的大参数空间也使它们能够存储大量的知识,而大规模的预训练(例如,训练GPTs中的自回归目标)使llm能够为语言生成编码丰富的事实知识。此外,ChatGPT的训练遵循Instruct-GPT[21],利用人工反馈强化学习(RLHF),从而使其能够对输入产生更有信息和公正的响应。受语言模型成功应用于文本生成的启发,提出了一种新的数据增强方法ChatAug,利用ChatGPT生成辅助样本用于小样本文本分类。通过在通用领域和医疗领域数据集上的实验,测试了ChatAug的性能。与现有的数据增强方法相比,ChatAug方法在句子分类准确率上有两位数的提升。对生成文本样本的忠实度和完整性的进一步研究表明,ChatAug可以生成更多样化的增强样本,同时保持其准确性(即与数据标签的语义相似度)。llm的发展将带来人类水平的标注性能,从而彻底改变NLP中的少样本学习和许多任务领域。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“ChatAug”
2023年3月5日
其他

ChatGPT和机器人如何结合?微软最新《ChatGPT机器人:设计原则和模型能力》论文,25页pdf

本文对OpenAI的ChatGPT[1]在机器人应用中的使用进行了实验研究。本文概述了一种策略,将prompt工程的设计原则和高级函数库的创建相结合,使ChatGPT能够适应不同的机器人任务、模拟器和形状因素。重点评估了不同的提示工程技术和对话策略对执行各种类型的机器人任务的有效性。探讨了ChatGPT使用自由形式对话、解析XML标签和合成代码的能力,以及使用特定任务的提示函数和通过对话进行闭环推理的能力。本文研究涵盖了机器人领域的一系列任务,从基本的逻辑、几何和数学推理一直到复杂的领域,如空中导航、操纵和具身智能体。ChatGPT可以有效地解决其中的几个任务,同时允许用户主要通过自然语言指令与之交互。此外,本文还介绍了一个名为PromptCraft的开源研究工具,其中包括一个研究人员可以协作上传并投票的机器人应用程序的良好提示方案示例的平台,以及一个集成ChatGPT的机器人模拟器示例,使用户更容易开始使用ChatGPT机器人。https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/自然语言处理(NLP)的快速发展导致了大型语言模型(LLMs)的发展,如BERT[2]、GPT-3[3]和Codex[4],这些模型正在对广泛的应用程序进行革命。这些模型在文本生成、机器翻译和代码合成等各种任务中都取得了显著的效果。这个模型集合的最新成员是OpenAI
2023年2月26日
自由知乎 自由微博
其他

推荐如何用多模态信息?南洋理工最新《多模态推荐系统》综述,33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐系统通过隐式交互(如购买和点击)对用户偏好和物品属性进行建模,帮助用户发现其感兴趣的物品,已经成为一种流行而有效的工具。人类通过处理模态信号(如音频、文本和图像)来感知世界,这启发了研究人员建立一个可以理解和解释不同模态数据的推荐系统。这些模型可以捕获不同模态之间的隐藏关系,并可能恢复单模态方法和隐式交互无法捕获的互补信息。本综述的目的是对最近关于多模态推荐的研究工作进行全面的回顾。具体来说,它展示了每个步骤中常用技术的清晰流程,并按使用的方法对模型进行了分类。此外,还设计了一个代码框架,以帮助该领域的新研究人员理解原理和技术,并轻松运行SOTA模型。我们的框架位于:https://github.com/enoche/MMRec。https://www.zhuanzhi.ai/paper/3583c735309784dc4b59929515420bfc1.
2023年2月13日
其他

「图神经网络:基础、前沿与应用」最新AAAI2023教程,209页ppt全面阐述GNN最新进展

第37届国际人工智能大会(AAAI2023)于2023年2月7日-2月14日在美国华盛顿召开。AAAI是CCF推荐的A类国际学术会议,在人工智能领域享有很高的学术声誉。这次会议共收到来自8777篇投稿,录用1721篇,录用率约19.6%。来自Pinterest、清华等学者带来了《图神经网络:基础、前沿与应用》教程,非常值得关注!近年来,图神经网络(GNN)领域取得了令人难以置信的快速发展。图神经网络,也被称为图深度学习、图表示学习或几何深度学习,已经成为机器学习,尤其是深度学习中发展最快的研究课题之一。图论和深度学习交叉的这波研究浪潮也影响了其他科学领域,包括推荐系统、计算机视觉、自然语言处理、归纳逻辑编程、程序合成、软件挖掘、自动化规划、网络安全和智能交通。然而,随着该领域的迅速发展,获取全球范围内GNN发展的视角是极具挑战性的。因此,我们迫切需要弥合上述差距,并就这一快速增长但具有挑战性的主题提供全面的教程。本教程将通过回顾和介绍图神经网络的基本概念和算法、图神经网络的新研究前沿以及图神经网络的广泛和新兴应用,涵盖图神经网络中广泛的主题。此外,通过我们最近出版的《图神经网络(GNN):基础、前沿和应用》一书,丰富的教程材料将包括和介绍,以帮助读者获得系统的理解,这是GNN研究人员和实践者阅读和学习的最全面的书籍之一。https://graph-neural-networks.github.io/tutorial_aaai23.htmlOpening
2023年2月11日
其他

什么是类增量学习?南京大学最新《深度类增量学习》综述论文,30页pdf涵盖249篇文献

深度模型,如CNN和视觉transformer,在封闭世界的许多视觉任务中取得了令人印象深刻的成就。然而,在瞬息万变的世界中,新颖的类别不断涌现,这就要求学习系统不断获取新知识。例如,机器人需要理解新的指令,而意见监测系统应该每天分析新出现的主题。类增量学习(class
2023年2月10日
其他

强化学习如何因果化?看最新《因果强化学习》综述论文,39页pdf

强化学习是解决不确定序贯决策问题的一种重要方法。尽管近几十年来取得了许多显著的成就,但在现实世界中应用强化学习方法仍然具有挑战性。其中一个主要障碍是强化学习智能体缺乏对世界的共同知识,因此必须通过大量的交互从头开始学习。他们也可能很难解释他们的决策和泛化学到的知识。另一方面,因果关系在形式化知识和利用结构不变性进行有效的知识转移方面具有明显的优势。这导致了因果强化学习的出现,这是强化学习的一个子领域,旨在使用数据生成过程的结构化和可解释表示来改进现有算法。本文全面回顾了因果强化学习的文献。首先介绍因果关系和强化学习的基本概念,然后解释因果建模如何解决非因果强化学习中的核心挑战。本文根据现有因果强化学习方法的目标问题和方法,对其进行了分类和系统回顾。最后,对该新兴领域存在的问题和未来发展方向进行了展望。https://openreview.net/forum?id=iATMbh8mhD&referrer=%5BTMLR%5D(%2Fgroup%3Fid%3DTMLR)1.
2023年2月7日
其他

Transformer如何训得更快更好?莫纳什大学最新《Transformer高效训练》综述,详述训练Transformer技术

Transformer的最新进展伴随着对计算资源的巨大需求,突出了开发高效训练技术的重要性,通过有效使用计算和存储资源,使Transformer训练更快、成本更低、准确度更高。本综述首次系统地概述了transformer的高效训练,涵盖了加速算法和硬件方面的最新进展,重点是前者。我们分析和比较了在训练期间节省中间张量计算和存储成本的方法,以及硬件/算法协同设计的技术。最后讨论了面临的挑战和未来的研究方向。https://www.zhuanzhi.ai/paper/3b027298fe1e5d2a83a18e2e19e245ed深度学习,又称深度神经网络(DNN)是机器学习的一种变革性方法。它彻底改变了机器学习和人工智能,被公认为引领第四次产业革命的技术。总的来说,深度学习的巨大成功归功于它有效地利用了现有的大量计算资源和大量标记数据。尽管最近的发展带来了巨大的兴奋,但深度学习模型,特别是transformer,已经变得异常庞大和计算密集型,导致了两个基本挑战。第一个问题涉及训练基于transformer的大型模型的密集计算。一项广泛讨论的深度学习模型能耗研究[74]估计,训练一个大型语言模型(LLM)会产生626,155磅的温室气体,相当于五辆汽车的寿命排放量;随着型号越来越大,它们对计算的需求超过了硬件效率的提高。例如,超级巨星GPT-3[9]在5000亿个单词上进行训练,并膨胀到1750亿个参数。值得注意的是,根据GPT-32的技术概述,单次训练运行将需要355
2023年2月4日
其他

清华最新《持续学习》综述,32页pdf详述持续学习理论、方法与应用综述

为了应对现实世界的动态变化,智能体需要在其生命周期中增量地获取、更新、积累和利用知识。这种能力被称为持续学习,为人工智能系统自适应发展提供了基础。在一般意义上,持续学习明显受到灾难性遗忘的限制,学习新任务通常会导致旧任务的性能急剧下降。除此之外,近年来出现了越来越多的进展,在很大程度上扩展了持续学习的理解和应用。人们对这一方向日益增长和广泛的兴趣表明了它的现实意义和复杂性。本文对持续学习进行了全面的调研,试图在基本设置、理论基础、代表性方法和实际应用之间建立联系。基于现有的理论和实证结果,将持续学习的一般目标总结为:在资源效率的背景下,确保适当的稳定性-可塑性权衡,以及充分的任务内/任务间泛化能力。提供了最先进的和详细的分类法,广泛分析了有代表性的策略如何解决持续学习,以及它们如何适应各种应用中的特定挑战。通过对持续学习当前趋势、跨方向前景和与神经科学的跨学科联系的深入讨论,相信这种整体的视角可以极大地促进该领域和其他领域的后续探索。https://arxiv.org/abs/2302.004871.
2023年2月3日
其他

GNN如何建模时空信息?伦敦玛丽女王大学《时空图神经网络》综述,简明阐述时空图神经网络方法

图神经网络在过去几年中获得了巨大的兴趣。这些强大的算法将深度学习模型扩展到非欧氏空间,并能够在包括推荐系统和社交网络在内的各种应用中实现最先进的性能。然而,这种性能是基于静态图结构假设的,这限制了图神经网络在数据随时间变化时的性能。时序图神经网络是考虑时间因素的图神经网络的扩展。近年来,各种时序图神经网络算法被提出,并在多个时间相关应用中取得了优于其他深度学习算法的性能。本综述讨论了与时空图神经网络相关的有趣主题,包括算法、应用和开放挑战。1.
2023年2月1日
其他

【普林斯顿博士论文】基于深度模型的高效强化学习,186页pdf

深度强化学习的最新进展已经证明了其在解决现实问题方面的巨大潜力。然而,有两个问题阻碍了强化学习的应用:效率和效果。本文研究如何通过设计基于深度模型的算法来提高强化学习的效率和效果。对动力学模型的访问使算法能够进行规划,这是顺序决策的关键。本文主要围绕在线强化学习、神经网络在深度强化学习中的表达能力、离线强化学习和安全强化学习四个主题展开研究。对于在线强化学习,本文提出了一个具有理论保证的算法框架,利用在学习环境中学习到的策略在真实环境中可以获得的性能下界。通过实验验证了所提方法的有效性。对于深度强化学习中神经网络的表达能力,证明了在某些情况下,基于模型的方法比无模型的方法需要更少的表示能力来近似接近最优的策略,并根据经验表明,这在模拟机器人环境中可能是一个问题,基于模型的规划器可以帮助。对于离线强化学习,设计了一种算法,使策略能够保持在提供的专家演示集附近,以减少分布偏移,还进行了实验,证明了所提出方法在提高模拟环境中机械臂操纵任务成功率的有效性。对于安全强化学习,提出了一种用学到的动力学模型来证明安全状态的方法,实验表明,该方法可以在一组简单但具有挑战性的任务中学习一个不错的策略,没有一次安全违规,而基线算法有数百次安全违规。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“R186”
2023年1月30日
其他

小样本图像分类研究综述

近年来,凭借大规模数据集和庞大的计算资源,使得以深度学习为代表的人工智能算法在诸多领域取得成功。其中计算机视觉领域的图像分类技术蓬勃发展,并涌现出许多成熟的视觉任务分类任务模型。这些模型均需要利用大量的标注样本进行训练,但在实际场景中因诸多限制导致数据量稀少,往往很难获得相应规模的高质量标注样本。因此如何使用少量样本进行学习已经逐渐成为当前的研究热点。小样本学习旨在通过少量样本实现对新类别样本的高效识别与处理。针对分类任务系统梳理了当前小样本图像分类的相关工作,小样本学习主要采用元学习、度量学习和数据增强等深度学习方法。从有监督、半监督和无监督等层次归纳总结了小样本图像分类的研究进展和典型技术模型,以及这些模型方法在若干公共数据集上的表现,并从机制、优势、局限性等方法进行对比分析。最后讨论了当前小样本图像分类面临的技术难点以及未来的发展趋势。大规模标注数据集是深度学习成功的必要条
2023年1月27日
其他

基于深度学习的图像融合方法综述

图像融合技术旨在将不同源图像中的互补信息整合到单幅融合图像中以全面表征成像场景,并促进后续的视觉任务。随着深度学习的兴起,基于深度学习的图像融合算法如雨后春笋般涌现,特别是自编码器、生成对抗网络以及Transformer等技术的出现使图像融合性能产生了质的飞跃。本文对不同融合任务场景下的前沿深度融合算法进行全面论述和分析。首先,介绍图像融合的基本概念以及不同融合场景的定义。针对多模图像融合、数字摄影图像融合以及遥感影像融合等不同的融合场景,从网络架构和监督范式等角度全面阐述各类方法的基本思想,并讨论各类方法的特点。其次,总结各类算法的局限性,并给出进一步的改进方向。再次,简要介绍不同融合场景中常用的数据集,并给出各种评估指标的具体定义。对于每一种融合任务,从定性评估、定量评估和运行效率等多角度全面比较其中代表性算法的性能。本文提及的算法、数据集和评估指标已汇总至https://github.com/Linfeng-Tang/Image-Fusion。最后,给出了本文结论以及图像融合研究中存在的一些严峻挑战,并对未来可能的研究方向进行了展望。http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20230102&flag=1专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“DLIF”
2023年1月25日
其他

伯克利新课-《全栈深度学习2022》课程视频及ppt全部开放!全面讲解DL基础到大模型

有很多很棒的课程来学习如何训练深度神经网络。但是,训练模型只是进行深度学习项目的一部分。本课程教授全栈生产深度学习:
2023年1月25日
其他

GNN 如何遗忘学习?哈佛ICLR2023《图神经网络的通用遗忘学习策略》

本文考虑图遗忘学习问题,将图神经网络模型训练到指定的准确度,然后部署图神经网络模型,同时一系列请求到达,从模型中删除图元素(节点、边)。随着GNN模型在现实世界中的应用,解决这个问题变得越来越重要——例如,当用户试图隐藏他们在社交图中与其他人的联系时,或者当知识图谱中的关系变得不相关或不再真实时。要从经过训练的GNN中删除信息,必须从模型中删除其对GNN模型权重以及对图中邻居表示的影响。然而,现有的通过再训练和权重修改的方法要么降低了所有节点共享的模型权重,要么由于删除的边对局部图邻域的强依赖性而失效。认识到这些陷阱,本文以删除边一致性和邻域影响的形式形式化了图遗忘学习所需的属性,并开发了GNNDelete,一种与模型无关的逐层算子,为遗忘学习任务优化这两个属性。GNNDelete更新潜在表示,从模型中删除节点和边,同时保持学到的其余知识的完整性。在6个真实世界和2个知识图谱上的实验表明,与现有的图忘记模型相比,GNNDelete在链路预测任务上的AUC最高可达36.9%,在区分删除边和未删除边的AUC最高可达22.5%。GNNDelete高效——例如,与在大型知识图谱上从头开始训练相比,它需要的时间减少12.3倍,空间减少9.3倍。https://zitniklab.hms.harvard.edu/projects/GNNDelete/图神经网络(GNN)在现实世界中的应用越来越多,在大多数部署的GNN中,底层图会随着时间的推移而变化。传统的机器学习方法通常是离线工作的,其中模型使用完整的训练数据集进行一次训练,然后锁定用于推理,对模型进行少量更新。相比之下,在线训练可以在新的训练数据点可用时使用它们更新模型。然而,离线和在线学习都无法处理数据删除——即在不牺牲模型性能的情况下从模型中删除数据点的所有痕迹的任务。当需要从模型中删除数据时,模型必须进行相应的更新。例如,GNN必须实施保护个人隐私的隐私条款(如加州消费者隐私法(CCPA)和通用数据保护条例(GDPR)),这意味着赋予GNN数据删除能力是重要的,但在文献中研究较少。然而,设计图遗忘学习方法是具有挑战性的。仅删除数据不足以满足最近对增加数据隐私的要求,因为在原始数据上训练的模型可能仍然包含有关其模式和特征的信息。一种简单的方法是删除数据并从头开始重新训练模型。然而,这可能非常昂贵,特别是在大型数据集上。本文提出GNNDelete,一种用于图遗忘的通用方法。我们形式化了两个关键的GNN删除属性:删除边的一致性:未学习模型删除边的预测概率应该与不存在边的预测概率相似。该属性强制GNNDelete删除被删除的边伪装成未连接的节点等信息。邻域影响:在图的删除和Granger因果关系之间建立联系,以确保删除后的局部子图不受影响,从而保持原始的预测依赖关系。然而,现有的图删除方法没有考虑这一本质属性,即没有考虑局部连通性的影响,导致次优删除。利用这两个属性,我们开发了GNNDelete,一个逐层删除操作符来更新节点表示。当接收删除请求时,GNNDelete冻结模型并学习在所有节点中共享的额外的小门控权重矩阵。与现有方法不同,现有方法试图从头开始重新训练几个小型模型或直接更新模型权重,这可能是低效和次优的,GNNDelete使用小型可学习矩阵进行推理,而不改变GNN模型权重,实现了效率和可扩展性。为了优化GNNDelete,指定了一个新的目标函数,满足删除边的一致性和邻域影响,产生强的整体删除。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“GNNU”
2023年1月23日
其他

【2023新书】基于R的机器和深度学习超参数调优实用指南

这本开放存取的书提供了大量的实践示例,说明了如何在实践中应用超参数调优,并对机器学习(ML)和深度学习(DL)方法的工作机制提供了深入的见解。本书的目的是让读者能够使用这里描述的方法,以更少的时间、成本、精力和资源取得更好的结果。本书中的案例可以在普通的台式电脑或笔记本电脑上运行。不需要高性能计算设施。编写这本书的想法源于Bartz
2023年1月22日
其他

麦考瑞大学最新《图学习》综述,30页pdf274篇文献全面阐述图机器学习进展

图在表示关系数据(如化合物、蛋白质和社交网络)方面具有卓越的能力。因此,图级学习以一组图作为输入,已应用于许多任务,包括比较、回归、分类等。传统的图学习方法往往依赖于手工设计的特征,如子结构。但是,虽然这些方法受益于良好的可解释性,但它们往往遭受计算瓶颈,因为它们不能绕过图同构问题。相反,深度学习通过自动提取特征并将图解码为低维表示,帮助图级学习适应不断增长的图规模。因此,这些深度图学习方法取得了许多成功。然而,没有一个全面的调研来回顾从传统学习到深度学习方法的图级学习。本文填补了这一空白,并将具有代表性的算法框架化为一个系统的分类,包括传统学习、图级深度神经网络、图级图神经网络和图池化。为了确保一个彻底的全面的综述,从四个不同的分支的开发方法之间的演变,交互和交流也被检查。接下来简要回顾基准数据集、评估指标和常见的下游应用。该调研总结了13个必要研究的未来方向,这些研究将有助于克服这一蓬勃发展的领域面临的挑战。1.
2023年1月20日
其他

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性,241页pdf

深度学习为我们提供了越来越复杂的神经网络,可以通过梯度上升来调整,以最大化某些目标。贝叶斯统计为我们提供了一种原则性和统一的方法来指定统计模型和执行推断。将这两种方法配对的一种有效方法产生了深度生成模型(DGM),其中概率模型中统计参数之间的映射本身使用神经网络进行参数化。在本文中,我们研究了这种方法可以用于解决机器学习中的各种问题的方法,以及由此产生的模型的属性。在这篇论文中,有三个反复出现的主题,鲁棒性,结构和层次,贯穿始终。首先研究如何构建一个深度生成模型,以在一种称为半无监督学习的新学习机制中进行学习。这是半监督学习的一个极端情况,对于某些类别的数据,没有给定的标记示例。在学习将数据划分为不同的成分,不同的基础真值类时,模型必须能够在未标记的类上进行聚类,并在给出了一些标记示例的类上进行半监督学习。本文展示了如何在一系列标准数据集上实现这一点。从处理一个离散潜变量聚类分配开始,研究具有离散潜变量层次结构的模型。我们提出了一种新的方法来参数化这种类型的模型中的潜在变量,放松的责任向量量化,可以训练非常深的潜在变量层的层次结构。该方法在一系列标准数据集上,对端到端的分层离散DGM进行训练,在最大化数据证据(训练和测试集)的下界方面取得了最先进的结果。在这样做的过程中,这些模型有助于缩小具有离散潜在的分层DGM和具有连续潜在的分层DGM之间的差距,并提供极其稳定的训练。然后我们切换到另一个问题,如何构建一个模型,以有效地从高维数据中学习统计独立的潜在表示。本文提出一种分层方法,使用双射函数flow来产生一个中间表示,然后由高度约束的线性独立成分分析(ICA)模型起作用。与其他方法相比,这导致了在各种玩具和真实数据集上的优越性能。然后,研究迄今为止未考虑的问题,即如何使DGM对对抗性攻击具有鲁棒性。对这些模型的潜空间进行正则化可以可靠地诱导鲁棒性,并通过将这种正则化应用于分层的DGM来获得更鲁棒的模型。最后,从理论角度研究了DGM算法的鲁棒性问题。我们定义r-鲁棒性,DGM鲁棒性的新标准,然后得出该标准上的间隔,在该间隔内的模型可以说是鲁棒的。与潜空间被正则化的各种DGM的最佳模型的新理论相结合,这种间隔的形式有助于了解这种正则化如何提高鲁棒性。本文提出的工作表明,深度学习和贝叶斯统计的结合是多么有效,并提供了对他们的组合所产生的模型本质的见解。这为这两个方向开辟了新的研究——为建立在所提出工作之上的新模型,也为研究深度生成模型的理论工作开辟了新途径。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“R241”
2023年1月17日
其他

「因果机器学习」前沿进展最新综述

机器学习是实现人工智能的重要技术手段之一,在计算机视觉、自然语言处理、搜索引擎与推荐系统等领域有着重要应用.现有的机器学习方法往往注重数据中的相关关系而忽视其中的因果关系,而随着应用需求的提高,其弊端也逐渐开始显现,在可解释性、可迁移性、鲁棒性和公平性等方面面临一系列亟待解决的问题.为了解决这些问题,研究者们开始重新审视因果关系建模的必要性,相关方法也成为近期的研究热点之一.在此对近年来在机器学习领域中应用因果技术和思想解决实际问题的工作进行整理和总结,梳理出这一新兴研究方向的发展脉络.首先对与机器学习紧密相关的因果理论做简要介绍;然后以机器学习中的不同问题需求为划分依据对各工作进行分类介绍,从求解思路和技术手段的视角阐释其区别与联系;最后对因果机器学习的现状进行总结,并对未来发展趋势做出预测和展望.地址:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021107800.
2023年1月17日
其他

272页《多模态深度学习》最新最全综述书,全面阐述多模态深度学习技术进展

在过去的几年中,在自然语言处理(NLP)和计算机视觉(CV)中使用的方法取得了一些突破。除了这些对单模态模型的改进之外,大规模的多模态方法已经成为一个非常活跃的研究领域。这本书是一个研讨会的结果,在会上,我们回顾了多模态方法,并试图创建一个该领域的坚实概述,从深度学习的两个子领域的当前最先进的方法开始。此外,还讨论了一种模态转换为另一种模态的建模框架,以及利用一种模态来增强另一种模态的表示学习的模型。为总结第二部分,介绍了专注于同时处理两种模态的架构。最后,还介绍了其他模态以及通用多模态模型,这些模型能够在一个统一的架构内处理不同模态上的不同任务。https://www.zhuanzhi.ai/paper/e2903749a7bf278d8c0c179a678b3dba1.
2023年1月16日
其他

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2023ASU课程,(附书稿PDF&讲义)

Bertsekas在ASU开设了2023《强化学习》课程,讲述了强化学习一系列主题。Dimitri
2023年1月15日
其他

【博士论文】复杂环境下的大规模软件系统可靠性提升技术研究

来自国防科技大学的贾周阳博士论文,入选2022年度“CCF优秀博士学位论文奖”初评名单!https://www.ccf.org.cn/Focus/2022-12-08/781244.shtml在“互联网
2023年1月14日
其他

【牛津大学博士论文】随机过程非线性鲁棒独立分量分析,245页pdf

本文分为两个主要部分,在这两个部分之前,我们分别对时序数据的特征分析做了简要的介绍。在第一部分中,我们研究了从非线性混合信号的观测中恢复多维源信号的经典问题。本文表明,如果混合是由于一个充分可微和可逆但其他任意的非线性函数造成的,并且源的分量信号是统计独立的,具有“非退化”的二阶统计量,则这种恢复是可能的(直到源的原始分量信号的排列和单调缩放)。后一种假设要求源信号满足三个规则条件之一,这些条件基本上确保源信号足够远离在时间上是确定的或恒定的不可恢复极端情况。这些假设涵盖了许多流行的时间序列模型和随机过程,允许我们将非线性盲源分离的初始问题重新描述为基于优化的函数逼近的简单到状态问题。本文提出通过最小化一种新的目标函数来解决这个近似问题,该目标函数通过类累积量统计有效量化了多个随机过程之间的相互统计依赖性。这产生了一个可扩展的、直接的非线性独立分量分析新方法,具有广泛适用的理论保证,实验表明该方法具有良好的性能。在第二部分,我们从统计鲁棒性的角度重新审视盲源分离问题。盲源分离(Blind
2023年1月8日
其他

领域自适应在实际中如何用? UNC最新《无源无监督领域自适应SFUDA》综述论文,详述白盒SFUDA和黑盒SFUDA技术进展

无源无监督领域自适应(SFUDA)旨在将预先训练的源模型适配到未标记的目标域,而无需访问标记良好的源数据,由于数据隐私、安全和传输问题,SFUDA有广阔的应用领域。来自北卡罗来纳大学教堂山分校等学者发布了《无源领域自适应综述》,现有的SFUDA方法进行了及时和系统的文献综述基于深度学习的无监督域适应(UDA)因解决不同域之间分布差异导致的域偏移问题而引起了人们的关注。现有UDA方法高度依赖源域数据的可访问性,而在实际场景中,由于隐私保护、数据存储和传输成本以及计算负担等原因,可访问性通常受到限制。为了解决这一问题,近年来提出了许多无源无监督域适应(source-free
2023年1月6日
其他

现在大火的“In-context Learning”是什么?北大等最新《语境学习ICL》综述论文,详述ICL进展、挑战和方向

2022),大型语言模型展示了从由上下文中的几个示例组成的演示中学习的新能力(简称语境学习)。许多研究表明,LLMs可以使用ICL执行一系列复杂的任务,如解决数学推理问题(Wei
2023年1月3日
其他

【TPAMI2022】激光雷达获取的稀疏深度补全综述

本文全面调研了激光雷达获取的稀疏深度的补全问题。深度补全旨在从深度传感器捕获的稀疏深度图中进行矩阵补全,从而获取密集的像素级深度。它在自动驾驶、3D
2023年1月1日
其他

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

序列推荐是一项重要的任务,它根据用户交互的物品序列预测下一个要访问的物品。现有的工作大多将用户偏好学习为上一项到下一项的过渡模式,忽略了两项之间的时间间隔。然而,序列中的时间间隔可能存在显著差异,从而导致用户建模因偏好漂移问题而失效。事实上,我们进行了实证研究来验证这一观察结果,发现时间间隔均匀分布的序列(记为均匀序列)比时间间隔变化较大的序列更有利于性能的提升。因此,本文提出从时间间隔的角度对序列数据进行增广,这是目前文献中未研究的。具体地,设计了5个算子(Ti-Crop,
2022年12月31日
其他

「大型语言模型推理」综述

推理是人类智能的一个基本方面,在解决问题、决策和批判性思考等活动中起着至关重要的作用。近年来,大型语言模型(LLMs)在自然语言处理方面取得了重大进展,有人观察到这些模型在足够大的时候可能会表现出推理能力。然而,目前还不清楚LLMs的推理能力到何种程度。本文对LLM推理的知识现状进行了全面的概述,包括改进和诱导这些模型推理的技术、评估推理能力的方法和基准、该领域以前研究的发现和影响,以及对未来方向的建议。我们的目标是对这一主题提供详细和最新的回顾,并激发有意义的讨论和未来的工作。https://www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d51.
2022年12月24日
其他

【ICDM2022教程】多目标优化与推荐,173页ppt

推荐系统已广泛应用于多个领域和应用。传统的推荐系统通常处理单一目标,如最小化预测误差或最大化推荐列表的排名。多目标优化是一个新兴的需求,以便推荐模型的开发可以考虑多个目标。目前,多目标优化方法已经得到了很好的发展,并在推荐系统领域得到了重用。本教程旨在全面介绍多目标优化和多目标推荐系统。更具体地说,我们确定了多目标推荐系统可能有用的情况,总结了这些系统中的方法和评估方法,通过批判性分析指出了存在的问题,并为在推荐系统中使用多目标优化提供了指导方针。https://moorecsys.github.io/ICDM2022/#slides-sectionPart
2022年12月24日
其他

【DTU博士论文】面向自然语言处理的深度潜变量模型,232页pdf

多人工智能任务的改进。隐变量模型提供了一个优雅的框架,以新的功能来增强生成算法。然而,在自然语言处理领域,尚不清楚如何最好地将潜变量与强大且无处不在的语言模型相结合。https://vlievin.github.io/deep-lvms-for-nlp.pdf本文探索先进的优化方法和潜变量模型的设计,以完成自然语言处理任务。全文共分为三个部分。在第一部分中,我们提出了隐变量语言模型的三种结构。本文讨论了结构化的潜空间,可以结构化为大型知识库(如维基百科)或以潜文本生成过程为特征。在第二部分中,我们深入研究变分推理和优化的主题。本文提出一种新的离散潜变量梯度估计器OVIS。我们发现,即使使用OVIS,优化深度潜变量模型仍然具有挑战性。本文根据经验数据表明,Rényi散度变分推理可以应用于规避一些学习问题。在第三部分中,我们重点解决医疗问答和信息检索任务。实验提示预训练大型语言模型(GPT-3)生成逐步的问题解决方案。本文报告称,在许多情况下,GPT-3可以推理具有挑战性的医学问题。提出了一个新的框架VOD,用于用变分推理学习检索增强语言模型。本文应用VOD来优化由大量维基百科增强的问答系统,并报告了在医疗问答基准上的最先进性能。最后,将得到的模型应用于罕见病诊断领域的信息检索任务。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“D232”
2022年12月22日
其他

如何全面掌握图机器学习?西南财大最新《图学习》全面综述,涵盖 27页pdf448篇文献阐述图学习方法、应用与未来方向

图学习旨在学习现实世界中常见的复杂节点关系和图的拓扑结构,如社交网络、学术网络和电子商务网络等。这些关系使得图数据与传统的表格数据不同,其中节点依赖于非欧氏空间,包含了丰富的信息。图学习从图论发展到图数据挖掘,现在被赋予表示学习的能力,使其在各种场景中取得了出色的性能,甚至包括文本、图像、化学和生物。由于在现实世界中的广泛应用前景,图学习已经成为机器学习中一个热门且有前景的领域。近年来,已有成千上万的研究成果被提出用于解决图学习中的各种问题,引起了学术界越来越多的关注,因此对已有的有价值的研究成果进行综述变得至关重要。尽管一些研究人员已经注意到这种现象,并完成了关于图学习的令人印象深刻的调研。然而,由于图学习的快速扩展,它们未能以更合乎逻辑的方式将相关目标、方法和应用联系起来,并涵盖当前丰富的场景和具有挑战性的问题。1.
2022年12月21日
其他

语音中如何处理隐私性安全性?南加大《以语音为中心的可信机器学习:隐私、安全和公平》综述全面阐述

以语音为中心的机器学习系统彻底改变了许多领先领域,从交通和医疗保健到教育和国防,深刻改变了人们的生活、工作和相互互动的方式。然而,最近的研究表明,许多以语音为中心的机器学习系统可能需要被认为更值得信任,以便更广泛地部署。具体来说,在机器学习研究领域,人们都发现了对隐私泄露、判别性能和对抗性攻击脆弱性的担忧。为了应对上述挑战和风险,人们做出了大量努力,以确保这些机器学习系统是值得信任的,特别是隐私、安全和公平。本文首次对与隐私、安全和公平相关的、以语音为中心的可信机器学习主题进行了全面的调研。除了作为研究界的总结报告外,本文指出了几个有希望的未来研究方向,以激励希望在该领域进一步探索的研究人员。引言在过去的几年中,机器学习(ML),特别是深度学习,在各种研究领域和应用中取得了巨大的突破,包括自然语言处理(Devlin等人,2018)、图像分类(He等人,2016)、视频推荐(Davidson等人,2010)、医疗保健分析(Miotto等人,2018),甚至掌握国际象棋游戏(Silver等人,2016)。深度学习模型通常由多个处理层组成,并结合了线性和非线性操作。尽管训练具有多层架构的深度学习模型需要积累大型数据集和访问强大的计算基础设施(Bengio等人,2021),但与传统的建模方法相比,训练后的模型通常达到最先进的(SOTA)性能。深度学习的广泛成功还允许更深入地了解人类状况(状态、特征、行为、交互)和革命性的技术,以支持和增强人类体验。除了ML在上述领域取得的成功,以语音为中心的ML也取得了重大进展。言语是人类之间一种自然而突出的交流形式。它存在于人类生活的几乎每一个层面,无论是与朋友聊天、与同事讨论,还是与家人远程通话。以语音为中心的机器学习的进步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成为可能。此外,以语音为中心的建模在人类行为理解、人机界面(HCI)
2022年12月20日
其他

台大李宏毅老师最新AACL2022教程《预训练语言模型》教程,261页ppt讲述预训练模型为什么Work与怎么用? 附视频

预训练语言模型(PLMs)是在大规模语料库上以自监督方式进行预训练的语言模型。在过去的几年中,这些PLM从根本上改变了自然语言处理社区。在本教程中,我们旨在从两个角度提供广泛而全面的介绍:为什么这些PLM有效,以及如何在NLP任务中使用它们。本教程的第一部分对PLM进行了一些有见地的分析,部分解释了PLM出色的下游性能。第二部分首先关注如何将对比学习应用于PLM,以改进由PLM提取的表示,然后说明如何在不同情况下将这些PLM应用于下游任务。这些情况包括在数据稀缺的情况下对PLM进行微调,以及使用具有参数效率的PLM。我们相信,不同背景的与会者会发现本教程内容丰富和有用。https://d223302.github.io/AACL2022-Pretrain-Language-Model-Tutorial/近年来,基于深度学习的自然语言处理(NLP)已经成为主流研究,比传统方法有了显著改进。在所有深度学习方法中,在感兴趣的下游任务上微调自监督预训练语言模型(PLM)已经成为NLP任务中的标准流程。自ELMo
2022年12月18日
其他

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

众所周知,神经网络在直接使用输出标签分布生成不确定性度量时存在过度自信的问题。现有方法主要通过重新训练整个模型,赋予其不确定性量化能力,使学习到的模型在精度和不确定性预测方面同时达到预期的性能。然而,从头开始训练模型的计算成本很高,在许多情况下可能是不可行的。本文考虑一个更实际的事后不确定性学习设置,给出一个训练良好的基础模型,并专注于训练第二阶段的不确定性量化任务。本文提出一种新的贝叶斯元模型,以增强预训练模型的不确定性量化能力,有效且计算效率高。所提出的方法不需要额外的训练数据,足够灵活,可以量化不同的不确定性,并容易适应不同的应用设置,包括域外数据检测、错误分类检测和可信迁移学习。在多个代表性的图像分类基准上,证明了所提出的元模型方法的灵活性和在这些应用上的优越经验性能。https://www.zhuanzhi.ai/paper/ce666840fd9361b6f02ab0f425f731c6专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“UDMA”
2022年12月16日
其他

图学习如何检测异常?澳大利亚联邦大学最新《图学习异常分析:算法、应用与挑战》综述,阐述GCN/GAT/GAE等方法

图上如何做异常分析?澳大利亚联邦大学最新《图学习异常分析:算法、应用与挑战》综述,阐述GCN/GAT/GAE等方法异常分析是一项广泛而重要的研究任务,已经被研究了几十年。与此同时,深度学习在解决许多基于图的任务方面表现出了其能力,如节点分类、链接预测和图分类。近年来,许多研究通过扩展图学习模型来解决异常分析问题,使得基于图的异常分析技术取得了一些有益的进展。本文对用于异常分析任务的图学习方法进行了全面的概述。根据模型架构将它们分为四类,即图卷积网络(GCN)、图注意力网络(GAT)、图自编码器(GAE)和其他图学习模型。系统地比较了这些方法之间的差异。概述了现实世界中跨不同领域的几个基于图的异常分析应用。最后,讨论了这一快速发展领域未来可能的5个研究方向。1.
2022年12月15日
其他

【AAAI2023】MAPS-KB:一个百万级概率明喻知识库

理解和生成明喻的能力是实现人类级别AI的必要步骤。然而,在明喻方面,机器智能与人类认知仍有相当大的差距,因为基于统计分布的深度模型倾向于支持高频明喻。因此,需要一个大规模的明喻符号知识库,因为它有助于对不同但不受欢迎的明喻进行建模,同时便于进行额外的评估和推理。为了弥补这一差距,我们提出了一个用于大规模明喻知识库构建的新框架,以及两个概率度量,使我们能够更好地理解自然语言中的明喻现象。总体而言,我们构建了一个百万级概率明喻知识库MAPS-KB,涵盖了70
2022年12月15日
其他

时序多模态知识图谱如何推理?国防科大最新《知识图谱推理:静态、时序和多模态》综述论文,全面阐述知识图谱推理技术进展

KGs)以直观的图结构[1],[2],[3]存储人类知识事实,可作为提供特定领域知识的书籍,因此被许多研究者视为潜在的解决方案。为了利用知识图谱中的先验知识,知识图谱推理(knowledge
2022年12月14日
其他

【AAAI2023】学习为可解释序列数据建模选择原型部件

基于原型的可解释性方法通过将样本与记忆的样本或典型代表的参考集进行相似性比较,为模型预测提供直观的解释。在序列数据建模领域,原型的相似度计算通常基于编码表示向量。然而,由于高度递归的函数,基于原型的解释和原始输入之间通常存在不可忽略的差异。本文提出一种自解释选择性模型(SESM),用原型概念的线性组合来解释自己的预测。该模型采用基于案例推理的思想,选择最能激活不同概念的输入子序列作为原型部件,用户可以将其与从不同示例输入中选择的子序列进行比较,以理解模型决策。为了更好的可解释性,设计了多种约束,包括多样性、稳定性和局部性作为训练目标。在不同领域的广泛实验表明,所提出方法表现出良好的可解释性和有竞争力的准确性。https://www.zhuanzhi.ai/paper/db26f2247e2b7a1b39ddc69b3e9e4ab8专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“PISD”
2022年12月13日
其他

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述,全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述,全面阐述高效高分辨率深度学习方法,非常值得关注!智能手机、卫星和医疗设备等现代设备中的相机能够捕捉非常高分辨率的图像和视频。此类高分辨率数据通常需要通过深度学习模型进行处理,用于癌症检测、自动道路导航、天气预测、监测、优化农业过程和许多其他应用。由于高参数、计算成本、推理延迟和GPU内存消耗大,将高分辨率图像和视频作为深度学习模型的直接输入会带来许多挑战。像将图像调整到较低分辨率这样的简单方法在文献中很常见,但它们通常会显著降低精度。文献中的一些工作提出了更好的替代方案,以应对高分辨率数据的挑战,提高精度和速度,同时遵守硬件限制和时间限制。本综述介绍了这些高效的高分辨率深度学习方法,总结了高分辨率深度学习在现实世界中的应用,并提供了现有高分辨率数据集的全面信息。https://www.zhuanzhi.ai/paper/f70e86bd36f853e9e2f1b8e3d3257954概述许多现代设备,如智能手机、无人机、增强现实头盔、车辆和其他物联网(IoT)设备都配备了高质量的相机,可以捕捉高分辨率的图像和视频。在图像拼接技术、相机阵列[1]、[2]、十亿像素采集机器人[3]和全切片扫描仪[4]的帮助下,捕获分辨率可以提高到数十亿像素(通常称为十亿像素),如图1所示的图像。人们可以尝试根据人类视觉系统的能力来定义高分辨率。然而,许多深度学习任务依赖于设备捕获的数据,这些设备的行为与人眼非常不同,如显微镜、卫星图像和红外相机。此外,利用眼睛无法感知的更多细节在许多深度学习任务中是有益的,例如在第二节中讨论的应用。可以捕获并在处理时有用的细节量因任务而异。因此,高分辨率的定义与进程有关。例如,在图像分类和计算机断层扫描(CT)扫描处理中,512×512像素的分辨率被认为是高[5],[6]。在视觉人群计数中,高分辨率(HD)或更高分辨率的数据集常见[7],而在组织病理学中研究组织疾病的全切片图像(WSIs),或由飞机或卫星捕获的遥感数据,很容易达到十亿像素分辨率[8]、[9]。此外,随着硬件和方法的不断进步,深度学习文献认为的高分辨率已经随着时间发生了变化。例如,在20世纪90年代末,用神经网络处理32×32-pixel
2022年12月13日
其他

【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力

(WTAWP)来缓解这个问题。用WT-AWP正则化图神经网络,持续提高了许多不同图学习任务和模型的自然和鲁棒泛化能力。专知便捷查看便捷下载,请关注专知公众号(点击上方蓝色专知关注)后台回复“AWP”
2022年12月12日