工劳快讯:汕尾美团骑手罢工取得阶段性胜利

记者调查泉州欣佳酒店倒塌曝惊人“案中案”:曾是卖淫场所,50名老板、官员卷入其中

退出中国市场的著名外企名单

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

【少儿禁】马建《亮出你的舌苔或空空荡荡》

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

爱可可AI前沿推介(1.28)

爱可可爱生活 爱可可爱生活 2023-01-31

LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 AS - 音频与语音

1、[CV] Text-To-4D Dynamic Scene Generation
2、[CL] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
3、[CV] Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models
4、[AS] MusicLM: Generating Music From Text
5、[LG] Open Problems in Applied Deep Learning
[CV] simple diffusion: End-to-end diffusion for high resolution images
[CV] Cut and Learn for Unsupervised Object Detection and Instance Segmentation
[CV] Learning Good Features to Transfer Across Tasks and Domains
[LG] Versatile Neural Processes for Learning Implicit Neural Representations

摘要:文本到4D动态场景生成、基于概率曲率的零样本机器生成文本检测、用隐局部似然模型提高神经图像压缩统计保真度、MusicLM文本音乐生成、应用深度学习的开放问题、高分辨率图像的端到端扩散、面向无监督目标检测和实例分割的剪切和学习、跨任务/域迁移特征学习、多功能神经过程隐神经表示学习

1、[CV] Text-To-4D Dynamic Scene Generation

U Singer, S Sheynin, A Polyak, O Ashual, I Makarov, F Kokkinos, N Goyal, A Vedaldi, D Parikh, J Johnson, Y Taigman
[Meta AI]

文本到4D动态场景生成

要点:

  1. 提出MAV3D,一种利用 4D 动态神经辐射场(NeRF)和基于文本到视频(T2V)扩散模型,从文本描述中生成 3D 动态场景的有效方法;
  2. 提出一个多阶段的从静态到动态的优化方案,逐步纳入静态、时间和超分辨率模型的梯度信息,以增强 4D 场景表示;
  3. 通过全面的定量和定性实验证明了该方法的有效性,比之前建立的内部基线有所改进。

一句话总结:
提出MAV3D,一种有效方法,利用 4D 动态神经辐射场和基于文本到视频的扩散模型,从文本描述中生成 3D 动态场景,采用多阶段静态到动态的优化方案,通过实验证明,它是第一个不需要3D或4D数据生成4D场景的方法。

摘要:
本文提出了MAV3D(Make-A-Video3D),一种从文本描述生成 3D 动态场景的方法,用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)的扩散模型,对场景外观、密度和运动一致性进行优化。从提供的文本中产生的动态视频输出,可以从任意相机位置和角度观看,并可以合成到任意 3D 环境中。MAV3D不需要任何 3D 或 4D 数据,T2V模型仅在文本-图像对和未标记视频上训练。用全面的定量和定性实验证明了该方法的有效性,并显示出比之前建立的内部基线有改进。该方法是第一个由文本描述生成 3D 动态场景的方法。

We present MAV3D (Make-A-Video3D), a method for generating three-dimensional dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural Radiance Field (NeRF), which is optimized for scene appearance, density, and motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The dynamic video output generated from the provided text can be viewed from any camera location and angle, and can be composited into any 3D environment. MAV3D does not require any 3D or 4D data and the T2V model is trained only on Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our approach using comprehensive quantitative and qualitative experiments and show an improvement over previously established internal baselines. To the best of our knowledge, our method is the first to generate 3D dynamic scenes given a text description.

https://arxiv.org/abs/2301.11280



2、[CL] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

E Mitchell, Y Lee, A Khazatsky, C D. Manning, C Finn
[Stanford University]

DetectGPT: 基于概率曲率的零样本机器生成文本检测

要点:

  1. 基于从LLM采样的文本往往占据模型对数概率函数的负曲率区域的观察,提出了一种新的基于曲率的标准来判断段落是否来自语言模型(LLM)生成;
  2. DetectGPT 是一种实用算法,仅使用由另一个通用预训练语言模型(例如T5)的兴趣模型和随机扰动的对数概率,不需要训练单独的分类器,收集真实或生成的段落数据集,或显式对生成的文本加水;
  3. 证明DetectGPT比现有的模型样本检测零样本方法更具区分性,特别是将 20B 参数 GPT-NeoX 生成的假新闻文章的检测率从最强零样本基线的 0.81 AUROC 提高到 DetectGPT 的0.95 AUROC。

一句话总结:
提出 DetectGPT,基于从语言模型(LLM)采样的文本倾向于占据模型对数概率函数的负曲率区域的零样本机器生成文本检测方法,使 GPT-NeoX 生成的假新闻的检测从 0.81 AUROC 提高到 0.95 AUROC,而无需单独的分类器或数据集。

摘要:
大型语言模型(LLM)的流畅性和事实知识使得相应的系统更需要检测一段文本是否是机器写的。例如,学生可能会使用LLM来完成书面作业,使教员无法准确评估学生的学习。本文首先证明,从LLM中取样的文本。往往占据模型的对数概率函数的负曲率区域。利用这一观察结果,本文定义了一个新的基于曲率的标准,来判断一个段落是否是由一个给定的LLM生成的。该方法称为 DetectGPT,不需要训练单独的分类器,不需要收集真实或生成的段落的数据集,也不需要显式地对生成的文本加水印。只使用感兴趣的模型计算的对数概率和另一个通用的预训练语言模型(如T5)的段落的随机扰动。本文发现DetectGPT 在模型样本检测方面比现有的零样本方法更具鉴别力,特别是提高了对 20B 参数 GPT-NeoX 生成的假新闻文章的检测,从最强的零样本基线的 0.81 AUROC 提高到 DetectGPT 的0.95 AUROC。

The fluency and factual knowledge of large language models (LLMs) heightens the need for corresponding systems to detect whether a piece of text is machine-written. For example, students may use LLMs to complete written assignments, leaving instructors unable to accurately assess student learning. In this paper, we first demonstrate that text sampled from an LLM tends to occupy negative curvature regions of the model's log probability function. Leveraging this observation, we then define a new curvature-based criterion for judging if a passage is generated from a given LLM. This approach, which we call DetectGPT, does not require training a separate classifier, collecting a dataset of real or generated passages, or explicitly watermarking generated text. It uses only log probabilities computed by the model of interest and random perturbations of the passage from another generic pre-trained language model (e.g, T5). We find DetectGPT is more discriminative than existing zero-shot methods for model sample detection, notably improving detection of fake news articles generated by 20B parameter GPT-NeoX from 0.81 AUROC for the strongest zero-shot baseline to 0.95 AUROC for DetectGPT. See this https URL for code, data, and other project information.

https://arxiv.org/abs/2301.11305



3、[CV] Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models

M J. Muckley, A El-Nouby, K Ullrich, H Jégou, J Verbeek
[Meta AI]

用隐局部似然模型提高神经图像压缩统计保真度

要点:

  1. 提出基于 VQ-VAE 自编码器的新对抗判别器,优化了局部图像近邻似然函数,称为"隐式局部似然模型”(ILLM);
  2. 将 ILLM 与 MeanScale Hyperprior 神经压缩架构结合起来,创造出一种新的压缩器,称为 Mean-Scale-ILLM(MS-ILLM);
  3. 在 CLIC2020、DIV2K 和 Kodak 数据集上,经验证明 MS-ILLM 可以超越 HiFiC 的统计保真度分数(由FID衡量)而不牺牲 PSNR。

一句话总结:
作者提出一种新的神经图像压缩模型,MS-ILLM,通过使用基于 VQ-VAE 自编码器的局部对抗性判别器来提高统计保真度,与最先进的 HiFiC 模型相比,产生了更好的 FID 和 KID 指标。

摘要:
有损图像压缩的目的,是在保持对原始图像的保真度的同时,用尽可能少的比特来表示图像。理论结果表明,优化 PSNR 或 MS-SSIM 等失真指标必然导致原始图像的统计数字与重建图像的统计数字不一致,特别是在低比特率下,通常表现为压缩图像的模糊。之前的工作利用对抗性判别器来提高统计的保真度。然而,这些从生成式建模任务中采用的二分判别器可能不是图像压缩的理想选择。本文提出一种非二分判别器,以通过 VQ-VAE 自编码器获得的量化的局部图像表示为条件。对CLIC2020、DIV2K 和 Kodak 数据集的评估表明,所提出判别器在联合优化失真度(如PSNR)和统计保真度(如FID)方面比最先进的 HiFiC 模型更有效。在 CLIC2020 测试集上,获得了与 HiFiC 相同的 FID,而比特数减少了 30-40%。

Lossy image compression aims to represent images in as few bits as possible while maintaining fidelity to the original. Theoretical results indicate that optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a discrepancy in the statistics of original images from those of reconstructions, in particular at low bitrates, often manifested by the blurring of the compressed images. Previous work has leveraged adversarial discriminators to improve statistical fidelity. Yet these binary discriminators adopted from generative modeling tasks may not be ideal for image compression. In this paper, we introduce a non-binary discriminator that is conditioned on quantized local image representations obtained via VQ-VAE autoencoders. Our evaluations on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more effective for jointly optimizing distortion (e.g., PSNR) and statistical fidelity (e.g., FID) than the state-of-the-art HiFiC model. On the CLIC2020 test set, we obtain the same FID as HiFiC with 30-40% fewer bits.

https://arxiv.org/abs/2301.11189



4、[AS] MusicLM: Generating Music From Text

A Agostinelli, T I. Denk, Z Borsos, J Engel, M Verzetti, A Caillon, Q Huang, A Jansen, A Roberts, M Tagliasacchi, M Sharifi, N Zeghidour, C Frank
[Google Research]

MusicLM: 从文本生成音乐

要点:

  1. 提出MusicLM,一个生成模型,能以24kHz的频率生成高质量的音乐,在几分钟内保持一致,同时忠实于文本信号;
  2. 将该方法扩展到其他条件信号,如根据文本提示合成的旋律,并演示了长达5分钟的长片段音乐生成的一致性;
  3. 发布第一个专门为文本-音乐生成任务收集的评估数据集MusicCaps,由音乐家准备的5.5千首音乐-文本对的手工整理的高质量数据集。

一句话总结:
提出 MusicLM,一种文本条件生成模型,能产生高质量的音乐,在几分钟内保持一致,同时忠实于文本信号,发布了MusicCaps,一个由音乐家准备的5.5k音乐-文本对的手工编辑数据集。

摘要:
本文提出 MusicLM,一种从文本描述中生成高保真音乐的模型,如"平静的小提琴旋律伴着失真音效的吉他旋律”。MusicLM 将条件音乐生成过程,描述为一个层次化的序列到序列建模任务,生成的音乐频率为24kHz,在几分钟内保持一致。实验表明,MusicLM 在音频质量和对文本描述的遵循方面都优于之前的系统。此外,本文证明 MusicLM 可以以文本和旋律为条件,可根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究,本文公开发布了 MusicCaps,一个由5.5K音乐-文本对组成的数据集,其中有人工专家提供的丰富的文本描述。

We introduce MusicLM, a model generating high-fidelity music from text descriptions such as "a calming violin melody backed by a distorted guitar riff". MusicLM casts the process of conditional music generation as a hierarchical sequence-to-sequence modeling task, and it generates music at 24 kHz that remains consistent over several minutes. Our experiments show that MusicLM outperforms previous systems both in audio quality and adherence to the text description. Moreover, we demonstrate that MusicLM can be conditioned on both text and a melody in that it can transform whistled and hummed melodies according to the style described in a text caption. To support future research, we publicly release MusicCaps, a dataset composed of 5.5k music-text pairs, with rich text descriptions provided by human experts.

https://arxiv.org/abs/2301.11325



5、[LG] Open Problems in Applied Deep Learning

M Raissi
[University of Colorado Boulder]

应用深度学习的开放问题

要点:

  1. 将机器学习机制表述为一个两层优化问题;
  2. 内层的优化环路,需要最小化一个在训练数据上评估的适当选择的损失函数;外层优化环路,即"迭代过程",涉及在验证数据上评估的适当选择的性能指标最大化,包括模型工程、管理、实验跟踪、数据集版本和增强等;
  3. 探讨人工智能领域的开放性问题和复杂性,包括半监督、自监督、无监督、少样本、联合、强化和物理感知学习。

一句话总结:
提出将机器学习作为一个两层的优化问题,并强调了该领域的开放问题,包括自动化、降低计算成本和减少人工智能发展的碳足迹,以及各种类型学习的解决方案的复杂性。

摘要:
本文将机器学习机制定义为一个两层优化问题。内层的优化环路需要最小化一个在训练数据上评估的适当选择的损失函数,只不过是为追求最佳模型参数而进行的研究良好的训练过程。外层优化环路的研究较少,涉及在验证数据上评估的适当选择的性能指标最大化,也就是所说的"迭代过程",追求最佳的模型超参数。在许多其他自由度中,这个过程需要模型工程(如神经网络架构设计)和管理、实验跟踪、数据集版本和增强。迭代过程可以通过自动机器学习(AutoML)实现自动化,也可以留给机器学习的学生、工程师和研究人员的直觉。无论采取何种途径,都需要减少迭代步骤的计算成本,并直接导致减少开发人工智能算法的碳足迹。尽管迭代步骤的数学表述干净而统一,是一个两层的优化问题,但其解决方案是具体而复杂的。本文将考虑这样的情况,同时将复杂程度从监督学习提高到半监督、自监督、无监督、少样本、联合、强化和物理感知学习。作为结果,本文总结了该领域大量的开放问题,其中许多问题可以并行解决。

This work formulates the machine learning mechanism as a bi-level optimization problem. The inner level optimization loop entails minimizing a properly chosen loss function evaluated on the training data. This is nothing but the well-studied training process in pursuit of optimal model parameters. The outer level optimization loop is less well-studied and involves maximizing a properly chosen performance metric evaluated on the validation data. This is what we call the "iteration process", pursuing optimal model hyper-parameters. Among many other degrees of freedom, this process entails model engineering (e.g., neural network architecture design) and management, experiment tracking, dataset versioning and augmentation. The iteration process could be automated via Automatic Machine Learning (AutoML) or left to the intuitions of machine learning students, engineers, and researchers. Regardless of the route we take, there is a need to reduce the computational cost of the iteration step and as a direct consequence reduce the carbon footprint of developing artificial intelligence algorithms. Despite the clean and unified mathematical formulation of the iteration step as a bi-level optimization problem, its solutions are case specific and complex. This work will consider such cases while increasing the level of complexity from supervised learning to semi-supervised, self-supervised, unsupervised, few-shot, federated, reinforcement, and physics-informed learning. As a consequence of this exercise, this proposal surfaces a plethora of open problems in the field, many of which can be addressed in parallel.

https://arxiv.org/abs/2301.11316


另外几篇值得关注的论文:

[CV] simple diffusion: End-to-end diffusion for high resolution images

E Hoogeboom, J Heek, T Salimans
[Google Research]

simple diffusion: 高分辨率图像的端到端扩散

要点:

  1. 旨在改善高分辨率图像的去噪扩散,同时保持模型尽可能简单;
  2. 应针对高分辨率图像调整noise schedule;
  3. 仅缩放架构特定部分就足够了,在架构的特定位置添加Dropout;
  4. 下采样是避免高分辨率特征映射的有效策略。

一句话总结:
提出一种针对高分辨率图像的简单扩散方法,利用对 noise schedule 的调整、架构特定部分的缩放、特定位置的Dropout以及降采样,在端到端设置中,在没有采样修改器的情况下,在 ImageNet 上达到最先进的 FID 得分性能。

https://arxiv.org/abs/2301.11093



[CV] Cut and Learn for Unsupervised Object Detection and Instance Segmentation

X Wang, R Girdhar, S X. Yu, I Misra
[Meta AI & UC Berkeley]

面向无监督目标检测和实例分割的剪切和学习

要点:

  1. CutLER 是一种训练无监督目标检测和分割模型的简单方法,利用自监督模型特性,在没有监督的情况下"发现"物体,并将其放大到训练一个最先进的定位模型,无需任何人工标签;
  2. CutLER 使用所提出的 MaskCut 方法为图像中的多个目标生成粗略掩码,用鲁棒损失函数在这些掩码上学习一个检测器,并通过对模型的预测进行自训练进一步提高性能;
  3. CutLER 与不同检测架构兼容,可以只在 ImageNet 上进行训练,而不需要领域内的无标签数据,因此,产生了一个能够检测和分割不同领域的多个物体的零样本模型。

一句话总结:
提出 Cut-and-LEaRn(CutLER)方法,用于训练无监督目标检测和分割模型,该方法简单、鲁棒,可实习零样本,在不同领域的11个基准上比之前的工作要好 2.7 倍以上,与不同的检测架构兼容,并能检测多个物体。

https://arxiv.org/abs/2301.11320



[CV] Learning Good Features to Transfer Across Tasks and Domains

P Z Ramirez, A Cardace, L D Luigi, A Tonioni, S Salti, L D Stefano
[University of Bologna & Google]

跨任务/域迁移特征学习

要点:

  1. 通过学习深度特征间的显式映射函数,在不同任务间迁移知识的框架;
  2. 用一种新的 norm discrepancy 对齐损失来约束跨域的深度特征,并改善映射函数学习;
  3. 通过部署辅助任务来改进映射函数。

一句话总结:
提出了一个通过学习深度特征间显式映射函数在任务间迁移知识的框架,使用深度特征空间的约束策略和提高性能的辅助任务,在单目深度估计和语义分割任务的合成到实际适应场景中产生了最先进的结果。

https://arxiv.org/abs/2301.11310



[LG] Versatile Neural Processes for Learning Implicit Neural Representations

Z Guo, C Lan, Z Zhang, Z Chen, Y Lu
[Microsoft Research Asia & University of Science and Technology of China]

多功能神经过程隐神经表示学习

要点:

  1. 提出多功能神经过程(VNP)框架,提高了近似函数的能力;
  2. 该框架包括一个瓶颈编码器,用于生成紧凑但具有表示性的上下文 token,促进了具有可容忍计算复杂性的复杂信号的处理;
  3. 解码器包括一个分层的潜调制解码器,通过多个全局潜变量的联合调制,可以更好地捕捉和描述函数的结构和不确定性。

一句话总结:
提出多功能神经过程(VNP),能学习准确的隐神经表示(INR),以使用瓶颈编码器和分层潜调制解码器近似复杂信号的功能,在1D、2D和3D信号上显示了最先进性能,并有可能在复杂3D场景中进行高效INR学习。

https://arxiv.org/abs/2301.08883




文章有问题?点此查看未经处理的缓存