张津瑜厕所门事件 8分钟视频9分52秒流出

母子乱伦:和儿子做了,我该怎么办?

怎么看出女生被很多男人睡过?(怎么辨别处女!)

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

2021年推特网黄Top10排行榜

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

爱可可AI前沿推介(1.25)

爱可可爱生活 爱可可爱生活 2023-01-27

LG - 机器学习 CV - 计算机视觉 CL - 计算与语言

1、[LG] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
2、[CV] Zorro: the masked multimodal transformer
3、[CV] InfiniCity: Infinite-Scale City Synthesis
4、[LG] Regeneration Learning: A Learning Paradigm for Data Generation
5、[CV] HexPlane: A Fast Representation for Dynamic Scenes
[CL] Efficient Encoders for Streaming Sequence Tagging
[LG] Prediction-Powered Inference
[LG] Modality-Agnostic Variational Compression of Implicit Neural Representations
[CL] Adapting a Language Model While Preserving its General Knowledge

摘要:基于改进GAN的快速大规模文本到图像合成、掩码多模态Transformer、无限规模城市合成、再生学习、动态场景的快速表示、流序列标记高效编码器、预测驱动推理、隐神经表示模态无关变分压缩、自适应语言模型同时保留常识知识

1、[LG] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

A Sauer, T Karras, S Laine, A Geiger, T Aila
[University of Tubingen & NVIDIA]

StyleGAN-T: 基于改进 GAN 的快速大规模文本到图像合成

要点:

  1. 所提出的模型 StyleGAN-T 解决了大规模文本到图像合成的具体要求,如大容量、在不同数据集上的稳定训练、强文本对齐和可控的变化与文本对齐的权衡;
  2. StyleGAN-T 在样本质量和速度方面比之前的 GAN 有明显的改进,超过了蒸馏扩散模型——在此之前快速文本到图像合成的最先进技术;
  3. GAN 在文本-图像合成方面比其他模型更快,因为只需要一个前向通道。

一句话总结:
提出的 StyleGAN-T 模型解决了大规模文本到图像合成的具体要求,在样本质量和速度方面优于之前的 GAN 和蒸馏扩散模型,GAN比其他模型的文本到图像合成速度更快。

摘要:
由于大型预训练语言模型、大规模训练数据以及可扩展模型族(如扩散模型和自回归模型)的引入,文本-图像合成最近取得了重大进展。然而,表现最好的模型,需要迭代评估以生成一个样本。相比之下,生成对抗网络(GAN)只需要一次前向传播。因此速度要快得多,但目前在大规模文本到图像合成方面仍然远落后于最先进的水平。本文旨在确定重新获得竞争力的必要步骤。所提出的模型 StyleGAN-T 解决了大规模文本-图像合成的具体要求,如大容量、在不同数据集上的稳定训练、强文本对齐和可控的变化与文本对齐的权衡。StyleGAN-T在样本质量和速度方面明显优于之前的 GAN,且优于蒸馏扩散模型——这是之前快速文本到图像合成的最先进技术。

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.

https://arxiv.org/abs/2301.09515



2、[CV] Zorro: the masked multimodal transformer

A Recasens, J Lin, J Carreira, D Jaegle, L Wang, J Alayrac, P Luc, A Miech, L Smaira, R Hemsley, A Zisserman
[DeepMind]

Zorro: 掩码多模态 Transformer

要点:

  1. 提出 Zorro,一种新的 Transformer 掩码配置,可以同时进行单模态和多模态的训练和推理,以及对比预训练;
  2. 提出了用ViT、SWIN和HiP等最先进模型的基于Zorro的架构;
  3. Zorro 可以以自监督的方式,在大规模音频-视觉数据集上进行预训练,也可以在单模态数据集上进行预训练。

一句话总结:
提出一种用于多模态处理的新型 Transformer 掩码配置 Zorro,在基准上展示了最先进的性能,并可同时进行单模态和多模态训练和推理。

摘要:
基于注意力的模型对多模态处理很有吸引力,因为来自多种模态的输入可以被串联起来,并输入到一个主干网络中——因此需要很少的融合工程。然而,所产生的表示在整个网络中是完全纠缠在一起的,可能并不总是可取的:在学习中,对比性的音频-视觉自监督学习,需要独立的音频和视觉特征来操作,否则学习会坍缩;在推理中,音频-视觉模型的评估应该可以在只有音频或只有视频的基准上进行。本文提出 Zorro,一种使用掩码来控制每种模态输入如何在 Transformer 内被路由的技术,以保持表示的某些部分是纯模态的。将这种技术应用于三种流行的基于 Transformer 的架构(ViT、Swin和HiP),并表明在对比性预训练下,Zorro在大多数相关的多模态任务(AudioSet和VGGSound)的基准上取得了最先进的结果。此外,所得到的模型能在视频和音频基准上进行单模态推理,如Kinetics-400或ESC-50。

Attention-based models are appealing for multimodal processing because inputs from multiple modalities can be concatenated and fed to a single backbone network - thus requiring very little fusion engineering. The resulting representations are however fully entangled throughout the network, which may not always be desirable: in learning, contrastive audio-visual self-supervised learning requires independent audio and visual features to operate, otherwise learning collapses; in inference, evaluation of audio-visual models should be possible on benchmarks having just audio or just video. In this paper, we introduce Zorro, a technique that uses masks to control how inputs from each modality are routed inside Transformers, keeping some parts of the representation modality-pure. We apply this technique to three popular transformer-based architectures (ViT, Swin and HiP) and show that with contrastive pre-training Zorro achieves state-of-the-art results on most relevant benchmarks for multimodal tasks (AudioSet and VGGSound). Furthermore, the resulting models are able to perform unimodal inference on both video and audio benchmarks such as Kinetics-400 or ESC-50.

https://arxiv.org/abs/2301.09595



3、[CV] InfiniCity: Infinite-Scale City Synthesis

C H Lin, H Lee, W Menapace, M Chai, A Siarohin, M Yang, S Tulyakov
[UC Merced & Snap Inc]

InfiniCity: 无限规模城市合成

要点:

  1. 提出 InfiniCity 框架,一种用于生成无限规模 3D 城市场景的新型管道;
  2. 将看似不可能的任务分解为三个子模块,利用 2D 和 3D 数据的优势;
  3. 管道包括一个交互式采样GUI,以实现快速和灵活的用户互动。

一句话总结:
本文提出 InfiniCity,一种无限规模 3D 城市场景生成框架,适用 2D 和 3D 数据,将任务分解为三个子模块,带有交互式采样GUI,可实现快速灵活的用户交互,产生可信、可遍历和易于编辑的结构的高质量和高多样性的结果。

摘要:
为了实现无限规模的 3D 城市合成,本文提出一种新框架 InfiniCity,从随机噪声中构建并渲染一个无约束的大型 3D 基础环境。InfiniCity 利用 2D 和 3D 数据的优势,将这个看似不切实际的任务分解成三个可行的模块:一个无限像素的图像合成模块,从鸟瞰图中生成任意尺度的 2D 地图。一个基于八度空间的体素完成模块,将生成的 2D 地图提升到 3D 八度。一个基于体素的神经渲染模块,对体素进行纹理处理并渲染 2D 图像。InfiniCity可以合成任意规模和可穿越的 3D 城市环境,并允许用户进行灵活和交互式的编辑。本文从数量和质量上证明了所提出的框架的有效性。

Toward infinite-scale 3D city synthesis, we propose a novel framework, InfiniCity, which constructs and renders an unconstrainedly large and 3D-grounded environment from random noises. InfiniCity decomposes the seemingly impractical task into three feasible modules, taking advantage of both 2D and 3D data. First, an infinite-pixel image synthesis module generates arbitrary-scale 2D maps from the bird's-eye view. Next, an octree-based voxel completion module lifts the generated 2D map to 3D octrees. Finally, a voxel-based neural rendering module texturizes the voxels and renders 2D images. InfiniCity can thus synthesize arbitrary-scale and traversable 3D city environments, and allow flexible and interactive editing from users. We quantitatively and qualitatively demonstrate the efficacy of the proposed framework.

https://arxiv.org/abs/2301.09637



4、[LG] Regeneration Learning: A Learning Paradigm for Data Generation

X Tan, T Qin, J Bian, T Liu, Y Bengio
[Microsoft Research & University of Montreal]

再生学习:面向数据生成的学习范式

要点:

  1. 面向数据生成任务提出了一种新的学习范式——"再生学习”;
  2. 再生学习首先从 X 生成一个中间表示 Y’ (Y的抽象/表示),然后通过训练从 Y’ 生成 Y ;
  3. 该方法将表示学习的概念扩展到了数据生成任务,可视为传统表示学习的一种对应方法。

一句话总结:
面向数据生成任务提出一种称为“再生学习”的新学习范式,生成目标数据的中间表示,并将其用于训练模型,可视为传统表示学习的对应方法,提供了宝贵的见解,可广泛用于数据生成任务。

摘要:
用于条件数据生成的机器学习方法,通常建立一个从源条件数据 X 到目标数据 Y 的映射。目标 Y (如文本、语音、音乐、图像、视频)通常是高维和复杂的,并且包含源数据中不存在的信息,这阻碍了对 源-目标映射 的有效和高效学习。本文提出一种学习范式,称为数据生成的再生学习,首先从 X 中生成Y’ (Y的抽象/表示),然后从 Y’ 中生成 Y。在训练过程中,Y’ 是通过手工制作的规则或自监督学习从 Y 中获得的,并被用来学习 X-->Y’ 和 Y'—>Y 。再生学习将表示学习的概念扩展到数据生成任务中,并可视为传统表示学习的对应方法,因为:1) 再生学习处理目标数据 Y 的抽象(Y’)用于数据生成,而传统表示学习处理源数据 X 的抽象(X’)用于数据理解;2) 再生学习中的 Y'->Y 和表示学习中的 X->X’ 过程都可以以自监督方式学习(例如预训练)。3) 再生学习中从 X 到 Y’ 的映射和表示学习中从 X’ 到 Y 的映射都比从 X 到 Y 的直接映射更简单。再生学习可以成为一种广泛使用的数据生成范式(如文本生成、语音识别、语音合成、音乐创作、图像生成和视频生成),并可为开发数据生成方法提供有价值的见解。

Machine learning methods for conditional data generation usually build a mapping from source conditional data X to target data Y. The target Y (e.g., text, speech, music, image, video) is usually high-dimensional and complex, and contains information that does not exist in source data, which hinders effective and efficient learning on the source-target mapping. In this paper, we present a learning paradigm called regeneration learning for data generation, which first generates Y' (an abstraction/representation of Y) from X and then generates Y from Y'. During training, Y' is obtained from Y through either handcrafted rules or self-supervised learning and is used to learn X-->Y' and Y'-->Y. Regeneration learning extends the concept of representation learning to data generation tasks, and can be regarded as a counterpart of traditional representation learning, since 1) regeneration learning handles the abstraction (Y') of the target data Y for data generation while traditional representation learning handles the abstraction (X') of source data X for data understanding; 2) both the processes of Y'-->Y in regeneration learning and X-->X' in representation learning can be learned in a self-supervised way (e.g., pre-training); 3) both the mappings from X to Y' in regeneration learning and from X' to Y in representation learning are simpler than the direct mapping from X to Y. We show that regeneration learning can be a widely-used paradigm for data generation (e.g., text generation, speech recognition, speech synthesis, music composition, image generation, and video generation) and can provide valuable insights into developing data generation methods.

https://arxiv.org/abs/2301.08846


5、[CV] HexPlane: A Fast Representation for Dynamic Scenes

A Cao, J Johnson
[University of Michigan]

HexPlane: 动态场景的快速表示

要点:

  1. HexPlane 是一种动态 3D 场景的显式表示,使用六个平面的习得特征,导致了一种高效的解决方案;
  2. HexPlane 具有很高的效率,将训练时间减少了100倍以上,同时实现了与之前工作相当的图像质量;
  3. HexPlane 是一种简单而通用的表示方法,对底层场景的假设最小,且不依赖于变形场或特定类别的先验。

一句话总结:
HexPlane 是一种高效、显式动态 3D 场景表示,使用6个平面的习得特征,适合广泛的研究,最小化的假设,训练时间比之前的工作快100倍。

摘要:
对动态 3D 场景进行建模和重新渲染,是 3D 视觉一项具有挑战性的任务。之前的方法建立在 NeRF 的基础上,并依赖于隐性表示。这很慢,因为需要许多 MLP 的评估,限制了现实世界的应用。本文表明,动态 3D 场景可以通过六个平面的习得特征来明确表示,这导致了一个优雅的解决方案,称为 HexPlane。HexPlane 通过融合从每个平面提取的向量,来计算时空中的点特征,这是很高效的。将 HexPlane 与一个微小的 MLP 配对,以回归输出色彩,并通过体渲染进行训练,在动态场景新视图合成方面取得了令人印象深刻的结果,与之前工作的图像质量相匹配,但训练时间减少了100倍以上。广泛的消融证实了 HexPlane 的设计,并表明它对不同的特征融合机制、坐标系统和解码机制具有鲁棒性。HexPlanes 是一个简单而有效的表示 4D 体的解决方案,希望它们能广泛地促进动态 3D 场景的时空建模。

Modeling and re-rendering dynamic 3D scenes is a challenging task in 3D vision. Prior approaches build on NeRF and rely on implicit representations. This is slow since it requires many MLP evaluations, constraining real-world applications. We show that dynamic 3D scenes can be explicitly represented by six planes of learned features, leading to an elegant solution we call HexPlane. A HexPlane computes features for points in spacetime by fusing vectors extracted from each plane, which is highly efficient. Pairing a HexPlane with a tiny MLP to regress output colors and training via volume rendering gives impressive results for novel view synthesis on dynamic scenes, matching the image quality of prior work but reducing training time by more than 100×. Extensive ablations confirm our HexPlane design and show that it is robust to different feature fusion mechanisms, coordinate systems, and decoding mechanisms. HexPlanes are a simple and effective solution for representing 4D volumes, and we hope they can broadly contribute to modeling spacetime for dynamic 3D scenes.

https://arxiv.org/abs/2301.09632




另外几篇值得关注的论文:

[CL] Efficient Encoders for Streaming Sequence Tagging

A Kaushal, A Gupta, S Upadhyay, M Faruqui
[Google Assistant & The University of Texas at Austin]

流序列标记高效编码器

要点:

  1. 提出 HEAR,一种带有自适应重启的混合编码器,用于流媒体环境下的序列标记,在这种环境下,模型一次接收一个 token 作为输入;
  2. 为计算上更便宜的流处理引入了 HYBRID 编码器,保持了双向编码器的离线F1得分,同时在四个任务中平均减少了40.2%的 FLOPs;
  3. 提出 ARM 模块来决定何时重启,使得 HYBRID 编码器的 FLOPs 减少了 32.3%,并使流媒体预测提高了 +4.23 的精确匹配。

一句话总结:
提出 HEAR,一种带有自适应重启的混合编码器,用于流序列标记,在保持性能的同时减少了71%的计算量,使用单向和双向层的组合,以及一个自适应重启模块来选择性地指导编码器的双向部分的重启。

https://arxiv.org/abs/2301.09244
#MachineLearning #ML #AI


[LG] Prediction-Powered Inference

A N. Angelopoulos, S Bates, C Fannjiang, M I. Jordan, T Zrnic
[UC Berkeley]

预测驱动推理

要点:

  1. 提出"预测驱动推理"框架,当实验数据集由机器学习系统预测所补充时,一种执行有效统计推理的方法;
  2. 该框架产生了可证明的有效结论,不需要对提供预测的机器学习算法做任何假设;
  3. 预测的准确性越高,置信区间就越小,从而可以进行更强大的推理。

一句话总结:
提出预测驱动推理,允许用机器学习系统预测进行有效统计推理的框架,可实现更小的置信区间和更强大的推理能力,使用来自不同领域的数据证明其收益,如蛋白质组学、基因组学、电子投票、遥感、人口普查分析和生态学。

https://arxiv.org/abs/2301.09633



[LG] Modality-Agnostic Variational Compression of Implicit Neural Representations

J R Schwarz, J Tack, Y W Teh, J Lee, J Shin
[DeepMind & KAIST & POSTECH]

隐神经表示模态无关变分压缩

要点:

  1. 提出一种基于数据功能观的模态无关神经数据压缩算法,并将其参数化为隐神经表示(INR);
  2. 提出一种介于最近的稀疏性和潜编码方法之间的紧凑表示,使用从固定长度潜编码到每层低秩软门控矩阵的非线性映射,有效地选择一个子网络来表示底层INR中的数据项;
  3. 提出一种在从训练数据集中提取的每个数据项的紧凑潜像上预训练的习得型压缩器。

一句话总结:
提出一种使用隐神经表征(INR)的模态无关神经数据压缩算法,弥补了最近的稀疏和潜编码方法之间的差距,改进了不同数据模态的表示和量化,表现优于JPEG 2000、MP3和AVC/HEVC等成熟的编解码器。

https://arxiv.org/abs/2301.09479


[CL] Adapting a Language Model While Preserving its General Knowledge

Z Ke, Y Shao, H Lin, H Xu, L Shu, B Liu
[University of Illinois at Chicago & Peking University & Meta AI]

自适应语言模型同时保留常识知识

要点:
提出一种新方法 DGA 来进行域自适应预训练,旨在将目标域的专业知识整合到语言模型中,同时保留常识知识,通过估计注意头的重要性,对比一般知识和全部知识,取得比现有方法更好的效果。

一句话总结:

  1. 提出一种称为DGA的新方法,来进行域自适应预训练(DA-training),其目的是将目标域的专业知识整合到语言模型中,同时对原始语言模型中有用的常识性知识的破坏最小;
  2. 从两方面实现更好的DA训练:(1)估计注意力头的重要性以保护语言模型中的重要常识;(2)通过对比常识和全部知识将目标域中的专业知识整合到语言模型中。
  3. 与现有的 DA 训练方法相比,所提出的方法DGA更加有效,因为它明确地确定了语言模型中哪些知识应该被保留,哪些应该被领域语料库改变。

https://arxiv.org/abs/2301.08986


文章有问题?点此查看未经处理的缓存