机器学习算法工程师

其他

突发!字节跳动因其使用 GPT 训练自家 AI 大模型被 OpneAI 封禁

很少,但我们已经暂停了其帐户,同时我们开展进一步的调查。如果我们发现字节跳动的使用不符合这些政策,我们将要求对方做出必要的改变,或者终止其帐户。正如此前报道的那样,字节跳动使用
2023年12月16日
其他

使用PyTorch 2.0加速Transformer:训练推理均拿下!

attention,而且默认的实现方式是sdpa_flash,此时运行时间最短,A100比V100快了2倍多。最后,我们再来看一下具体的实例,那就是基于SPDA对diffusers中的stable
2023年4月6日
其他

硬核解读Stable Diffusion(系列三)

ViT-H/14模型相比原来的OpenAI的L/14模型,在imagenet1K上分类准确率和mscoco多模态检索任务上均有明显的提升,这也意味着对应的text
2023年3月29日
其他

硬核解读Stable Diffusion(系列二)

v1.5精调的),其生成的图像效果在变尺寸上就好很多:另外一个参数是num_inference_steps,它是指推理过程中的去噪步数或者采样步数。SD在训练过程采用的是步数为1000的noise
2023年3月28日
其他

硬核解读Stable Diffusion(系列一)

Diffusion,下半年有OpenAI的文本对话大模型ChatGPT问世,这让冷却的AI又沸腾起来了,因为AIGC能让更多的人真真切切感受到AI的力量。这篇文章将介绍比较火的文生图模型Stable
2023年3月27日
其他

Meta千亿参数大模型OPT-IML「升级版」来了,模型和代码已经开源!

点蓝色字关注“机器学习算法工程师”设为星标,干货直达!​今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。12月22日,该模型的更新版本OPT-IML(Open
2022年12月27日
其他

带你入门扩散模型:DDPM

Perspectivehttps://spaces.ac.cn/archives/9119https://keras.io/examples/generative/ddim/What
2022年11月18日
其他

DropBlock的原理和实现

点蓝色字关注“机器学习算法工程师”设为星标,干货直达!DropBlock是谷歌在2018年提出的一种用于CNN的正则化方法。普通的DropOut只是随机屏蔽掉一部分特征,而DropBlock是随机屏蔽掉一部分连续区域,如下图所示。图像是一个2D结构,像素或者特征点之间在空间上存在依赖关系,这样普通的DropOut在屏蔽语义就不够有效,但是DropBlock这样屏蔽连续区域块就能有效移除某些语义信息比如狗的头,从而起到有效的正则化作用。DropBlock和CutOut有点类似,只不过CutOut是用于图像的一种数据增强方法,而DropBlock是用在CNN的特征上的一种正则化手段。DropBlock的原理很简单,它和DropOut的最大区别是就是屏蔽的地方是一个连续的方块区域,其伪代码如下所示:DropBlock有两个主要参数:block_size和,其中block_size为方块区域的边长,而控制被屏蔽的特征数量大小。对于DropBlock,首先要用参数为的伯努利分布生成一个center
2022年2月21日
其他

有码有颜!你要的生成模型VQ-VAE来了!

点蓝色字关注“机器学习算法工程师”设为星标,干货直达!上一篇文章生成模型之PixelCNN介绍了基于自回归的生成模型,这篇文章将介绍DeepMind(和PixelCNN同一作)于2017年提出的一种基于离散隐变量(Discrete
2022年1月29日
其他

据调查95%以上的AI从业者不具备修改模型或者提出新模型的技术能力

AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因。在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过。为什么?机器学习就像物理学中的数学,如果你对数学没有很好地掌握,想深入物理学科是不太可能的。放到AI领域,不管你做NLP方向也好,还是CV方向也好,只要深入下去,都会发现跟机器学习息息相关。在工作中,你是否能够利用1-3天的时间来复现任意顶会的文章?是否能够按照实际的场景灵活提出新的模型,或者提出对现有模型的改造?实际上这些是核心竞争力,同时是走向高端人才必须要经历的门槛。虽然很有挑战,但一旦过了这个门槛你就会发现你是市场中的TOP5%.所以我们设计了这样的一门课程,目的就是一个:让你有机会成为市场中的TOP5%。我们希望通过这样的一门课程来增强对机器学习的深入理解,掌握背后的每个细节,这一点很重要。这门课程主要包含了凸优化、图神经网络、深度贝叶斯以及强化学习,也是机器学习领域比较主流的四大领域。每个领域都有一定的门槛,但真正经历过之后大概率会惊讶地发现自己成长了不少。
其他

深入理解生成模型VAE

1],并认为像素值属于伯努利分布,重建误差采用交叉熵。首先是构建encoder,这里用简单的两层卷积和一个全连接层来实现,encoder给出隐变量的mu和log_var:class
2022年1月5日
其他

集成YYDS!让你的模型更快更准!

Forest,AdaBoost也都属于集成学习的范畴。在深度学习领域,通过集成多个模型往往也能提升效果,但模型集成相比单个模型的效率并没有得到系统的研究。近期,Google的一篇论文Wisdom
其他

辅助模块加速收敛,精度大幅提升!移动端实时的NanoDet-Plus来了!

Cost的动态匹配,每一次的匹配策略的进化,都让目标检测的性能有了非常大的提升。上一代的NanoDet使用了ATSS作为匹配的算法,ATSS虽然会根据IOU的均值和方差为每一层feature
2021年12月27日
自由知乎 自由微博
其他

SimMIM:一种更简单的MIM方法

clustering。从下表的对比结果可以看到直接回归像素值并不比这些更复杂的设计差。loss计算部分的实现也比较简单,具体的代码如下所示(注意这里回归的像素值是归一化后的像素值):class
2021年12月13日
其他

论文推荐-视频去锯齿

为了定量评估(与真实情况相比),从不同类型的逐行扫描视频中合成了一组测试隔行扫描视频。训练数据中不存在这些合成交错视频。虽然可以从每个单独的隔行帧中恢复两个全尺寸帧,但只在所有结果中显示第一帧。
其他

SSD的torchvision版本实现详解

点蓝色字关注“机器学习算法工程师”设为星标,干货直达!之前的文章目标检测算法之SSD已经详细介绍了SSD检测算法的原理以及实现,不过里面只给出了inference的代码,这个更新版基于SSD的torchvision版本从代码实现的角度对SSD的各个部分给出深入的解读(包括数据增强,训练)。特征提取器(Backbone
2021年12月13日
其他

MEA:视觉无监督训练新范式

ratio可以大大降低计算量。MEA采用的masking策略是简单的随机mask:基于均匀分布从图像的patchs随机抽样一部分patchs进行mask。每个被mask的patch采用mask
2021年11月13日
其他

快来解锁PyTorch新技能:torch.fix

fusion,我们知道在推理阶段将BN融合到Conv里合成一个操作可以加速推理速度,那么torch.fx就很容易实现这个功能,具体的代码实现如下:
其他

RegNet:设计网络设计空间

pooling和用来分类的fc层。AnyNet设计空间的自由度就只在body里了,body包括4个stages,每个stage采用固定的block(比如residual
其他

惊!网络设计空间到底是个啥?

Recognition提出的概念,一个网络设计空间定义了一个符合特定设计结构且参数化的模型群,这篇论文提出通过统计学方法来对网络设计空间进行评估,而不单单是评估某个具体的模型。Designing
其他

PyTorch1.10发布:ZeroRedundancyOptimizer和Join

states指的是优化器所需的参数,比如SGD需要和模型参数一样大小的momentum,而Adam需要exp_avg和exp_avg_sq,它们是模型参数的两倍大小,当模型较大时,optimizer
其他

如何用数据并行训练万亿参数模型?

Parallel),这个是对标微软在DeepSpeed中提出的ZeRO,FSDP可以看成PyTorch中的DDP优化版本,本身也是数据并行,但是和DDP不同的是,FSDP采用了parameter
其他

BatchNorm的避坑指南(下)

BN,就是head进行处理前,先随机打乱所有卡上的RoIs特征,每个卡分配随机的RoIs,这样就避免前面那个可能出现的信息泄露,head处理完后再shuffle回来,具体处理流程如下所示:
其他

BatchNorm的避坑指南(上)

可以看到计算均值和方差是依赖batch的,这也就是BatchNorm的名字由来。在测试阶段,BatchNorm采用的均值和方差是从训练过程估计的全局统计量(population
其他

谷歌AI用30亿数据训练了一个20亿参数Vision Transformer模型,在ImageNet上达到新的SOTA!

另外,在训练ViT模型,论文中还设计了一些训练策略来提升内存利用和模型效果,这些策略也使得ViT-G/14可以采用数据并行训练策略,这意味着ViT-G/14模型可以放在一张TPUv3
其他

目标跟踪入门篇-相关滤波

不是一种相关滤波方法,而是一种基于颜色统计特征方法。DAT统计前景目标和背景区域的颜色直方图,这就是前景和背景的颜色概率模型,检测阶段,利用贝叶斯方法判别每个像素属于前景的概率,得到像素级颜色概率图
其他

SOTA模型Swin Transformer是如何炼成的!

attention,那么信息交换只存在每个window内部。用CNN的话语说,那么感受野是没有发生变化的,此时只有当进入下一个stage后,感受野才增大2倍。论文中提出的解决方案是采用shifted
其他

MoCo V3:我并不是你想的那样!

(3)尽管更大的ViT模型可以取得更好的效果,但是还是可以发现模型越来越大时会出现saturation的趋势,当然最简单的解决方案是喂给更多的数据。还有可能是基于instance
其他

DETR:基于 Transformers 的目标检测

匈牙利匹配算法是离散数学中图论部分的一个经典算法,描述的问题是一个二分图的最大匹配.换成人话来说就是这个二分图分成两部分,一部分是我们对
其他

Transformer在语义分割上的应用

24个transformer的输出均分成4份,每份取最后一个,即{Z6,Z12,Z18,Z24},后面的Decoder只处理这些取出的向量。
其他

CPVT:一个卷积就可以隐式编码位置信息

对于显式的PE,当图像分辨率与训练时不一致,往往需要finetune来弥补PE插值带来的性能损失。另外,论文中还提到了采用显式的PE会破坏图像tokens的“平移等价性”(translation
其他

PVT:可用于密集任务backbone的金字塔视觉transformer!

transformer的研究呈井喷式爆发,从思路上分主要沿着两大个方向,一是提升ViT在图像分类的效果;二就是将ViT应用在其它图像任务中,比如分割和检测任务上,这里介绍的PVT(Pyramid
其他

"未来"的经典之作ViT:transformer is all you need!

network),这个FFN包含两个FC层,第一个FC层将特征从维度变换成,后一个FC层将特征从维度恢复成,中间的非线性激活函数采用GeLU,其实这就是一个MLP,具体实现如下:
其他

大道至简!深度解读CVPR2021论文RepVGG!

这就引发了一个矛盾,既然多分支结构和性能优异的组件能显著提高模型性能,但是,又会最终导致模型在推理时速度变慢且还非常耗内存,这非常不利于工业场景(尤其实在算力受限的情况下)。这种问题该怎么解决呢?
其他

涨点神器FixRes:两次超越ImageNet数据集上的SOTA

]))可以看到训练和测试的数据预处理流程并不一样,在训练时,主要的数据增强是通过transforms.RandomResizedCrop来完成:从输入图像随机选择一块矩形区域(Region
其他

谷歌提出Meta Pseudo Labels,刷新ImageNet上的SOTA!

Labels的半监督学习方法(https://arxiv.org/pdf/2003.10580.pdf),刷新了ImageNet上的最高结果,终于终于,ImageNet的Top-1可以上90%了!
其他

谷歌提出Meta Pseudo Labels,刷新ImageNet上的SOTA!

Labels的半监督学习方法(https://arxiv.org/pdf/2003.10580.pdf),刷新了ImageNet上的最高结果,终于终于,ImageNet的Top-1可以上90%了!
其他

Transformer为何能闯入CV界秒杀CNN?

机器学习、深度学习、数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则……
其他

SWA:让你的目标检测模型无痛涨点1% AP

其实除了SWA,另外一个常用的策略是对训练过程的weights进行指数加权平均来提升泛化性能,这个TensorFlow有对应的实现tf.train.ExponentialMovingAverage:
其他

CondInst:性能和速度均超越Mask RCNN的实例分割模型

mask;不依赖检测而直接进行实例分割这可能是未来的趋势。这里介绍的CondInst,其实属于第二种,但是它与YOLACT不同,其核心点是检测部分为每个instance预测不同的mask
其他

centerX: 用新的视角的方式打开CenterNet

如果你想基于centernet做一些学术研究,你同样也可以在centerX的projects里面重构自己的代码,和centerX里面centernet的codebase并不冲突,可以快速定位bug。
其他

PyTorch 源码解读之 torch.autograd

用以描述前向和梯度反传的过程,组合后可以实现整个模型的前向和梯度反传。以torch.autograd.function中所定义的Function类为基类,我们可以实现自定义的autograd
其他

MMDetection新版本V2.7发布,支持DETR,还有YOLOV4在路上!

我们也期待transformer能给检测问题带来更多惊喜,另外transformer也已经成功应用在图像分类问题上,如ViT:
其他

mmdetection最小复刻版(十一):概率Anchor分配机制PAA深入分析

对于特征图上面任意一点,假设我们已经得到了其评估anchor的正样本属性分值,然后采用2个模态的混合高斯分布进行建模,求解该问题就可以得到每个样本相对于正负样本概率了,后面的问题就简单了。
其他

CNN:我不是你想的那样

可以发现经过对抗样本训练后的模型,卷积核参数更加平衡(相邻位置的权重非常相似)。通过以前的论文也可以证明**平滑卷积核能够有效地移除高频信号**,从本文假设来理解上述现象就是一个非常自然的想法了。
其他

TF Object Detection 终于支持TF2了!

更多见https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/tf2.md
其他

mmdetection最小复刻版(七):anchor-base和anchor-free差异分析

bbox,标准差越大越能区分层和层之间的anchor质量差异。均值和标准差相加就能够很好的反应出哪一层的哪些anchor适合作为正样本。一个好的anchor设计,应该是满足高均值、高标准差的设定。
其他

不妨试试MoCo,来替换ImageNet上pretrain模型!

task(见这篇paper),其主要点是最小化同一个图片的不同view下的差异,这里的不同view是由同一个图片进行不同的数据增强得到。论文中将对比学习看成一个dictionary
其他

从源码学习Transformer!

attention、feed-forward、position-encoding等一系列子模块,然后定义了一个encoder-decoder结构并返回。下面来看encoder-decoder定义。
其他

重磅!一文深入深度学习模型压缩和加速

硬件层加速。这个维度主要在AI硬件芯片层,目前有GPU、FPGA、ASIC等多种方案,各种TPU、NPU就是ASIC这种方案,通过专门为深度学习进行芯片定制,大大加速模型运行速度。