计算机视觉研究院

其他

Yolo系列检测网络不再孤单,延伸框架层出不穷(附框架源代码)

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G至今,目标检测框架已经百花齐放,各种应用场景、应用限制的要求,今天“计算机视觉研究院”给大家整理一系列检测框架,不再是大家熟悉的Yolo系列框架!目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。由于现在越来越多的需求迁移到边缘端,所以对轻量级网络的要求越来越重,那我们先和大家介绍Yolo-Fastest框架。链接:Yolo-Fastest:轻量级yolo系列网络在各硬件实现工业级检测效果模型非常小、目前最快的YOLO算法——大小只有1.4MB,单核每秒148帧,在一些移动设备上部署特别容易。具体测试效果如下:Yolo-Fastest开源代码:https://github.com/dog-qiuqiu/Yolo-Fastest最近“计算机视觉研究院”也分享了一个视频中,利用Yolo框架进行实时目标检测:论文地址:
2023年9月28日
其他

原来Transformer就是一种图神经网络,这个概念你清楚吗?

前几年神经网络很火,相信大家对神经网络都有一定的了解。而图神经网络是直接在图上进行计算,整个计算的过程,沿着图的结构进行,这样处理的好处是能够很好的保留图的结构信息。而能够对结构信息进行学习,正是图神经网络的能力所在。下面我们就来看看图神经网络为什么强大?图神经网络的应用场景自然非常多样。笔者在这里选择一部分应用场景为大家做简要的介绍,更多的还是期待我们共同发现和探索。1.
2023年2月22日
其他

ChatGPT is fun, but not an author(有兴趣加入ChatGPT群)ChatGPT利与弊分析

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G在不到两个月的时间里,人工智能(AI)项目ChatGPT已经成为一种文化轰动。它可以通过工具开发者OpenAI创建的门户网站自由访问。基于书面提示自动创建文本的程序非常流行,如果你尝试使用它,它很可能会“现在无法使用”。当你成功完成后,ChatGPT会提供无尽的娱乐。我要求它重写经典美剧《推销员之死》的第一幕,但以动画电影《冰雪奇缘》中的埃尔莎公主为主角,而不是威利·洛曼。结果是一场有趣的对话,在这场对话中,儿子Happy告诉结束了艰难的一天销售回家的艾尔莎:“来吧,妈妈。你是来自《冰雪奇缘》的艾尔莎。你有冰的力量,你是女王。你势不可挡。”,但是对于像ChatGPT这样的人工智能项目在科学界和学术界有着严重的影响。Machines
2023年2月16日
其他

计算机视觉研究院亲自体验ChatGPT的感受,太疯狂了!

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G现在ChatGPT受到业内越来越多的关注,今天分享一些国内要实现该技术的难点,以及最后亲自感受体验。一、国内有类似
其他

Transformer称霸的原因找到了?OpenAI前核心员工揭开注意力头协同工作机理

说道。论文链接:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html理解
2023年1月26日
其他

图像自适应YOLO:恶劣天气下的目标检测(附源代码)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文获取|回复“IAYOLO”获取paper源代码:https://github.com/wenyyu/ImageAdaptive-YOLO计算机视觉研究院专栏作者:Edison_G最近开车发现雾天和晚上视线不是很清楚,让我联想到计算机视觉领域,是不是也是因为这种环境情况,导致最终的模型检测效果不好。最近正好看了一篇文章,说恶劣天气下的目标检测,接下来我们一起深入了解下。一、前言尽管基于深度学习的目标检测方法在传统数据集上取得了可喜的结果,但从恶劣天气条件下捕获的低质量图像中定位目标仍然具有挑战性。现有方法要么难以平衡图像增强和目标检测的任务,要么经常忽略对检测有益的潜在信息。为了缓解这个问题,有研究者提出了一种新颖的图像自适应YOLO
2023年1月23日
其他

目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2201.04620v1.pdf计算机视觉研究院专栏作者:Edison_G研究表明,当训练数据缺少注释(即注释稀疏的数据)时,目标检测器的性能会显着下降。一、前言研究表明,当训练数据缺少注释(即注释稀疏的数据)时,目标检测器的性能会显着下降。现在的方法侧重于以伪标签的形式或通过在训练期间重新加权未标记框的梯度来解决缺失真实标注的问题。在这项工作中,研究者重新审视了稀疏注释目标检测的公式。研究者观察到稀疏注释的目标检测可以被认为是区域级别的半监督目标检测问题。基于这一见解,研究者们提出了一种基于区域的半监督算法,该算法可以自动识别包含未标记前景对象的区域。然后,提出的算法以不同方式处理标记和未标记的前景区域,这是半监督方法中的常见做法。为了评估所提出方法的有效性,对PASCAL-VOC和COCO数据集上稀疏注释方法常用的五个分割进行了详尽的实验,并实现了最先进的性能。除此之外,还表明新提出的方法在标准半监督设置上实现了竞争性能,证明了新方法的强度和广泛适用性。二、背景传统的目标检测方法假设训练数据集被详尽地标记。这种检测器的性能对标记数据的质量很敏感。用于训练目标检测器的数据中的噪声可能是由于噪声类标签或不正确/丢失的边界框而产生的。在这项工作中,研究者处理了缺少类标签和边界框注释的更难的问题,即稀疏注释的存在。稀疏注释目标检测(SAOD)是在训练数据中存在缺失注释的情况下提高目标检测鲁棒性的问题。这个问题在当前至关重要,因为获取众多数据集可能既昂贵又费力。另一种方法是使用计算机辅助协议来收集注释。然而,这些方法受到嘈杂/缺失标签的影响。因此,必须调整当前的目标检测器来解决稀疏注释的问题。问题的症结在于训练期间分配标签的方式。稀疏注释减少了真正的正样本并将假负样本引入训练,从而降低了网络性能。虽然这过于简单化了,但它可以更好地了解正在处理的问题。研究者建立在一个简单的观察之上,即SAOD是区域级别的半监督目标检测(SSOD)。然而,未标记的数据,在我们的例子中是包含前景对象的区域,是先验未知的,必须被识别。因此,SSOD方法不能直接应用于SAOD,因为当前的方法假设一个已知的未标记集以及一个详尽标记的训练集。同样,最近提出的SAOD方法在训练期间丢弃所有没有单个注释的图像,并且不能像SSOD方法那样真正利用未标记数据的力量。分别在上图的第1行和第2行中说明了SSOD和SAOD。假设稀疏注释的目标检测方法应该是一个很好的半监督学习器,因为SSOD中的未标记图像可以被视为SAOD的缺失注释。我们在上图的第3行展示了这个公式。三、新框架分析所提出的方法如下图所示,由一个标准的骨干网络组成,该网络从图像的原始视图和增强视图中提取特征。一个通用的RPN将骨干网络提取的特征连接起来,生成一组通用的候选区域。候选区域b可以属于三个组之一,即:标记区域b∈
2023年1月17日
其他

Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)

Self-Attention,在Decoder中,每个位置只能获取到之前位置的信息,因此需要做mask,其设置为−∞。Encoder-Decoder之间的Attention,其中Q
2023年1月16日
其他

我用ChatGPT写神经网络:一字不改,结果竟然很好用

算是机器学习领域的经典问题。即使这个手写数字数据集逐渐淡出了计算机视觉领域,但它的纪念意义仍然不可忽视,很多人入门深度学习的第一个数据集、验证算法的第一个实验都是
2023年1月14日
其他

YOLO系列迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA

模型进行分割推理。在输出中,分割映射看起来非常干净。即使猫在最后几帧藏在积木下面,模型也能够检测并进行图像分割。图像分类的推理结果最后,由于
2023年1月13日
其他

小型深度学习框架 | TinyGrad,不到1K行代码(附代码下载)

星。在深度学习时代,谷歌、Facebook、百度等科技巨头开源了多款框架来帮助开发者更轻松地学习、构建和训练不同类型的神经网络。而这些大公司也花费了很大的精力来维护
2023年1月12日
其他

高效Transformer层出不穷,谷歌团队综述文章一网打尽

Transformer)。基于此,模型的效率有了不同的诠释。效率可能指模型的内存占用,当模型运行的加速器内存有限时这尤为重要;效率也可能指训练和推断过程中的计算成本,如
2023年1月11日
其他

利用TRansformer进行端到端的目标检测及跟踪(附源代码)

计算机视觉研究院专栏作者:Edison_G现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式1
自由知乎 自由微博
其他

Yolo-Fastest:轻量级yolo系列网络在各硬件实现工业级检测效果

计算机视觉研究院专栏作者:Edison_G目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。不论是PyTorch,还是Tensorflow,又或者是Keras和Caffe,可以说是全平台通用。公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式Yolo-Fastest开源代码:https://github.com/dog-qiuqiu/Yolo-Fastest1前言&背景目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。今天说的这个系列模型,模型非常小、目前最快的YOLO算法——大小只有1.4MB,单核每秒148帧,在一些移动设备上部署特别容易。具体测试效果如下:2框架介绍简单使用了下Yolo-Fastest,感觉不是很习惯使用了,可能好就不用darknet框架,但是上手还是比较容易,github也有简单教程:测试Demo的方式也有:Demo
2022年12月15日
其他

Yolo-Fastest:轻量级yolo系列网络在各硬件实现工业级检测效果

计算机视觉研究院专栏作者:Edison_G目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。不论是PyTorch,还是Tensorflow,又或者是Keras和Caffe,可以说是全平台通用。公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式Yolo-Fastest开源代码:https://github.com/dog-qiuqiu/Yolo-Fastest1前言&背景目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。今天说的这个系列模型,模型非常小、目前最快的YOLO算法——大小只有1.4MB,单核每秒148帧,在一些移动设备上部署特别容易。具体测试效果如下:2框架介绍简单使用了下Yolo-Fastest,感觉不是很习惯使用了,可能好就不用darknet框架,但是上手还是比较容易,github也有简单教程:测试Demo的方式也有:Demo
2022年11月30日
其他

Yolo-Fastest:轻量级yolo系列网络在各硬件实现工业级检测效果

计算机视觉研究院专栏作者:Edison_G目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。不论是PyTorch,还是Tensorflow,又或者是Keras和Caffe,可以说是全平台通用。公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式Yolo-Fastest开源代码:https://github.com/dog-qiuqiu/Yolo-Fastest1前言&背景目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。今天说的这个系列模型,模型非常小、目前最快的YOLO算法——大小只有1.4MB,单核每秒148帧,在一些移动设备上部署特别容易。具体测试效果如下:2框架介绍简单使用了下Yolo-Fastest,感觉不是很习惯使用了,可能好就不用darknet框架,但是上手还是比较容易,github也有简单教程:测试Demo的方式也有:Demo
2022年9月24日
其他

YoloV:视频中目标实时检测依然很棒(附源代码下载)

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院学习群|扫码在主页获取加入方式论文地址:
2022年9月23日
其他

无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度(附源代码)

计算机视觉研究院专栏作者:Edison_G在将金字塔结构嵌入到Transformer结构用于生成多尺度特征,并最终用于稠密预测任务。公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式关注并星标从此不迷路计算机视觉研究院论文地址:https://arxiv.org/pdf/2102.12122.pdf源代码地址:https://github.com/whai362/PVT背景具有自注意力的Transformer引发了自然语言处理领域的革命,最近还激发了Transformer式架构设计的出现,并在众多计算机视觉任务中取得了具有竞争力的结果。如下是之前我们分享的基于Transformer的目标检测新技术!链接:ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)链接:利用TRansformer进行端到端的目标检测及跟踪(附源代码)链接:YOLOS:通过目标检测重新思考Transformer(附源代码)在今天分享的工作中,研究者设计了一个新颖的Transformer模块,针对稠密预测任务的主干网络,利用Transformer架构设计进行了一次创新性的探索,将特征金字塔结构与Transformer进行了一次融合,使其可以更好的输出多尺度特征,进而更方便与其他下游任务相结合。前言尽管卷积神经网络
2022年9月23日
其他

Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2207.02696.pdf代码地址:https://github.com/WongKinYiu/yolov7计算机视觉研究院专栏作者:Edison_GYOLOv7相同体量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。01概述前段时间才给大家分享了美团出品的Yolov6:具体的链接如下:链接🔗:劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载)7月份又出来一个Yolov7,在5
2022年9月21日
其他

ECCV2022:在Transformer上进行递归,不增参数,计算量还少!

token,并且发现精度有少量提升。消融实验:模型混合深度训练:研究者进一步发现分组递归设计还有一个好处就是:可以支持模型混合深度训练,这种训练方式可以大大降低深度网络结构优化复杂度,研究者展示了
2022年9月19日
其他

改进的YOLO:AF-FPN替换金字塔模块提升目标检测精度

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式源代码:https://arxiv.org/pdf/2112.08782.pdf计算机视觉研究院专栏作者:Edison_G随着世界迈向第四次工业革命,电动车越来越普遍,但是路上的交通标志也五花八门,如果利用计算机视觉技术可以全部检测识别,那也是一大进步!一、前言交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,特别是对于多尺度目标的检测和检测的实时性问题。在交通标志检测过程中,目标的尺度变化很大,会对检测精度产生一定的影响。特征金字塔被广泛用于解决这个问题,但它可能会破坏不同尺度交通标志的特征一致性。而且,在实际应用中,常用的方法很难在保证检测实时性的同时提高多尺度交通标志的检测精度。在今天分享中,研究者提出了一种改进的特征金字塔模型,命名为AF-FPN,它利用自适应注意力模块(AAM)和特征增强模块(FEM)来减少特征图生成过程中的信息丢失并增强表示能力的特征金字塔。将YOLOv5中原有的特征金字塔网络替换为AF-FPN,在保证实时检测的前提下提高了YOLOv5网络对多尺度目标的检测性能。此外,提出了一种新的自动学习数据增强方法来丰富数据集并提高模型的鲁棒性,使其更适合实际场景。在Tsinghua-Tencent
2022年9月17日
其他

QueryDet:级联稀疏query加速高分辨率下的小目标检测(代码已开源)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文:https://arxiv.org/abs/2103.09136代码(已开源):https://github.com/ChenhongyiYang/QueryDet-PyTorch计算机视觉研究院专栏作者:Edison_G虽然深度学习的通用目标检测在过去几年中取得了巨大成功,但检测小目标的性能和效率却远不能令人满意。01概述促进小目标检测的最常见和最有效的方法是使用高分辨率图像或特征图。然而,这两种方法都会导致计算成本高昂,因为计算成本会随着图像和特征大小的增加而成正比增长。为了两全其美,研究者提出了QueryDet,使用一种新颖的查询机制来加速基于特征金字塔的目标检测器的推理速度。该流程由两个步骤组成没如下图。首先在低分辨率特征上预测小物体的粗略位置,然后使用由这些粗略位置稀疏引导的高分辨率特征计算准确的检测结果。这样不仅可以收获高分辨率特征图的好处,还可以避免对背景区域进行无用计算。在流行的COCO数据集上,该方法将检测mAP提高了1.0,mAP
2022年9月16日
其他

打假Yolov7的精度,不是所有的论文都是真实可信

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G最近我们分享了Yolov6和Yolov7两个新框架,但是好多同学希望我们真正的对代码进行详细解读,今天“计算机视觉研究院”就先对Yolov7的性能做一次真实实验对比。之前“计算机视觉研究院”分享了yolo系列的最新两个版本:Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载)Rep-PAN
2022年8月20日
其他

华为轻量级网络架构,幽灵网络(GhostNets)再升级——附源码下载

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2201.03297.pdf源代码:https:
2022年8月8日
其他

何恺明组新论文:只用ViT做主干也可以做好目标检测

个),并在每个子集的最后一个块中应用传播策略。研究者分析了如下两种策略:全局传播。该策略在每个子集的最后一个块中执行全局自注意力。由于全局块的数量很少,内存和计算成本是可行的。这类似于(Li
2022年8月7日
其他

ICCV何恺明团队又一神作:Transformer仍有继续改善的空间

to:在没有明确的监督下,能够将没有见过的目标识别为“未知”类;对于这些认定为“未知”的类,当逐步获得对应的标签之后,能够渐进地学习它们,且不遗忘以前学过的那些类别。这个与以前提出的Open
2022年8月5日
其他

Yolov7实战,实现网页端的实时目标检测

关注并星标从此不迷路计算机视觉研究院计算机视觉研究院专栏作者:Edison_G今天给大家分享的是yolov7网络实践,并且可以做成web端,只要你输入图像,选择对应模型就可以输出检测结果。让我们开始代码吧!01概述具体内容可以参考CSDN的he_eeeeeeeeeee,进入主页既可以或更加详细的操作流程。源码:https://github.com/WongKinYiu/yolov7论文:https://arxiv.org/abs/2207.02696Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)02实验搭建环境,这里直接用conda按照源码requirements.txt安装就行。具体内容可以见下面链接:手把手教学Yolov7的搭建及实践接下来我们继续,怎么把训练好的模型部署到web端,这样后期就可以随时可以检测图像。首先跟推理一样:parser
2022年7月29日
其他

ECCV 2022丨轻量级模型架构火了,力压苹果MobileViT(附代码和论文下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/abs/2203.03952代码地址:https://github.com/hkzhang91/ParC-Net计算机视觉研究院专栏作者:Edison_G继承ConvNet和Transformer优点的位置敏感的循环卷积。01概述最近,vision
2022年7月29日
其他

最新的目标检测的深度架构 | 参数少一半、速度快3倍+(文末福利)

对嵌入式友好的目标检测网络,产品落地人脸技术:不清楚人照片修复成高质量高清晰图像框架(附源代码下载)“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)目标检测
2022年7月27日
其他

手把手教学Yolov7的搭建及实践

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_Gyolo系列已经成了大家学习工作中常用的目标检测网络,果然,yolov7又来了。听说这个作者是yolov4的,我们就实践下。01概述具体内容可以参考CSDN的he_eeeeeeeeeee,进入主页既可以或更加详细的操作流程。源码:https://github.com/WongKinYiu/yolov7论文:https://arxiv.org/abs/2207.02696Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)02实验搭建环境,这里直接用conda按照源码requirements.txt安装就行。数据准备现成数据(VisDrone)+配置脚本(yolov7.yaml等):数据集:官方的VisDrone格式和yolov5的不同,要转换一下制作自己数据集(lableme标注自己图片+labelme转yolo的脚本):强烈建议用labelmelabelme格式标注完就是一张图对应一个json:yolo格式是一个图对应一个txt:我是把转化完的txt和json都同一个文件夹下:标注软件:labelme就一个exe文件50m左右,下载地址:8q3m,windows上下载后直接执行,非常方便labelme转yolov5脚本:(只写了检测的,labelme的分割、关键点等等脚本有机会写个总的)import
2022年7月24日
其他

打假Yolov7的精度,不是所有的论文都是真实可信

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G最近我们分享了Yolov6和Yolov7两个新框架,但是好多同学希望我们真正的对代码进行详细解读,今天“计算机视觉研究院”就先对Yolov7的性能做一次真实实验对比。之前“计算机视觉研究院”分享了yolo系列的最新两个版本:Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载)Rep-PAN
2022年7月23日
其他

目标检测 | 基于统计自适应线性回归的目标尺寸预测

计算机视觉研究院专栏作者:Edison_GYOLOv2和YOLOv3是典型的基于深度学习的目标检测算法,它们使用统计自适应指数回归模型设计了网络的最后一层来预测目标的尺寸大小。长按扫描二维码关注我们一、简要今天分享的是研究者提出了基于统计自适应线性回归的目标尺寸预测方法。YOLOv2和YOLOv3是典型的基于深度学习的对象检测算法,它们使用统计自适应指数回归模型设计了网络的最后一层来预测对象的尺寸大小。然而,由于指数函数的性质,指数回归模型可以将损失函数的导数传播到网络中的所有参数中。研究者提出了统计自适应线性回归层来缓解指数回归模型的梯度爆炸问题。所提出的统计自适应线性回归模型用于网络的最后一层来预测从训练数据集的统计数据估计目标的尺寸大小。研究者新设计了基于YOLOv3tiny网络,它在UFPR-ALPR数据集上比YOLOv3有更高的性能。二、背景主要这个上韩文论文,导致本人阅读过程比较艰难,所以今天就简单介绍些整体框架思想,有兴趣的同学可以进一步阅读论文,深入了解!今天我们就不介绍传统的检测网络了,因为我们”计算机视觉研究院“之前分享了太多的目标检测类干货及实践,想入门级进一步熟知请查看历史分享。部分分享见下链接:
2022年7月20日
其他

人脸技术:不清楚人照片修复成高质量高清晰图像框架(附源代码下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2201.06374.pdf代码地址:https://github.com/wzhouxiff/RestoreFormer.git计算机视觉研究院专栏作者:Edison_GBlind
2022年7月16日
其他

“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2206.05836.pdf代码地址:https://github.com/microsoft/GLIP计算机视觉研究院专栏作者:Edison_G提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。01概述GLIPv2优雅地将localization预训练和视觉语言预训练
2022年7月16日
其他

SSD7 | 对嵌入式友好的目标检测网络,产品落地

计算机视觉研究院专栏作者:Edison_G在现在人工智能化时代,幼儿园也是一个众多家长关注的教育机构,在幼儿园小孩的安全是独一,在人工智能监控下,绝对保障了所有儿童的安全!公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式一、简要对计算和内存的高需求是将现有目标检测网络部署到嵌入式设备中的最大挑战。现有的轻量级目标检测器直接使用轻量级神经网络架构,如MobileNet或在大尺度分类数据集上预先训练,导致网络结构灵活性差,不适用于某些特定场景。在今天分享中,有研究者提出了一种轻量级目标检测网络Single-Shot
2022年7月15日
其他

精度提升方法:自适应Tokens的高效视觉Transformer框架(已开源)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Yin_A-ViT_Adaptive_Tokens_for_Efficient_Vision_Transformer_CVPR_2022_paper.pdf代码地址:https://github.com/NVlabs/A-ViT计算机视觉研究院专栏作者:Edison_GYOLOv7相同体量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。01概述今天介绍的,是研究者新提出了A-ViT,一种针对不同复杂度的图像自适应调整vision
2022年7月14日
其他

Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2207.02696.pdf代码地址:https://github.com/WongKinYiu/yolov7计算机视觉研究院专栏作者:Edison_GYOLOv7相同体量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。01概述前段时间才给大家分享了美团出品的Yolov6:具体的链接如下:链接🔗:劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载)7月份又出来一个Yolov7,在5
2022年7月9日
其他

FastestDet:比yolov5更快!更强!全新设计的超实时Anchor-free目标检测算法(附源代码下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G本篇文章转自于知乎——qiuqiuqiu,主要设计了一个新颖的轻量级网络!代码地址:https://github.com/dog-qiuqiu/FastestDet01概述FastestDet是设计用来接替yolo-fastest系列算法,相比于业界已有的轻量级目标检测算法如yolov5n,
2022年7月5日
其他

劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式代码地址:https://github.com/meituan/YOLOv6转自《美团技术团队》计算机视觉研究院专栏作者:Edison_G近日,美团视觉智能部研发了一款致力于工业应用的目标检测框架YOLOv6,能够同时专注于检测的精度和推理效率。在研发过程中,视觉智能部不断进行了探索和优化,同时吸取借鉴了学术界和工业界的一些前沿进展和科研成果。在目标检测权威数据集COCO上的实验结果显示,YOLOv6在检测精度和速度方面均超越其他同体量的算法,同时支持多种不同平台的部署,极大简化工程部署时的适配工作。特此开源,希望能帮助到更多的同学。01概述图1-1
2022年6月26日
其他

CVPR小目标检测:上下文和注意力机制提升小目标检测(附论文下载)

计算机视觉研究院专栏作者:Edison_GCVPR21文章我们也分享了很多最佳的框架,在现实场景中,目标检测依然是最基础最热门的研究课题,尤其目前针对小目标的检测,更加吸引了更多的研究员和企业去研究,今天我们“计算机视觉研究院”给大家分享一个小目标检测精度提升较大的新框架!公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文:https://arxiv.org/pdf/1912.06319.pdf1
2022年6月24日
其他

目前精度最高效率最快存储最小的目标检测模型(附源码下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G疫情以来,各路研究爱好者开始新的研究,目前已经被研究出很多高效高精度的框架,在深度学习领域,模型效率也是越来越重的一个研究课题。不仅仅停留在训练的提速,现在推理应用的速度更加关键。因此,现在很多研究趋势朝着更高效更小型化发展!01摘要模型效率在计算机视觉领域中越来越重要。作者研究了神经网络结构在目标检测中的设计选择,并提出了提高检测效率的几个关键优化方案。首先提出了一种加权双向特征金字塔网络(BiFPN),该网络能够方便、快速的进行多尺度特征融合;其次,提出了一种混合缩放方法,可以同时对所有主干网络、特征网络以及最后的预测网络(boxes/classes)的分辨率、深度和宽度进行均匀缩放。特别地,是在单模型和单比例尺的情况下,EfficientDet-D7在52M参数和325B
2022年6月21日
其他

Double-Head:检测头上再创新,提升精度(附原论文下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/1904.06493.pdf计算机视觉研究院专栏作者:Edison_G两种头结构(即全连接头和卷积头)已广泛用于基于
2022年6月19日
其他

AI助力社会安全,最新视频异常行为检测方法框架

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G计算机视觉技术在越来越多的场景起到重要的作用,现在的视频异常行为检测就可以今早给予警察预警信息,大大减少暴力事件、游行游街行为、聚集性活动等行为的发生。01前景目前社会中始终会出现多多少少的异常行为,在目前人工智能发展的形式中,几乎人均被几个摄像头拍摄到的情况下,本次热点新闻事件中,经过了较长时间都没有得到警力的帮助,无非就是周围群众没有及时报警制止该行为,另一种就是安装的摄像头没有警报功能。如果在此终端的基础上增加除了录像功能外的警报功能,就更加完美。好比在摄像头实时监控下,如果发现了异常行为,就会及时将报警信息反馈给中心端(一般是警察中心或者安保监控室),当员工看到警报,再通过视频确认,可以针对性作出一些措施,可能会大大减少犯罪的行为,也较大的提升社会安全度。今天我们就来说说视频实时行为异常检测的一些事!02概要今天分享的干货中,研究者解决了异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络
2022年6月12日
其他

新技术:高效的自监督视觉预训练,局部遮挡再也不用担心!

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2206.00790.pdf计算机视觉研究院专栏作者:Edison_G计算机视觉的自监督学习取得了巨大的进步,并改进了许多下游视觉任务,例如图像分类、语义分割和对象检测。01概要简介计算机视觉的自监督学习取得了巨大的进步,并改进了许多下游视觉任务,例如图像分类、语义分割和对象检测。其中,生成式自监督视觉学习方法如MAE和BEiT表现出良好的性能。然而,它们的全局掩码重建机制在计算上要求很高。为了解决这个问题,研究者提出了局部掩码重建(LoMaR),这是一种简单而有效的方法,它在简单的Transformer编码器上的7×7补丁的小窗口内执行掩码重建,与全局相比,提高了效率和准确性之间的权衡对整个图像进行掩码重建。大量实验表明,LoMaR在ImageNet-1K分类上的top-1准确率达到84.1%,优于MAE
2022年6月11日
其他

改进的阴影抑制用于光照鲁棒的人脸识别

人脸识别专题,这领域一直是一门火热的研究课题,那我们就继续一起学习探讨,希望大家在留言区踊跃讨论。接下来我来和大家分享光照对人脸识别的影响以及消除脸部阴影如何提高识别性能,那我们开始吧。01人脸识别的背景由于生物特征识别和机器学习领域的巨大发展,人脸分析得到了广泛的关注。除了其科学兴趣之外,人脸分析还为商业和执法领域的各种潜在应用提供了无与伦比的优势,与其他生物特征识别技术相比,其容易获取或避免与用户明确合作。如今,在高度约束的环境下,传统的案例已经获得了近乎完美的表现,在这种环境中,对姿势(上一期已经分享了姿势感知模型)、光照、表达和其他非同一性因素的控制是严格的。然而,由于实际情况中经常遇到的非理想成像环境,这些方法的应用范围非常有限:用户可能呈现出他们的脸但不是中性表情,或者人脸会出现意外的遮挡,比如太阳镜,甚至是从视频监视中捕捉到的图像,这些视频收集的含有所有困难,例如低分辨率图像、姿态变化、光照条件的变化等。为了在实践中适应这些挑战,学术和工业研究都将重点转移到无约束的真实场景人脸图像上。与姿态、表情等其他干扰因素相比,光照变化对常规人脸分析算法的影响更大。如下图所示,由于许多问题,照明条件可能相当复杂:照明的强度和方向,相机传感器的过度曝光和曝光不足。不仅如此,而且已经证明,在人脸识别中,光照变化引起的差异可能比个体之间的差异更显着。因此,照明归一化对于探索照明不变方法至关重要。上图中,可以看到同一张脸不同照明条件的案例。(a)正面照明;(b)右面发出耀眼光线的镜面高光;(c)Soft
2022年6月11日
其他

基于文本驱动用于创建和编辑图像(附源代码)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2206.02779.pdf计算机视觉研究院专栏作者:Edison_G神经图像生成的巨大进步,再加上看似无所不能的视觉语言模型的出现,终于使基于文本的界面能够用于创建和编辑图像。1
2022年6月10日
其他

VS Code支持配置远程同步了

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2206.02647.pdf计算机视觉研究院专栏作者:Edison_G【VS
2022年6月9日
其他

最近几篇较好论文实现代码(附源代码下载)

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G这个是”计算机视觉研究院“新推出的模块,后期我们会陆续为大家带来最新文章及技术的代码实现分享!《Towards
2022年6月9日
其他

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2206.02647.pdf计算机视觉研究院专栏作者:Edison_GVision
2022年6月9日
其他

YOLOS:通过目标检测重新思考Transformer(附源代码)

计算机视觉研究院专栏作者:Edison_G最近“计算机视觉研究院”有一段时间没有分享最新技术,但是最近我看了一些之前的检测框架,发现有两个很有意思,不错的框架,接下来我给大家简单分析下,希望给大家带来创新的启示!公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2106.00666.pdf源代码地址:https://github.com/hustvl/YOLOS1前言Transformer能否从纯序列到序列的角度执行2D目标级识别,而对2D空间结构知之甚少?为了回答这个问题,今天就展示了“You
2022年6月5日