我爱计算机视觉

其他

人脸识别技术综述,出自OPPO研究院

关注公众号,发现CV技术之美现如今人脸识别应用已经大规模走进我们的的生活,但人脸识别技术的研究仍然是计算机视觉的热点,还有哪些待解的问题?从应用的角度哪些新技术更值得关注?向大家介绍一篇最近新出的人脸识别技术综述,作者来自工业界:OPPO研究院,其从工业应用的角度看待近年人脸识别技术的发展,值得关注。作者信息:论文地址:https://arxiv.org/pdf/2212.13038.pdf作者在文中介绍了人脸识别的历史、流程、基于传统人工设计特征或深度学习的算法、主流训练、评估数据集和相关应用。另外,作者们还尽力分析和比较了最先进的工作,通过实验研究主干大小和数据分布对系统性能的影响。下图展示了人脸识别算法训练和推理的流程:图一:人脸识别中的训练和推理流程训练阶段,要经过人脸检测、人脸对齐,然后使用深度学习网络训练,提取特征。特别值得一提的是,现如今针对人脸识别系统的攻击也越来越普遍,在人脸识别推理中,检测到人脸后,要进行系统反欺诈的真/假人脸的判断,这也成为人脸识别系统的重要标配。人脸检测是人脸识别的第一步,现如今使用特征金字塔方法的人脸检测方法已经相对成熟,比如SRN、RetinaFace:图二:SRN
2022年12月29日
其他

CVPR 2022 视频全景分割新 Benchmark:VIPSeg

基于Clip的视频全景分割方法作者提出一个新的视频全景分割算法:ClipPanoFCN,基于对视频进行划分片段,先实现片段内的全景分割再全局规整的方法,实现了新的Sota
2022年11月30日
其他

包含2.9亿标签!大规模、多任务遥感图像理解数据集Satlas,遥感领域的富金矿

关注公众号,发现CV技术之美数据对AI研究与开发至关重要,说数据是金矿,规模大、标注多的就是富金矿,一点也不过分。今天向大家介绍一个刚刚发布的遥感领域数据集:Satlas,它在覆盖场景广度和数据规模上都很大,包括
2022年11月29日
其他

实时图像增强,基于“间距自适应查找表”的方法(CVPR 2022)

LUT布局。两个公开数据集的实验结果验证了方法在性能和效率方面优于其他先进的现有方法。此外,作者相信本文方法中所蕴含的思想,即对复杂的底层变换函数或表示进行非均匀采样的观点不仅局限于
2022年5月13日
其他

李沐「动手学深度学习」中文课程笔记来了!代码还有详细中文注释

关注公众号,发现CV技术之美本文转自机器之心,编辑张倩。markdown笔记与原课程视频一一对应,Jupyter代码均有详细中文注释,这份学习笔记值得收藏。去年年初,机器之心知识站上线了亚马逊资深首席科学家李沐博士的「动手学深度学习」中文系列课程。这门课从3月持续到8月,超过28000人参与了直播,课程回放在
2022年5月11日
其他

精度更高,速度更快!锚点 DETR:基于 transformer 目标检测的查询设计(AAAI 2022)

所示,我们还分析了上述所提各个模块的效果。首先,我们可以看到所提的查询设计,即将锚点(anchors)编码为解码器查询以及为锚点加入多种模式(patterns),可以将性能从
2022年5月10日
其他

CVPR 2022 NTIRE 视频增强和超分比赛冠军方案

关注公众号,发现CV技术之美近日,NTIRE比赛结果公布,大淘宝技术视频增强算法团队STaoVideo表现出色,获得视频超分辨率与质量增强挑战赛两个赛道冠军🎉。NTIRE赛事介绍2022年CVPR
2022年5月8日
其他

包邮送5本!新书推荐:MLOps实践――机器学习从开发到生产

关注公众号,发现CV技术之美本文主要介绍机器学习(以下简写为ML)算法和架构在MLOps框架下的工程实践。当从业者具备了足够丰富的知识储备时,就可以开始尝试ML了。通常情况下,ML实践会涉及研究和生产两个主要环境。研究环境可以在本地计算机或工作站上,这通常是为了进行小规模的模型分析和探索。生产环境是模型投产的环境,ML在生产环境中通常需要相对长期的持续运行,生产环境中的任务一般需要自动化和持续迭代。下面举个仅需要在研究环境中进行数据分析或建模即可满足需求的例子,即在文章标题中找到与较高点击率相关的关键词。数据分析师的交付方式可能是将探索出的规律和结论报告给一个运营团队,这样运营人员就可以在新的标题中尝试使用探索出的规律和结论来提高点击率。再举一个数据分析和建模需要在研究环境中完成而建模结果需要在生产环境中发布的例子,该情况下的模型需要不断迭代,比如在电商网站上运行的推荐模型。在生产环境中运行的模型会涉及后续的管理和运维,当运行中出现异常或模型衰退时,需要通过监控机制发出预警信号。这两类环境对从业者的要求很不相同。大多数初级ML图书讲述的是研究环境中的ML,很少会涉及生产环境中的ML。《MLOps实践――机器学习从开发到生产(全彩)》一书的重点将放在生产环境中。一般来说,一个完备的ML项目的工作流程是,先在研究环境中探索和开发ML模型,制作一个ML应用程序的原型,然后符合预期的模型会被推送到生产环境,进行自动化部署和监控。开发一个用于生产环境的ML应用程序的工作比分析、探索的工作要复杂得多,需要把在研究环境中运行的ML作业转换成能在生产环境中自动运行的作业,我们通常把这一过程称为ML的生产化或工程化。1机器学习工程及生产化模块回顾前面ML的定义,从广义上讲,ML是一门通过算法和统计模型从数据中学习知识的学科,ML工程顾名思义就是构建基于ML的应用程序的计算实践。ML工程是建立在ML的工作基础上并将研究环境中开发的ML模型应用于生产环境的技术。ML工程与ML的区别在于侧重点不同,ML更关心算法的优化和模型的训练,ML工程则更关心从不同业务系统采集数据,并训练一个兼顾模型性能和计算性能的模型,使其能在生产环境中稳定运行,保证模型的可监控、可维护、可更新、可被业务系统使用,为模型生产化提供工程保障。ML工程包括从数据收集、特征工程、模型训练到模型投入应用、管理和运维的所有阶段。这个过程与高中时期考试的不同阶段类似,ML开发过程相当于平时的模考,关心的是对知识点的消化和总结,ML工程相当于高考,在兼顾平时模考习得的知识点的同时,还需要综合考察实考环境下的心理压力、时间分配、考题内容等因素。事实上,数据科学团队通常专注于研究新颖的算法或训练高精准的模型,但与实际ML项目中需要的全流程(如特征工程、部署、监控等)相比,ML算法只是ML项目非常小的一部分,一个真正要投产的ML项目通常需要大量的工程工作和基础设施的配合,以实现ML模型在生产环境中顺利运行。2015年,谷歌发布的论文指出,为了避免无休止的“技术债”缠身,应该强调将ML生产化视为一门学科的重要性(在当前的ML技术主流中确实如此),通过加强工程技术的投入来顺利实现ML的生产化。如图1所示,ML模型的生产化是由多个模块组成的,在实际场景中需要在这些模块间建立沟通机制来配合完成ML模型的生产化。图1
2022年5月5日
其他

西北工大&HVL&哈工大联合出版的 193 篇 GANs 在图像超分辨上综述

GAN网络的发展在第二章中,简要介绍了GANs方法的发展历程,重点介绍了GAN的原始网络模型和几个经典的变体,包括BiGAN,CycleGAN和StyleGAN。他们的网络结构如图2至图6所示:图2
2022年5月5日
其他

牛津大佬|计算机科学方向一对一科研项目

如果你对以上科研一对一课题感兴趣可扫描下方二维码添加专业学术顾问备注【papers】即可咨询如果你对以上科研一对一课题感兴趣可扫描下方二维码添加专业学术顾问备注【papers】即可咨询盐趣开设的一对一科研论文产出课程体系,只为让你参与进一次真实且前沿的科研项目,真正提升你的科研能力!项目根据学生研究领域匹配专属导师,制定个性化专属课程,培养学生科研能力、论文写作能力,帮助学员顺利完成论文及成功发表,助力国内外名校申请/硕博毕业/职位晋升。无论你有无学术经历,在盐趣的一对一科研项目中,来自全球TOP30名校的导师都会根据你的实际情况量身定制研究方向和课题并耐心指导。学生在导师的指导下会经历一个完整的科研流程,从定题到文献研究,从研究方法设计到深入的研究分析,以及最终论文产出,科研能力将会得到全方位系统性的提升。同时学术论文的撰写和发表还能够为简历、个人陈述和留学面试提供高含金量背书,有效提高个人申请竞争力。长按识别海报中的二维码添加盐趣学术顾问微信预约添加微信时请备注:papers如需了解更多项目请咨询专业学术顾问
2022年1月13日
其他

ICCV 2021 | 模型安全不容忽视!特定样本触发器的隐形后门攻击方法

关注公众号,发现CV技术之美论文链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Li_Invisible_Backdoor_Attack_With_Sample-Specific_Triggers_ICCV_2021_paper.pdf代码链接:https://github.com/yuezunli/ISSBAPrior
2022年1月13日
其他

为对抗训练的理论工作添砖加瓦:选择"核心子集"进行训练,大大缩短训练时间

引言深度神经网络极易受到对抗样本的攻击。防御对抗样本攻击一个直观有效的方式就是对抗训练比如Free
2022年1月12日
自由知乎 自由微博
其他

年后准备跳槽的可以看看。

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今,它被用于图像分类、人脸识别、图像中物体的识别、视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上。图像分割有助于确定目标之间的关系,以及目标在图像中的上下文。应用包括人脸识别、车牌识别和卫星图像分析。例如,零售和时尚等行业在基于图像的搜索中使用了图像分割。自动驾驶汽车用它来了解周围的环境。而深度学习可以学习视觉输入的模式,以预测组成图像的对象类。用于图像处理的主要深度学习架构是卷积神经网络(CNN),或者是特定的CNN框架,如AlexNet、VGG、Inception和ResNet。计算机视觉的深度学习模型通常在专门的图形处理单元(GPU)上训练和执行,以减少计算时间。随着技术的普及,各家企业的框架逐渐成熟化,图像分割技术的门槛会越来越低。但是由于实际业务的不断丰富和深入,开源框架和工具也已经无法直接满足实际生产和业务需求。那么为了让大家更好地掌握
2022年1月10日
其他

《AFTrans》来自ViT的免费午餐!北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer

token。Transformer编码器由多头自注意(MSA)和多层感知机(MLP)模块组成。第层的输出计算如下图所示:其中,,分别是Query、Key和Value向量。Vision
2021年12月31日
其他

数据太少怎么办?深入浅出,带你了解小样本学习如何“破局”!

深度学习在解决众多领域的复杂任务中都发挥了巨大的作用,但由于深度学习模型包含很多参数,通常需要大量的已标注数据进行模型训练才能得到较好的效果。而在数据集很小的场景下,多数深度学习算法的效果会严重受限。如何通过有限数量的数据集训练出较好的效果,成为了很多新手开发者学习道路上的头号难题。而小样本学习方法可以在利用先验知识的前提下,仅由极少量受监督的样本,使得模型通过极少步的更新快速提升泛化性能。为了给各位开发者排忧解难,小编为大家准备了小样本学习(Few-Shot
2021年12月29日
其他

《ELF》即插即用!解决长尾问题!GT&UIUC联合提出基于Early-Exiting的网络框架,涨点并加速!

Motivation真实数据通常遵循长尾分布,其中大多数样本仅来自少数几个类。在遵循这种分布的数据集上,神经网络通常倾向于多数类,导致稀有类的泛化性能较差。这种不平衡问题传统上是通过重新采样数据
2021年12月29日
其他

Model-Based RL前沿追踪——以无法为有法,以无形为有形

RL在模型学习部分也存在若干问题:环境建模存在误差,而且随着算法与环境模型的迭代交互,累积误差越来越大,使得算法难以收敛到最优解。环境模型缺乏通用性,每次换一个问题,就要重新建模。1.2
2021年12月28日
其他

怎么用图文预训练模型CLIP做视频任务?

retrieval论文:https://arxiv.org/pdf/2104.08860.pdf第三篇是用CLIP来做视频-文本检索的文章整个思路和上面提到的文章类似,用CLIP的Text
2021年12月16日
其他

NeurIPS 2021 | CyGen:基于概率论理论的生成式建模新模式!

关注公众号,发现CV技术之美本文转自微软研究院AI头条。编者按:在概率论中,两随机变量的一个联合分布可由一个变量的边缘分布和对应条件分布确定,也可对称地由另一变量的边缘分布和另一方向的条件分布确定,但无法由这两个边缘分布确定。因此,可否仅由这两个条件分布来确定联合分布,成为了科研人员感兴趣的研究方向。针对上述问题,微软亚洲研究院的研究员在
2021年12月14日
其他

复旦大学提出《Meta-FDMixup》解决"跨域小样本学习"中的域偏移问题

domain标注数据其实并不是一件难事(现有benchamark本身有可以使用的这部分数据,即使没有,人工标注产生极少一部分这样的标注数据代价也不高)。因此,我们首先提出learning
2021年12月10日
其他

RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!

Blocks第i层的输出也会传到子网络2中以重用特征。通常,可以将子网络1视为具有多个分类器的DenseNet,用来处理最低分辨率的特征映射。Sub-networks
2021年12月9日
其他

“遇事不决,量子力学”?微软亚研院开源时空预测开源工具:FOST,应对各行业共性预测需求!

关注公众号,发现CV技术之美(本文阅读时间:7分钟)编者按:2020年新冠疫情肆虐全球,为了控制疫情蔓延,找到应对措施,美国疾病控制中心公布了大量疫情相关数据,向全世界顶级科研机构救助,希望科学家们可以利用技术能力,提供具有较高参考价值的预测数据,从而帮助制定有效的控制策略。微软亚洲研究院基于时空预测技术,训练了针对新冠疫情的预测模型,并于2020年下半年被美国疾控中心采纳使用。在过去的近一年中,该预测模型的表现整体优于全球其它四十几家科研机构提供的预测模型。日前,微软亚洲研究院基于此前的技术积累,正式推出了面向全行业的时空预测开源工具
2021年12月9日
其他

CLIP还能做视频字幕任务!腾讯&清华提出CLIP4Caption,ACM MM2021挑战赛第二名!

视频帧嵌入可以表示为。文本编码器使用深度为12,宽度为512,带有八个注意头的Transformer编码器,其权重源自预训练的CLIP文本编码器。基于CLIP和CLIP4Clip,[EOS]
2021年12月5日
其他

Remix:高分辨率目标检测,面向边缘设备、可调谐

关注公众号,发现CV技术之美编者按:目标检测技术在视频分析系统中是十分基础的功能模块,在许多视频分析场景中,若可以在边缘设备上直接运行目标检测模型,可极大提升检测效率,同时也可以降低使用成本。但是,如何在边缘设备运行计算密集的
2021年11月18日
其他

FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!

。这一策略大大减少了冗余,并创建了一个具有挑战性的自监督任务,需要对低级图像统计之外的整体进行理解(如上图所示)。3)自编码器的解码器将潜在表示映射回输入,在重建文本和图像之间起着不同的作用。
2021年11月12日
其他

MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL

提出跨语言的多模态、多任务检索模型《MURAL》消除预训练模型的语言限制!详细信息如下:论文链接:https://arxiv.org/abs/2109.05125v1项目链接:未开源导言:
2021年10月2日
其他

深度学习实践杂谈

关注公众号,发现CV技术之美本文为52CV粉丝投稿,博客地址:https://blog.csdn.net/liuxiaoheng1992/article/details/120228724作为一名算法工程师,本文主要是想把自己模型调优和复现算法遇到的一些坑总结一下(里面的一行字可能是我当时花费了一周甚至更长时间得到的总结),希望能对读者有所帮助。熟悉数据模型是数据的浓缩版----Andrew
2021年9月13日
其他

大规模视频内容理解:淘宝视频内容标签的结构化分析和管理

为什么要做标签?在这种亟需深入理解视频内容的大背景下,不同的表征形态涌现。包括:embedding表征标签表征其中embedding表征常用的方法包括多模态预训练模型、基于用户行为的deep
2021年8月31日
其他

让模型实现“终生学习”,佐治亚理工学院提出Data-Free的增量学习

关注公众号,发现CV技术之美0写在前面目前的计算机视觉模型在进行增量学习新的知识的时候,就会出现灾难性遗忘的问题。缓解这种遗忘的最有效的方法需要大量重播(replay)以前训练过的数据;但是,当内存限制或数据合法性问题存在时,这种方法就存在一定的局限性。在本文中,作者研究了无数据类增量学习(DFCIL)的问题,也就是增量学习能够学习新的知识,而不存储生成器或过去任务的训练数据。目前,DFCIL的一种方法是通过倒置学习分类模型的冻结副本,来合成图像用于训练,使得模型能够不忘记以前任务的知识,也不用replay以前训练过的数据。但是,作者通过实验表明了当使用标准蒸馏策略时,这种方法对于常见的类增量benchmark都是无效的。因此,在本文中,作者分析了这种方法失败的原因,并提出了一种新的DFCIL增量蒸馏策略,提供了一个改进的交叉熵训练和重要性加权特征蒸馏。最终作者通过实验表明,在类增量benchmark上,与SOTA
2021年8月12日
其他

LG-Transformer:全局和局部建模Transformer结构新作

写在前面近段时间,基于Transformer的结构在CV领域展现出了很大的应用潜力,已经逐渐掩盖了CNN的光芒。Transformer的缺点也很明显:计算复杂度和输入的特征大小呈平方的关系。因此直接对整张图片进行Self-Attention是不现实的,所以,最近的一些工作(比如Swin-Transformer[1])采用了像CNN一样的分层结构,每层施加注意力的范围只在local
2021年7月21日
其他

GAN之再进化:分布判别器,大连理工提出一种新式无监督图像合成方法

模块分析下图表示了论文中模型的四种设置的结果,该实验证了各个组件模块在中起到的积极的作用。如下表所示,与使用相比,使用来标准化会有更高的FID分数。5.3
2021年7月1日
其他

古籍文档图像二值化:基于背景估计和能量最小化的方法

2010、2012、2014、2016、2018,涵盖31张印刷体和85张手写文档图像及其对应的GT图像。数据集中的历史文献图像来源于READ
2021年6月7日
其他

ECCV 2020 大规模实例分割挑战赛(LVIS Challenge)冠军方案

微博/知乎:<u>@我爱计算机视觉</u>投稿:amos@52cv.net网站:www.52cv.net在看,让更多人看到
2020年9月7日
其他

实例分割的进阶三级跳:从 Mask R-CNN 到 Hybrid Task Cascade

微博/知乎:<u>@我爱计算机视觉</u>投稿:amos@52cv.net网站:www.52cv.net在看,让更多人看到
2020年9月6日
其他

首个硬件资源受限下数据不均匀的图像去噪网络:BRDNet,代码已开源

本文贡献:(1)被提出的深CNN能直接把噪声图像映射得到干净图像。提出的BRDNet是增加宽度代替增加深度来提高去噪网络的学习能力。(2)Batch
2020年2月15日
其他

Facebook发布Detectron2,下一个万星目标检测新框架

点击我爱计算机视觉标星,更快获取CVML新技术Detectron是Facebook于2018年发布的专注于目标检测的深度学习框架,基于Caffe2深度学习框架,实现了众多state-of-the-art算法,其与商汤-香港中文大学MMLab实验室开源的mmdetection为目标检测领域框架双雄。截止今天Detectron已有2.2万颗Star:可见受欢迎程度。今天发布的Detectron2,基于PyTorch框架,是从maskrcnn-benchmark为起点,对Detectron的彻底重写。官方称通过全新的模块化设计,Detectron2灵活且可扩展,能够在单个或多个GPU服务器上提供更加快速的训练。Detectron2已经包含了众多保质量实现的目标检测算法,包括:DensePose,
2019年10月11日
其他

手写公式识别 :基于深度学习的端到端方法

https://www.sciencedirect.com/science/article/pii/S0031320317302376WYGIWYS论文地址:
2019年9月19日
其他

金连文:“文字检测与识别:现状及展望” | CAAI AIDL 演讲实录

string),这是一个维度降维的思路,把两维的box变成一维的string,每一个string用它的长度及坐标去建模,这样anchor的参数设计变得很简单,比如说你可以把它变成一个等比的数列(eg
2019年9月4日
其他

百万奖金!天池发起广东工业制造创新大赛

专业计算机视觉技术分享平台,“有价值有深度”,分享开源技术与最新论文解读,传播视觉技术的业内最佳实践。知乎/微博:我爱计算机视觉,官网
2019年8月13日
其他

登顶Github趋势榜,非监督GAN算法U-GAT-IT大幅改进图像转换效果

为了让系统在生成和判别时更具针对性对特定区域进行转换和鉴别,作者加入CAM(意即类激活图模块)。它能找出对于判断一张图的真假最重要的区域,这样生成器和判别器就可对此区域更具针对性生成和判别。
2019年8月5日
其他

数据不够,用GAN来凑!

说到标注这件事,打个标签其实还好,如果是针对图像分割任务,要对图像进行像素级标注,那标注的成本就太高了。跟专业的标注公司打过交道的朋友都知道,打标签、标关键点和标像素区域,所要付出的成本可大不同。
2019年7月10日