广州技术支持网站建设东营赶集网-兰州市网站建设公司-Seo优化

广州技术支持网站建设,东营赶集网,北京专业网站制作介绍,校园文创产品设计0 前言在计算机视觉领域中#xff0c;基础的任务除了目标分类之外#xff0c;往前进一步就是目标检测了。在之前的文章中#xff0c;我介绍过AlexNet、ResNet#xff0c;其实这些模型一开始都是为了目标分类诞生的。目标分类和检测的区别在哪里呢#xff1f;假设我们有一张…0 前言在计算机视觉领域中基础的任务除了目标分类之外往前进一步就是目标检测了。在之前的文章中我介绍过AlexNet、ResNet其实这些模型一开始都是为了目标分类诞生的。目标分类和检测的区别在哪里呢假设我们有一张猫的图片我们输入到深度学习的模型中只期待它得到一个判断结果是猫还是狗或者是其他的动物。这就是目标分类。但是目标检测在这个目标识别任务的基础上更进一步我们不仅需要知道这张图片里是不是猫我们还要知道它的位置在哪里。因此目标检测实质上有两个任务定位和识别。对于人类来说这似乎是一件很简单的事情但是对于计算机而言这个任务的难度又上升了一个台阶。YOLO是目标检测领域的经典模型然而在YOLO之前其实就已经有前人在目标检测领域做了大量研究工作。在正式踏入这个技术领域之前我们不妨首先从上帝视角来了解一下目标检测的发展历程以及经典框架这对于开展后续的学习是大有裨益的。1 思维导图限于篇幅加上叙述目标检测的发展过程顺着这个脉络因此我打算分两篇文章来介绍YOLOv1有时间的话也可以为大家介绍一下具体的代码。今天这篇文章主要介绍的内容有三点思维导图如下。2 目标检测发展史简介一般而言我们介绍深度学习领域某个任务的发展过程都是从两个方面来说一个是传统方法一个是深度学习的方法。在以往传统的方法中都是首先人工提取图像视觉特征然后再将特征输入到特定的网络中最终得到任务结果。不过一旦图像种类变得复杂并且特征不明显那么想得到一个通用的任务模型则会非常困难并且依赖研究者的先验知识。当深度学习出现之后特征提取这个费时费力的活儿就可以交给卷积神经网络了它依赖海量的数据从中学习出数据中通用的特征虽然大多数特征没有办法用人类语言描述出来。2014年不同于传统的目标检测算法R-CNN出现了。当时衡量目标检测效果的数据集为PASCAL VOCR-CNN在该数据集上一鸣惊人开启了深度学习领域结合目标检测的研究的热潮。然而R-CNN的算法基础导致它有一个缺点那就是速度不够快。在R-CNN的基础上众多学者做出了改进如Fast R-CNN和Faster R-CNN,但是依旧是遵循R-CNN原有的基础框架。计算机视觉10年代一路狂奔引吭高歌在2015年YOLO横空出世在每秒40帧的检测速度实力碾压当时所有的目标检测模型这也导致了YOLO框架横扫后续的目标检测领域。目前YOLO官方发布的模型已经到了YOLOv11。要想弄懂YOLO我认为直接去学习YOLO的最新模型难度很大我们不知道它改进的每一个trick巧妙在哪里正如如果我们不懂得Transformer的原理我们学习BERT和GPT就会比较吃力。尽管YOLOv1已经是十年前的模型了但是时至如今我认为去了解它的结构和模块对于初学者而言仍然有意义学习了YOLOv1之后我们再去学习更新版本的模型会更加从容也能体会到每个版本之间的迭代差异温故而知新。3 R-CNN与YOLO架构区别我们知道目标检测需要完成两个任务定位和分类在这个认知基础上我们先来了解一下R-CNN的基本步骤。从上面的图中可以看出来R-CNN主要分为三步首先从图像中提取出若干感兴趣的区域使用卷积神经网络分别处理提取特征使用支持向量机进行分类我们将上述三个步骤总结为关键的两步先提取一系列可能包含物体的候选区域然后依次对这些区域进行特征提取和分类。这一过程被总结为统一的范式两阶段(two-stage)检测本质上是先提取后识别。包括后来Fast R-CNN以及Faster R-CNN皆是如此。YOLO摈弃了两阶段检测的结构采用单阶段(One-Stage)检测的模式。我们从它的名字就可以窥探一二**YOLO(You Look Only Once)**你只需要看一次。YOLO的作者认为检测(定位)和识别(分类)是可以采用一个网络完成的不用分别进行处理可以减少大量多余的操作从而加快检测识别的速度。但是需要明确的一点是虽然YOLOv1在检测速度上胜过R-CNN,但是精度却是有所下降的在当时业界应用中精度和速度往往总是不能二者兼得但是正因为YOLO检测速度的迅速因此得到了更多研究者的青睐使得更多的学者投身于单阶段检测的框架中。如今YOLO已经可以兼具速度和精度的要求成为目标检测领域的主流框架。我们再来总结对比一下二者的区别R-CNN的“两阶段”是 “先找出可能在哪候选区域再细看是什么分类” 而YOLO的“单阶段”是 “看一眼就直接说出哪里有什么” 。4 YOLOv1的网络结构YOLOv1作为YOLO家族的祖先其网络结构非常精简通过一个端到端的卷积神经网络直接确定目标边界框和类别。网络结构图如下有点惊讶本来我也会以为YOLOv1这么厉害肯定是一个让人眼花缭乱的网络结果好像不是我们想的这么回事儿。受到GooleNet网络结构的启发YOLOv1的网络结构中包含24个卷积层和2个全连接层。就是这么简单粗暴一看网络结构平平无奇古天乐不就是图像分类那一套嘛卷积激活和池化再来个全连接层。为什么这么简单的网络结构却能完成目标检测的任务具体细节我们留到下篇文章但是我们可以预先简单的探讨一下这个问题。可以明确一点针对一幅图像我们要对它进行检测需要获取到三种结果一个是预测框的位置坐标一个是预测的类别还有相应的概率。因此这本质上这是一个多回归问题。我们知道CNN不仅可以做分类回归任务它也是高手的因此用CNN去得到预测框的位置坐标一个是预测的类别还有相应的概率三种数据是可行的只不过我们的思维中一般网络得到的结果是一种比如我用CNN做分类得到的就是分类结果嘛用CNN做房价预测得到的就是房价嘛但是它其实是可以同时预测多种数据的。这也正是它能够一次性做完所有事情的关键至于它的多回归具体如何是实现的我们下篇文章来具体分析。欢迎大家关注我的个人gzh阿龙AI日记。

广州技术支持网站建设东营赶集网

仿照一个国外的网站要多少钱wordpress自动分表

网站制作文案中土建设集团有限公司网站

用js做的个人酷炫网站网站开发怎么兼容pc和移动端

深圳网站平面设计wordpress社交源码

有什么网站是做中式酒店大堂的网站搭建配置

护理学院网站建设做视频网站要什么格式好

广州技术支持 网站建设东营赶集网

仿照一个国外的网站要多少钱wordpress自动分表

网站制作文案中土建设集团有限公司网站

用js做的个人酷炫网站网站开发怎么兼容pc和移动端

深圳网站平面设计wordpress社交源码

有什么网站是做中式酒店大堂的网站搭建配置

护理学院网站建设做视频网站要什么格式好

广州技术支持网站建设东营赶集网