1. 计算机视觉——典型的目标检测算法(OverFeat算法)(二)
【嵌牛导读】目标检测在现实中的应用很广泛,我们需要检测数字图像中的物体位置以及类别,它需要我们构建一个模型,模型的输入一张图片,模型的输出需要圈出图片中所有物体的位置以及物体所属的类别。在深度学习浪潮到来之前,目标检测精度的进步十分缓慢,靠传统依靠手工特征的方法来提高精度已是相当困难的事。而ImageNet分类大赛出现的卷积神经网络(CNN)——AlexNet所展现的强大性能,吸引着学者们将CNN迁移到了其他的任务,这也包括着目标检测任务,近年来,出现了很多目标检测算法。
【嵌牛鼻子】计算机视觉
【嵌牛提问】如何理解目标检测算法——OverFeat
【嵌牛正文】
一、深度学习的典型目标检测算法
深度学习目标检测算法主要分为 双阶段检测算法 和 单阶段检测算法 ,如图1所示。
双阶段目标检测算法先对图像提取候选框,然后基于候选区域做二次修正得到检测结果,检测精度较高,但检测速度较慢;单阶段目标验测算法直接对图像进行计算生成检测结果,检测速度快,但检测精度低。
1、双阶段目标检测算法
双阶段目标检测方法主要通过选择性搜索(Selective Search)或者Edge Boxes等算法对输入图像选取可能包含检测目标的候选区域(Region Proposal),再对候选区域进行分类和位置回归以得到检测结果。
1.1 OverFeat 算法
《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》
Sermanet 等改进AlexNet 提出 OverFeat 算法。该算法结合AlexNet通过多尺度滑动窗口实现特征提取功能,并且共享特征提取层,应用于图像分类、定位和目标检测等任务。
关键技术:
1、FCN( 全卷积神经网络 )
对于一个各层参数结构都设计好的网络模型,要求输入图片的尺寸是固定的(例如,Alexnet要求输入图片的尺寸为227px*227px)。如果输入一张500*500的图片,希望模型仍然可以一直前向传导,即一个已经设计完毕的网络,可以输入任意大小的图片,这就是FCN。
FCN的思想在于:
1、从卷积层到全连接层,看成是对一整张图片的卷积层运算。
2、从全连接层到全连接层,看成是采用1*1大小的卷积核,进行卷积层运算。
如上图所示,绿色部分代表卷积核大小。假设一个CNN模型,其输入图片大小是14*14,通过第一层卷积后得到10*10大小的图片,然后接着通过池化得到了5*5大小的图片。像但是对于像素值为5*5的图片到像素值为1*1的图片的过程中:
(1)传统的CNN:如果从以前的角度进行理解的话,那么这个过程就是全连接层,我们会把这个5*5大小的图片,展平成为一维向量进行计算。
(2)FCN:FCN并不是把5*5的图片展平成一维向量再进行计算,而是直接采用5*5的卷积核,对一整张图片进行卷积运算。
二者本质上是相同的,只是角度不同,FCN把这个过程当成了对一整张特征图进行卷积,同样,后面的全连接层也是把它当做是以1*1大小的卷积核进行卷积运算。
当输入一张任意大小的图片,就需要利用以上所述的网络,例如输入一张像素为16*16的图片:
根据上图,该网络最后的输出是一张2*2的图片。可见采用FCN网络可以输入任意大小的图片。同时需要注意的是网络最后输出的图片大小不在是一个1*1大小的图片,而是一个与输入图片大小息息相关的一张图片。
Overfeat就是把采用FCN的思想把全连接层看成了卷积层,在网络测试阶段可以输入任意大小的图片。
2、offset max-pooling
简单起见,不用二维的图像作为例子,而是采用一维作为示例:
如上图所示,在X轴上有20个神经元,并且选择池化size=3的非重叠池化,那么根据之前所学的方法应该是:对上面的20个神经元,从1位置开始进行分组,每3个连续的神经元为一组,然后计算每组的最大值(最大池化),19、20号神经元将被丢弃,如下图所示:
或者可以在20号神经元后面,添加一个数值为0的神经元编号21,与19、20成为一组,这样可以分成7组:[1,2,3],[4,5,6]……,
[16,17,18],[19,20,21],最后计算每组的最大值。
如果只分6组,除了以1作为初始位置进行连续组合之外,也可以从位置2或者3开始进行组合。也就是说其实有3种池化组合方法:
A、△=0分组:[1,2,3],[4,5,6]……,[16,17,18];
B、△=1分组:[2,3,4],[5,6,7]……,[17,18,19];
C、△=2分组:[3,4,5],[6,7,8]……,[18,19,20];
对应图片如下:
以往的CNN中,一般只用△=0的情况,得到池化结果后,就送入了下一层。但是该文献的方法是,把上面的△=0、△=1、△=2的三种组合方式的池化结果,分别送入网络的下一层。这样的话,网络在最后输出的时候,就会出现3种预测结果了。
前面所述是一维的情况,如果是2维图片的话,那么(△x,△y)就会有9种取值情况(3*3);如果我们在做图片分类的时候,在网络的某一个池化层加入了这种offset 池化方法,然后把这9种池化结果,分别送入后面的网络层,最后的图片分类输出结果就可以得到9个预测结果(每个类别都可以得到9种概率值,然后我们对每个类别的9种概率,取其最大值,做为此类别的预测概率值)。
算法原理:
文献中的算法,就是把这两种思想结合起来,形成了文献最后测试阶段的算法。
1、论文的网络架构与训练阶段
(1)网络架构
对于网络的结构,文献给出了两个版本——快速版、精确版,一个精度比较高但速度慢;另外一个精度虽然低但是速度快。下面是高精度版本的网络结构表相关参数:
表格参数说明:
网络输入:图片大小为221px*221px;
网络结构方面基本上和AlexNet相同,使用了ReLU激活,最大池化。不同之处在于:(a)作者没有使用局部响应归一化层;(b)然后也没有采用重叠池化的方法;(c)在第一层卷积层,stride作者是选择了2,这个与AlexNet不同(AlexNet选择的跨步是4,在网络中,如果stride选择比较大得话,虽然可以减少网络层数,提高速度,但是却会降低精度)。
需要注意的是把f7这一层,看成是卷积核大小为5*5的卷积层,总之就是需要把网络看成前面所述的FCN模型,去除了全连接层的概念,因为在测试阶段可不是仅仅输入221*221这样大小的图片,在测试阶段要输入各种大小的图片,具体请看后面测试阶段的讲解。
(2)网络训练
训练输入:对于每张原图片为256*256,然后进行随机裁剪为221*221的大小作为CNN输入,进行训练。
优化求解参数设置:训练的min-batchs选择128,权重初始化选择高斯分布的随机初始化:
然后采用随机梯度下降法,进行优化更新,动量项参数大小选择0.6,L2权重衰减系数大小选择10-5次方。学习率初始化值为0.05,根据迭代次数的增加,每隔几十次的迭代后,就把学习率的大小减小一半。
然后就是DropOut,这个只有在最后的两个全连接层,才采用dropout,dropout比率选择0.5。
2、网络测试阶段
在Alexnet的文献中,预测方法是输入一张图片256*256,然后进行multi-view裁剪,也就是从图片的四个角进行裁剪,还有就是一图片的中心进行裁剪,这样可以裁剪到5张224*224的图片。然后把原图片水平翻转一下,再用同样的方式进行裁剪,又可以裁剪到5张图片。把这10张图片作为输入,分别进行预测分类,在后在softmax的最后一层,求取个各类的总概率,求取平均值。
然而Alexnet这种预测方法存在两个问题:
一方面这样的裁剪方式,把图片的很多区域都给忽略了,这样的裁剪方式,刚好把图片物体的一部分给裁剪掉了;
另一方面,裁剪窗口重叠存在很多冗余的计算,像上面要分别把10张图片送入网络,可见测试阶段的计算量还是较大的。
Overfeat算法:
训练完上面所说的网络之后,在测试阶段不再是用一张221*221大小的图片了作为网络的输入,而是用了6张大小都不相同的图片,也就是所谓的多尺度输入预测,如下表格所示:
当网络前向传导到layer 5的时候,就利用了前面所述的FCN、offset pooling这两种思想的相结合。现以输入一张图片为例(6张图片的计算方法都相同),讲解layer 5后面的整体过程,具体流程示意图如下:
步骤一:
对于某个尺度的图片,经过前五层的卷积后得到特征图。上图中特征图的分辨率是20x23,256个通道。
步骤二:
对于该特征图,重复多次使用非重叠的池化,每次池化的偏置不同,有行偏置和列偏置。上图中偏置池化3次,偏置分别为为(0,1,2)。这就是offset pooling,也被称为fine stride。offset pooling得到的特征图的维度为6x7x3x3xD,其中6x7是特征图的分辨率,3x3是偏置池化的次数,D是通道数。上图中是以1维显示的。
步骤三:
池化后得到的特征图将被送入分类器。
步骤四:
分类器的输入是的5x5xD,输出是C(类别数)维向量。但是offset pooling后得到的特征图并不是5x5xD,比如上图中的特征图大小为6x7xD,因此分类器以滑动窗口的方式应用在特征图上,每个滑动窗口经过分类器输出一个C维向量。比如上图中输入的6x7xD的特征图最终得到2x3xC的输出,其中2x3是滑动窗口的个数。
步骤五:
而2x3xC只是一组偏置池化的输出,总的输出为2x3x3x3xC,将输出的张量reshape,得到6x9xC输出张量。最终输出分类张量为3d张量,即两个分辨率维度 x C维。
然后需要在后面把它们拉成一维向量,这样在一个尺度上,可以得到一个C*N个预测值矩阵,每一列就表示图片属于某一类别的概率值,并且求取每一列的最大值,作为本尺度的每个类别的概率值。
最后一共用了6种不同尺度(文献使用了12张,另外6张是水平翻转的图片)进行做预测,然后把这六种尺度结果再做一个平均,作为最最后的结果。
从上面过程可以看到整个网络分成两部分:layer 1~5这五层称之为特征提取层;layer 6~output称之为分类层。
六、定位任务
用于定位任务的时候,就把分类层(上面的layer 6~output)给重新设计一下,把分类改成回归问题,然后在各种不同尺度上训练预测物体的bounding box。
2. 全圆测回法观测水平角的操作步骤是什么
??回法测测水平角方法1.经纬仪的安置1)松开三脚架,安置于测站点上。其高度大约在胸口附近,架关大致水平。2)打开仪器箱,双手握住仪器支架,将仪器从箱中取出置于架关上。一手紧握支架,一手拧紧连螺旋。2.熟悉仪器各部件的名称和作用。??3.经纬仪的使用对中:调整对中器对光螺旋,看清测站点,依次移动三脚架的其中两个脚,使对中器中的十字丝对准测站点,踩紧三脚架,通过调节三脚架高度使圆水准气泡居中。整平:转动照准部,使水准管平行于任意一对脚螺旋,同时相对旋转这对脚螺旋,使水准管气泡居中;将照准部绕竖轴转动90°,旋转第三只脚螺旋,使气泡居中。??再转动90°,检查气泡误差,直到小于妥划线的一格为止。瞄准:用望远镜上瞄准器瞄准目标,从望远镜中看到目标,旋转望远镜和照准部的制动螺旋,转动目镜螺旋,使十字丝清晰。再转动物镜对光螺旋,使目标影像清晰,转动望远镜和照准部的微动螺旋,使目标被单根竖丝平分,或将目标夹在双根竖丝中央。??读数:打开反光镜,调节反光镜使读数窗亮度适当,旋转读数显微镜的目镜,看清读数窗分划,根据使用的仪器用分微尺或测微尺读数。测回法测测水平角的步骤1)度盘配置:设共测n个测回,则第I个测回的度盘位置为略大于。若测两个测回,根据公式计算第一测回起始读数稍大于0°,第二测回起始读数稍大于90°。??2)一测回观测盘左瞄准左边目标A,进行读数记a1,顺时针方向转动照准部,瞄准右边目标B,进行读数记b1,计算上半测回角值β左=b1-a1。盘右瞄准右目标B,进行读数记b2,逆时针方向转动照准部,瞄准目标A,进行读数记a2,计算下半测回角值β右=b2-a2。????检查上、下半测回角值互差是否超限,计算一测回角值。(3)测站观测完毕后,检查各测回角值互差不超过±24″,计算各测回的平均角值。回法测测水平角注意事项1.瞄准目标时,尽可能瞄准其底部。2.同一测回观测时,切勿误动度盘变换手轮或复测扳手。
3. DOTA V1.5数据集:基于航空图像的大规模目标检测数据集
目标检测是计算机视觉任务中一个具有挑战性的方向。尽管在过去十年中目标检测在自然场景中有了重大突破,但是在航拍图像的进展是十分缓慢的,这不仅是因为地球表面相同类别物体的规模、方向和形状有着巨大的差异,而且还因为缺少航拍影像中目标对象的标注信息。为了推进“Earth Vision”(也称为“地球观测和遥感”)中目标检测的研究,我们提出了用于航拍影像中用于目标检测的大规模数据集(DOTA)。我们从不同的传感器和平台收集了2806个航拍影像,每张图像的大小约为4000*4000像素,并包含了各种不同比例、方向和形状的目标对象。航拍图像专家将这些DOTA数据集图像中常见的15种对象类别进行标注。完全注释之后的DOTA数据集图像包含188282个实例,每个实例都由四点确定的任意四边形(8 d.o.f.)标记。为了建立地球视觉中目标检测的基准,我们评估了DOTA上最新的目标检测算法。实验表明,DOTA能够代表真实的地球视觉应用,并具有一定的挑战性。
Earth Vision中的目标检测是指在将地球表面感兴趣的物体(例如车辆、飞机场)定位并预测他们的类别。与传统的目标检测数据集相反,在传统的目标检测数据集中,物体的位置通常由于重力而以一种向上的姿态出现,航拍图像中物体的实例通常以任意状态出现,如图1所示,这取决于航拍视角的关系。
由于计算机视觉领域的最新进展以及Earth Vision应用的高要求,有大量的研究者已经开始围绕航拍影像中的目标检测开展研究,这些方法中的大多数尝试将原有的目标检测算法应用在航拍影像中。最近,在基于深度学习的目标检测算法取得巨大成功的鼓舞下,Earth Vision的研究者们基于大规模数据集(ImageNet和MSCOCO数据集)预训练模型上进行微调网络的方法,使之在航拍数据集检测中有所改善。
尽管这种基于微调的方法是可行的,但是如图1所示,航拍图像中的目标检测与常规的目标检测有着以下方面的区别:
近年来,在一些较为依赖数据的研究中,数据集扮演着十分重要的角色,像MSCOCO这样的大型数据集在促进目标检测和图像捕捉研究方面发挥了重要的作用。当涉及到分类任务和场景识别任务时,ImageNet以及Places也很重要。
但是,在航拍目标检测中,缺少像MSCOCO和ImageNet这样在图像数量和详细注释方面的数据集,特别是对于开发基于深度学习的算法时,这是Earth Vision研究的主要障碍之一。航拍目标检测对于车辆计数,远程目标跟踪和无人驾驶领域非常有用。因此,创建一个能实际应用的大规模数据集并提出富有挑战性的航拍目标检测基准对于促进该领域的研究十分必要。
我们认为,一个好的航拍影像数据集应该具有以下四个属性:
1)大量的图片;2)每个类别都有很多实例;3)合适角度的目标注释框;4)许多不同类别的对象,这使得数据集能够应用到实际中。然而目前所公开的航拍数据集存在以下缺点:图像数据和类别不足,缺少更精细的注释以及分辨率过低。而且,它们缺少复杂性并不能足以应用再实际现实世界中。
像TAS,VEDAI,COWC等数据集只关注车辆,UCAS-AOD包含汽车和飞机,HRSC2016只包含船只,虽然有标注细致的分类信息。但所有这些数据集在类别的数量上都是少的,这对它们在复杂场景的泛化适应上有所约束。作为对比,NWPU VHR-10数据集由10种类型的物体组成,而它的总实例数大概只有3000。关于这些已存在的数据集的具体比较细节在表1中给出。我们在第四部分可以看到,对比这些航拍数据集,DOTA具有更庞大的目标实例数目、随意但是均匀的方向,多样性的分类目录和复杂的航拍场景。此外,DOTA数据集中的场景与真实场景更加一致,所以DOTA数据集对于真实世界应用开发来说是更有帮助的。
当涉及到普通对象数据集时,ImageNet和MSCOCO因其具有大量的图像、更多的类别和详细的注释而被大多数研究人员所选择。在所有对象检测数据集中,ImageNet的图像数量最多。但是每个图像的平均实例数远少于MSCOCO和我们的DOTA数据集,而且必须拥有干净的背景和精心选择的场景带来了局限性,DOTA数据集中的图像包含大量的对象实例,其中一些图片具有1000多个实例。 PASCAL VOC数据集在每个图像和场景的实例上与ImageNet相似,但是图像数量不足使得它不适合处理大多数检测需求。我们的DOTA数据集在实例编号和场景类型方面类似于MSCOCO,但是DOTA的类别不如MSCOCO那样多,因为可以在航拍影像中能清晰看到的对象时非常有限的。
此外,在上文提到的大规模普遍目标检测基准中DOTA数据集的特别之处在于使用OBB方法注释,OBB可以很好的区分目标物体的离散与聚集,在第三部分详细描述了使用OBB注释目标物体的好处。在表2中对DOTA,PASCAL VOC,ImageNet and MSCOCO等数据集的比较中给出不同点。
在航拍数据集中由于存在多种多样的传感器被使用的情况,导致数据集产生偏差。为了消除这些偏差,我们数据集中的图片是由多分辨率多传感器和多平台收集而来的,如谷歌地球。为了提高数据的多样性,我们收集的图片的城市是由图像判读方面的专家来挑选的。在挑选过程中,会记录下精确的地理坐标,来捕捉图片使得确保没有重复的图像。
我们的DOTA数据集注释选择了15种类别,包括飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环状交叉路口、游泳池。
标注类别是由图像判读方面的庄家根据目标物体的普遍性和现实世界中存在的价值来挑选的,前十个类别在已有的数据集中很普遍,我们保留了下来,除了将交通工具的汽车分为大型和小型,因为两种类型的汽车在航拍图像上区别很大。其他的类别主要是由于现实场景的应用。我们选择直升机是考虑到航拍图像中运动物体具有重要的意义,环状交叉路口被选中是因为它在巷道分析中具有重要意义。
要不要把“stuff”作为一类是值得探讨的,在SUN数据集中,一般说来没有明确的定义说明什么是stuff一类,比如海港、机场、停车场。但是,它们提供的语义信息是对检测有帮助的。我们只采纳了海港分类,因为它的边界容易定义,并且在我们的图片源信息中有丰富的实例。最后拓展的分类是足球场。
在表2我们比较了DOTA和NWPU VHR_10,后者在先前存在的航拍图像目标检测数据集中有更多的分类数。而且DOTA在目录分类数目和每一类下的实例数目都远超过了NWPU VHR-10。
我们考虑了许多不同的注释方法。在计算机视觉领域,许多视觉概念(比如区域说明,目标,属性,关系)都可以被一个注释边框说明,对边框的一个普遍描述一般采用 ,其中 表示位置, 是边框的宽和高度。
没有一定方向的物体可以采用这种注释方式充分注释。然而,在航拍影像中的文本和物体以这种方式标记的边界框不能精确或紧凑地贴合物体的轮廓。如图3(c)所示的极端但实际的普遍存在情况和图(d)比起来,两个边界框之间的重叠是如此之大以至于最先进的对象检测方法也不能区分它们。为了解决这一问题,我们需要一种其他更适合面向这种有一定方向物体的注释方法。
一个可选选项是采用基于 的边界框,它被应用于一些文本检测基准,即 ,其中 表示从边界框与水平方向的夹角度。但这种方法的缺点是依旧不能贴合围绕住那些不同部分之间可能有较大变形的物体。考虑到航拍图像中物体的复杂场景和物体的各种方位,我们需要放弃这种方法选择其他更灵活易懂的方式。一种可供选择的方法是使用任意四边形边界框,它可以被描述为: ,其中 表示图像中定向边界框的顶点的位置,顶点按顺时针顺序排列,这种方法在定向场景的文本检测中广泛使用。我们受到这些研究的启发,在注释物体时使用这种任意四边形边界框的方式。
为了进行更具体的注释,如图3所示,我们强调了第一点 的重要性,该点通常表示对象的“首部”。对于直升机,大型车辆,小型车辆,港口,棒球钻石,轮船和飞机等类别,我们选择与之丰富的潜在用途有关的点作为起始点。对于足球场,游泳池,桥梁,地面田径场,篮球场和网球场类别来说,没有视觉上的线索来确定第一个点,因此我们通常选择左上角的点作为起点。
我们在图4中展示了DOTA数据集中一些已经注释过的例子(不是全部的初始图像)
为了确保训练数据和测试数据分布大致相同,我们随机选择原始图像的一半作为训练集,将1/6作为验证集,将1/3作为测试集。 我们将为训练集和验证集公开提供所有带有原始事实的原始图像,但不会为测试集提供。 为了进行测试,我们目前正在构建评估服务。
与其他图像数据集相比,航拍图像一般尺寸很大。我们的数据集中图像的原始大小约为800×800到4000×4000之间不等,而常规数据集中的大多数图像(例如PASCAL-VOC和MSCOCO)则不超过1000×1000。我们在原始完整图像上进标注,而不将其分割成块,以避免将单个实例分割成不同碎片的情况。
如图1(f)所示,我们的数据集在不同方向的实例中达到了比较好的平衡,这对于网络检测器的鲁棒性提升有很大帮助。此外,我们的数据集更接近真实场景,因为在现实世界中通常会看到各种方向的对象。
我们还为数据集中的每幅图像提供了空间分辨率,这可以推断出实例的实际大小。空间分辨率对检测任务的重要性有两个方面。首先,它使模型对于相同类别的各种对象更具适应性和鲁棒性。众所周知,从远处看物体会显得更小。具有不同大小的同一对象会给模型造成麻烦并损害分类。但是,通过提供分辨率信息而不是对象的大小,模型可以更加关注形状。其次,可以进行进行更精细的分类。例如,将一艘小船与一艘大型军舰区分开是很简单的。
空间分辨率还可以用于过滤数据集中标记错误的离群值,因为大多数类别的类内实际大小变化是有限的。在较小的空间分辨率范围内,选择与同类物体尺寸相差较大的物体,可以发现离群值(Outliers)。
按照[33]中的规定,我们将水平边框的高度(简称为像素大小)称为实例大小的度量。我们根据水平边界框的高度将数据集中的所有实例分为三个部分:较小的范围为10到50,中间的范围为50到300,较大的范围为300以上。图3说明了不同数据集中的三个实例拆分的百分比。显然,PASCAL VOC数据集,NWPU VHR-10数据集和DLR 3K Munich Vehicle数据集分别由中间实例,中间实例和较小实例主导。但是,我们在小实例和中间实例之间实现了良好的平衡,这与现实世界场景更加相似,因此有助于在实际应用中更好地捕获不同大小的对象。
值得注意的是,像素大小在不同类别中有所不同。例如,车辆可能小到30像素,但是桥梁可能大到1200像素,比车辆大40倍。不同类别实例之间的巨大差异使检测任务更具挑战性,因为模型必须足够灵活以处理极小的物体。
表3:航拍图像和自然图像中某些数据集的实例大小分布比较
对于基于锚的模型,例如Faster RCNN和YOLO V2,长宽比是至关重要的因素。我们对数据集中所有实例的两种长宽比进行计数,以提供更好的模型设计参考:1)最低程度受限于水平边界框的横纵、2)原始四边形边框的长宽比。图5说明了我们数据集中实例的两种纵横比分布类型,我们可以看到实例的纵横比差异很大。此外,DOTA数据集中有许多横纵比较大的实例。
航拍图像中常常包括数以千计的实例,它们完全与自然场景图像不同。例如IMANEET数据集中每张图像平均包含2个类别和2个实例,MSCCO共有3.5个类别、7.7个实例。如图5所示我们的DOTA数据集更丰富,每个图像的实例可以高达2000个。
在一幅图像中有如此多的实例,不可避免地会看到很密集的实例聚集在某个区域。在COCO数据集中,实例并不是逐个注释的,因为图像中的遮挡使之难以将实例与其相邻实例区分开来。在这些情况下,实例组被标记为一个属性名为“crowd”的片段。然而,这种情况不会在航拍图像下出现,因为从航拍视角来看,很少有遮挡物。因此,我们可以在拥挤的实例场景中将实例一个个分别标注。图4展示了聚集着很多实例的一个例子。在这种情况下检测物体对现有的检测方法提出了巨大的挑战。
我们在DOTA上评估了最新的物体检测方法。对于水平物体检测,我们谨慎地选择Faster R-CNN,R-FCN,YOLO V2和SSD作为我们的基准测试算法,因为它们在一般物体检测中具有出色的性能。对于定向对象检测,我们修改了原始的Faster R-CNN算法,以便可以预测正确定向的边界框,表示为 。
值得注意的是,R-FCN和Faster R-CNN的骨干网络分别ResNet-101,用于SSD的是Inception V2,YOLO V2用的是GoogLeNet 。
为了全面评估基于深度学习的DOTA检测方法的现状,我们提出了两个任务,即在水平边界框(简称HBB)上进行检测以及在定向边界框(简称OBB)上进行检测。更具体地说,无论采用何种方法训练,我们都根据两种不同的基础事实(HBB或OBB)评估这些方法。
DOTA的图像太大,无法直接发送到基于CNN的探测器。因此,我们将原始图像裁剪为一系列1024*1024的面片,步幅设置为512。注意在裁剪过程中,完整的物体可能会被切成两部分。为了方便起见,我们将原始对象的面积为 ,划分部分 的面积为 然后计算:
最终我们将U<0.7的部分标记为“difficult”,其他的标记和原始注释一样。对于那些新生成的部分的顶点我们需要保证它们可以被一个具有4个顺时针排列顶点的定向边界框用一种合适的方法来描述。
在测试阶段,我们首先将裁剪后的面片送到一个临时的结果中,然后将结果合并在一起,来重构原始图像的检测,最后我们对预测结果使用NMS(非极大值抑制算法)。我们设置NMS的参数阈值对于水平边界框(简称HBB)将阈值设置为0.3,定向的边界框阈值设置为0.1。通过使用这种方式,我们在基于CNN的模型上训练和测试了DOTA数据集。
对于评价的度量,我们使用和PSASCAL VOC一样的mAP计算方式。
HBB实验的ground truth 是通过在原始的已标注的边界框上计算轴对称边界框产生的,为了公平起见,我们将实验的配置以及超参数设置为与文章[4,16,25,26]一致。
在表4中给出了HBB实验的预测结果,我们注意到SSD上的结果比其他模型低很多。我们怀疑可能是因为SSD数据集数据增长策略中的随意裁剪操作,这种操作在普通的目标检测中有用,但是在航拍图像目标检测的大规模小实例上作用有所降低。实验结果也进一步表明了航拍图像和普通目标图像检测在实例大小上的巨大差别。
OBB的预测比较困难,因为现有的目标检测方法并非针对定向对象而设计。因此,我们依据准确性和效率选择Faster R-CNN作为基础框架,然后对其进行修改使之能预测定向的边界框。
由RPN(候选区域生成网络)产生的RoIs(兴趣区域)是可以被表示为 的矩形框,更为详尽的解释是 。在R-CNN程序中,每个RoI都附加有一个ground truth定向边界框写作: ,然后R-CNN的输出目标 由以下等式计算:
其中 。
其他配置和超参数设置保持与Faster R-CNN中所述相同。数值结果显示在表5中。为了与我们为OBB实施的Faster R-CNN进行比较,我们评估了OBB地面实况在HBB上训练的YOLO V2,R-FCN,SSD和Faster R-CNN。如表5所示,在HBB上训练的那些方法的结果比在OBB上训练的Faster R-CNN的结果低得多,这表明对于空中场景中的定向目标检测,相应地调整这些方法可能会得到更好的结果。
当我们分析表4中呈现的数据结果时,小型汽车,大型汽车,船只的分类结果不尽人意,因为它们的尺寸较小,并且在航拍图像中位置十分密集。然而大型的离散物体如飞机,游泳池、网球场等,表现出的效果较好。
在图6中我们比较了HBB和OBB两种检测方式的结果。在图6(a)和6(b)中表示的紧密图像中,HBB实验的定位精度要比OBB实验差的多,并且许多结果受到先前工作的限制。所以OBB回归是定向物体检测的一个正确方式,并且可以被真正在实际中应用。在图6(c)中,使用OBB来标注纵横比较大的物体(比如桥和海港),对于现在的检测器来说很难做回归。但是在HBB方法中,这些物体通常有着较为普通的纵横比,因此结果如图6(d)看起来比OBB好很多。但是在一些极度拥挤的场景下,比如图6(e)和6(f),HBB和OBB的结果并不尽如人意,表明了现阶段检测器具有一定的缺陷。
交叉数据集验证是数据集泛化能力的一个评价方式。我们选择UCAS-AOD数据集来做交叉数据集泛化,因为它与其他航空物体检测数据集相比有着更大的数据量。因为没有UCAS-AOD数据集的官方划分方式,于是我们随机选择1110个进行训练和400个进行测试。选择YOLO V2作为所有测试实验的检测器,并且将所有的ground truth使用HBB标注。将UCAS-AOD数据集中原始图片大小改为960*544作为输入的图片大小,其余的配置不改变。
结果显示在表6中,对于YOLOv2-A模型而言两个数据集之间的性能差异分别为35.8和15.6。这表明DOTA极大地覆盖了UCAS-AOD,并且具有更多的模式和特性,而UCAS-AOD则不具备这种特性。两种模型在DOTA上的结果都很低,这表明DOTA更具挑战性。
我们建立了一个大型数据集,用于航拍图像中进行定向物体检测,这个数据集比这个领域中所有现有的数据集都要大。 与一般对象检测基准相反,我们使用定向边界框标注大量分布良好的定向物体。 我们猜测这个数据集是具有挑战性的,并且非常类似于自然的航拍场景,更适合实际应用。我们还为航拍图像物体检测建立了基准,并展示了通过修改主流检测算法生成定向边界框的可行性。
这个数据集在大图片中检测密集排列的小实例和具有任意方向的超大实例都将特别有意义且具有挑战性。我们相信DOTA不仅会推动Earth Vision中物体检测算法的发展,而且还会对计算机视觉中的一般物体检测提出有趣的问题。
4. 如何用OpenCV自带的adaboost程序训练并检测目标
转自:http://hi..com/andyzcj/blog/item/3b9575fc63c3201f09244d9a.html可能遇到的问题:1.如果跑到某一个分类器时,几个小时也没有反应,而且显示不出训练百分比,这是因为你的负样本数量太少,或者负样本的尺寸太小,所有的负样本在这个分类器都被reject了,程序进入不了下一个循环,果断放弃吧。解决方法:负样本尽量要大一些,比如我的正样本是40*15,共300个,负样本是640*480,共500个。2.读取样本时报错:,网上说这个错误是因为opencv规定单幅iplimage的内存分配不能超过10000,可是我的每个负样本都不会超过这个大小,具体原因不明。后来我把负样本的数量减少,尺寸加大,这个问题就解决了。最近要做一个性别识别的项目,在人脸检测与五官定位上我采用OPENCV的haartraining进行定位,这里介绍下这两天我学习的如何用opencv训练自己的分类器。在这两天的学习里,我遇到了不少问题,不过我遇到了几个好心的大侠帮我解决了不少问题,特别是无忌,在这里我再次感谢他的帮助。一、简介目标检测方法最初由PaulViola[Viola01]提出,并由RainerLienhart[Lienhart02]对这一方法进行了改善。该方法的基本步骤为:首先,利用样本(大约几百幅样本图片)的harr特征进行分类器训练,得到一个级联的boosted分类器。分类器中的"级联"是指最终的分类器是由几个简单分类器级联组成。在图像检测中,被检窗口依次通过每一级分类器,这样在前面几层的检测中大部分的候选区域就被排除了,全部通过每一级分类器检测的区域即为目标区域。分类器训练完以后,就可以应用于输入图像中的感兴趣区域的检测。检测到目标区域分类器输出为1,否则输出为0。为了检测整副图像,可以在图像中移动搜索窗口,检测每一个位置来确定可能的目标。为了搜索不同大小的目标物体,分类器被设计为可以进行尺寸改变,这样比改变待检图像的尺寸大小更为有效。所以,为了在图像中检测未知大小的目标物体,扫描程序通常需要用不同比例大小的搜索窗口对图片进行几次扫描。目前支持这种分类器的boosting技术有四种:DiscreteAdaboost,RealAdaboost,GentleAdaboostandLogitboost。"boosted"即指级联分类器的每一层都可以从中选取一个boosting算法(权重投票),并利用基础分类器的自我训练得到。根据上面的分析,目标检测分为三个步骤:1、样本的创建2、训练分类器3、利用训练好的分类器进行目标检测。二、样本创建训练样本分为正例样本和反例样本,其中正例样本是指待检目标样本,反例样本指其它任意图片。负样本负样本可以来自于任意的图片,但这些图片不能包含目标特征。负样本由背景描述文件来描述。背景描述文件是一个文本文件,每一行包含了一个负样本图片的文件名(基于描述文件的相对路径)。该文件创建方法如下:采用Dos命令生成样本描述文件。具体方法是在Dos下的进入你的图片目录,比如我的图片放在D:\face\posdata下,则:按Ctrl+R打开Windows运行程序,输入cmd打开DOS命令窗口,输入d:回车,再输入cdD:\face\negdata进入图片路径,再次输入dir/b>negdata.dat,则会图片路径下生成一个negdata.dat文件,打开该文件将最后一行的negdata.dat删除,这样就生成了负样本描述文件。dos命令窗口结果如下图:正样本对于正样本,通常的做法是先把所有正样本裁切好,并对尺寸做规整(即缩放至指定大小),如下图所示:由于HaarTraining训练时输入的正样本是vec文件,所以需要使用OpenCV自带的CreateSamples程序(在你所按照的opencv\bin下,如果没有需要编译opencv\apps\HaarTraining\make下的.dsw文件,注意要编译release版的)将准备好的正样本转换为vec文件。转换的步骤如下:1)制作一个正样本描述文件,用于描述正样本文件名(包括绝对路径或相对路径),正样本数目以及各正样本在图片中的位置和大小。典型的正样本描述文件如下:posdata/1(10).bmp1112323posdata/1(11).bmp1112323posdata/1(12).bmp1112323不过你可以把描述文件放在你的posdata路径(即正样本路径)下,这样你就不需要加前面的相对路径了。同样它的生成方式可以用负样本描述文件的生成方法,最后用txt的替换工具将“bmp”全部替换成“bmp1112323”就可以了,如果你的样本图片多,用txt替换会导致程序未响应,你可以将内容拷到word下替换,然后再拷回来。bmp后面那五个数字分别表示图片个数,目标的起始位置及其宽高。这样就生成了正样本描述文件posdata.dat。2)运行CreateSamples程序。如果直接在VC环境下运行,可以在Project\Settings\Debug属性页的Programarguments栏设置运行参数。下面是一个运行参数示例:-infoD:\face\posdata\posdata.dat-vecD:\face\pos.vec-num50-w20-h20表示有50个样本,样本宽20,高20,正样本描述文件为posdata.dat,结果输出到pos.vec。或者在dos下输入:"D:\ProgramFiles\OpenCV\bin\createsamples.exe"-info"posdata\posdata.dat"-vecdata\pos.vec-num50-w20-h20运行完了会d:\face\data下生成一个*.vec的文件。该文件包含正样本数目,宽高以及所有样本图像数据。结果入下图:Createsamples程序的命令行参数:命令行参数:-vec训练好的正样本的输出文件名。-img源目标图片(例如:一个公司图标)-bg背景描述文件。-num要产生的正样本的数量,和正样本图片数目相同。-bgcolor背景色(假定当前图片为灰度图)。背景色制定了透明色。对于压缩图片,颜色方差量由bgthresh参数来指定。则在bgcolor-bgthresh和bgcolor+bgthresh中间的像素被认为是透明的。-bgthresh-inv如果指定,颜色会反色-randinv如果指定,颜色会任意反色-maxidev背景色最大的偏离度。-maxangel-maxangle,-maxzangle最大旋转角度,以弧度为单位。-show如果指定,每个样本会被显示出来,按下"esc"会关闭这一开关,即不显示样本图片,而创建过程继续。这是个有用的debug选项。-w输出样本的宽度(以像素为单位)-h《sample_height》输出样本的高度,以像素为单位。到此第一步样本训练就完成了。恭喜你,你已经学会训练分类器的五成功力了,我自己学这个的时候花了我一天的时间,估计你几分钟就学会了吧。三、训练分类器样本创建之后,接下来要训练分类器,这个过程是由haartraining程序来实现的。该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。Haartraining的命令行参数如下:-data存放训练好的分类器的路径名。-vec正样本文件名(由trainingssamples程序或者由其他的方法创建的)-bg背景描述文件。-npos,-nneg用来训练每一个分类器阶段的正/负样本。合理的值是:nPos=7000;nNeg=3000-nstages训练的阶段数。-nsplits决定用于阶段分类器的弱分类器。如果1,则一个简单的stumpclassifier被使用。如果是2或者,则带有number_of_splits个内部节点的CART分类器被使用。-mem预先计算的以MB为单位的可用内存。内存越大则训练的速度越快。-sym(default)-nonsym指定训练的目标对象是否垂直对称。垂直对称提高目标的训练速度。例如,正面部是垂直对称的。-minhitrate《min_hit_rate》每个阶段分类器需要的最小的命中率。总的命中率为min_hit_rate的number_of_stages次方。-maxfalsealarm没有阶段分类器的最大错误报警率。总的错误警告率为max_false_alarm_rate的number_of_stages次方。-weighttrimming指定是否使用权修正和使用多大的权修正。一个基本的选择是0.9-eqw-mode选择用来训练的haar特征集的种类。basic仅仅使用垂直特征。all使用垂直和45度角旋转特征。-w《sample_width》-h《sample_height》训练样本的尺寸,(以像素为单位)。必须和训练样本创建的尺寸相同。一个训练分类器的例子:"D:\ProgramFiles\OpenCV\bin\haartraining.exe"-datadata\cascade-vecdata\pos.vec-bgnegdata\negdata.dat-npos49-nneg49-mem200-modeALL-w20-h20训练结束后,会在目录data下生成一些子目录,即为训练好的分类器。训练结果如下:恭喜你,你已经学会训练分类器的九成功力了。四:利用训练好的分类器进行目标检测。这一步需要用到performance.exe,该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。performance.exe-datadata/cascade-infoposdata/test.dat-w20-h20-rs30performance的命令行参数如下:Usage:./performance-data-info[-maxSizeDiff][-maxPosDiff][-sf][-ni][-nos][-rs][-w][-h]也可以用opencv的cvHaarDetectObjects函数进行检测:CvSeq*faces=cvHaarDetectObjects(img,cascade,storage,1.1,2,CV_HAAR_DO_CANNY_PRUNING,cvSize(40,40));//3.检测人脸
5. 什么是全圆观测法 工程测量中的!
方向观测法 - 概念
1、方向观测法是以两个以上的方向为一组,从初始方向开始,依次进行水平方向观测,正镜半测回和倒镜半测回,照准各方向目标并读数的方法.
2、方向观测法(direction observation)是将一测站上待测方向的全部或部分作为一组,从选择的起始方向(零方向)开始,依次对各方向进行观测,以获取各方向相对零方向的水平方向值(归零方向值).当从零方向开始依次观测各方向至最后方向时,再继续对零方向进行的重复观测称归零观测.
方向观测法 - 方法
根据一测站上待测方向的多寡,可选择使用以下方法:
1、简单方向观测法:不进行归零观测.当一测站的待测方向数不超过3个时可用此法.
2、全圆方向观测法:需进行归零观测.当一测站的待测方向数超过3个但不超过6个时可用此法.
3、分组方向观测法:当超过6个时,可将待测方向分为方向数不超过6个的若干组,分别按此法进行,称分组方向观测法.但各组之间必须有两个共同的方向,且在观测结束后对各组的方向值进行平差处理,以便获得全站统一的归零方向值.
6. 幼儿园小班数学教案《认识圆形》
作为一位优秀的人民教师,有必要进行细致的教案准备工作,教案是教学活动的依据,有着重要的地位。教案应该怎么写呢?下面是我为大家收集的幼儿园小班数学教案《认识圆形》,希望对大家有所帮助。
活动目标:
1、能在认知、操作和游戏活动中掌握圆形的特征。
2、能在周围环境中寻找圆形的物体,感知圆形在生活中的应用。
3、培养幼儿的观察力和想象力。
活动准备:
1、活动室布置一些圆形的物品。
2、圆形纸一张,圆形物品若干(如镜子、瓶盖、铃鼓、盘子)。
3、幻灯片,每桌一只箱子,箱子里有各种不同的圆形物品,操作纸若干、彩笔人手一份。
活动过程:
一、创设情境,认识圆形物品。
师:(用神秘的口气加眼神)今天老师给小朋友带来一箱子的玩具,请你们每人拿一件在桌上玩一下,说说它是什么?
幼:我拿的镜子,
幼:我拿的铃鼓,
幼:我拿的盘子……
师:你发现了什么?这些物品有什么相同的地方?
幼:他们都是圆圆的。(引出圆形这一话题。)
师:(出示一张圆形的纸)提问:它像什么?
幼:它像盘子,
幼:它像太阳,
幼:它像……
自评:
活动一开始就创设情景,激发幼儿的情趣,引发幼儿的发散性思维,这里不仅发展了幼儿的语言表达能力,也培养了幼儿的观察力。
二、感知圆形的特征
师:请小朋友自选圆形物品,沿着物品的表面和边缘触摸,互相交流一下自己的感受。
幼:平平的,
幼:圆圆的,
幼:边缘是光滑的,
幼:没有棱角……(幼儿交流,充分表达自己的观点)
师:说一说,你还见过哪些东西也是圆形的?(鼓励幼儿说出在家里或者在其他地方见到的圆形物品)
幼:碗、盆,球、掉灯……
三、观察幻灯片《杂技表演》
师:说一说,画面上有谁?他们在干什么?
幼:奇奇、乐乐、欢欢、小熊。
幼:他们在玩杂技。
师:想一想,圆圈能翻跟头,为什么方圈不能呢?
幼:方圈不光,它有角翻不过去。(引导幼儿说)
师:看一看,独轮车的轮子是什么形状的?还有哪些东西也是圆形的?
幼:圆形的,(幼儿一起说)
幼:还有球,呼啦圈,滚圈,盘子
活动目标
1.愿意参与活动,对数学活动感兴趣。
2.认识圆形,初步掌握圆形的特征。
3.能在生活中找出各种圆形的物品。
活动准备
环境准备:教师提前在班级内的各个角落放置一些圆形的物品。
课件准备:“圆形专卖店”情景图片;“各种形状”组图;“去进货”组图;游戏背景音乐。
纸面教具:《圆形专卖店》。
材料准备:马克笔。
活动过程
一,出示图片引导幼儿初步感知圆形
——小老鼠皮皮新开了一家专卖店,里面卖的物品很特别,我们一起去瞧瞧吧!
——皮皮的专卖店里都有哪些物品?
二,帮助幼儿认识圆形掌握圆形的特征
——这个圆圆的图形就叫做圆形。
——圆形和其他形状相比,有什么特别的地方?
三,发放纸面教具巩固幼儿对圆形的认识
1.发放纸面教具,引导幼儿寻找正确的小汽车。
2.引导幼儿在纸面教具上连一连。
3.教师操作课件,验证幼儿的答案。
四,播放游戏音乐玩游戏寻找圆形的`物品
——恭喜小朋友们顺利地帮助皮皮完成了进货任务,现在请小朋友在班级内找一找,哪些物品是圆形的?
一、活动准备:
1、将各色色纸剪成大大小小的圆,贴在磁铁黑板上。剪刀、糨糊、圆形贴纸、画纸、磁铁、彩色等。
2、幼儿数学用书。
二、活动过程
(一)以讲《爱画画的波波的故事》的形式引起兴趣
随着故事情节让幼儿猜猜波波画的是什么?“小猪波波画了好多大大小小的圆,哥哥姐姐看了好久,不知道波波的圆圈是什么,就问波波:“你画的圆圈是什么呀?”波波说:“这个圆圈里有两只手,一只长,一只短,从早到晚绕着转。”哥哥说:“啊,我知道了,是时钟”,姐姐说:“那这个是什么?”波波说:“它下面还有一条长长的线,要抓好,才不会跑掉”。姐姐说:“喔,是气球”哥哥姐姐终于知道波波画什么了。波波又画了许多圆圈,连肚脐眼的圆都有呢?妈妈说:“ 波波真是个很棒的画家”。
(二)运用操作法让幼儿拼图
幼儿也当波波,用圆形色纸拼拼贴贴,看可以拼贴出什么造型。完成后请幼儿欣赏作品,鼓励幼儿说一说自己用圆形拼贴出了什么。
(三)带领幼儿打开《我的数学》第一页,启发幼儿观察画面内容,让幼儿给圆形涂上自己喜欢的颜色,再说说图中还有哪些东西是圆的。
(四)引导幼儿观察周围环境,想一想、说一说,生活中还有哪些东西是圆的。
三、活动目标:
1、认识圆形,运用圆形创作造型。
2、发展幼儿想象力及操作能力。
7. 建筑测量,什么叫全圆测回法
当观测目标多于2个时观测水平角就需要采用全圆观测法
安置仪器
在 O点置经纬仪,A、B、C、D设置目标。
2.盘左
对零度,瞄A,再顺时针瞄B、C、D、A,第二次瞄A称为归零,分别读数,记入手簿,上半测回。
3.盘右
瞄A、逆时针瞄D、C、B、A,分别读数记入手簿,下半测回。
4.上、下半测回,组成一测回
观测n测回时,起始方向读数变化为180°/n。
5.计算
*计算两倍照准差(2C)
2C=盘左-(盘右±180°)
*计算各方向平均值
平均读数=[盘左+(盘右±180°)]/2
*A方向平均值,填写在括号内
*计算归零后的方向值
*计算各方向的测回平均值
*计算各目标间水平角值
6.限差
*半测回归零差
*上、下半测回同一方向的方向值之差
*各测回的方向差
根据不同精度的仪器有不同的规定
8. 【目标检测算法解读】yolo系列算法二
https://blog.csdn.net/Gentleman_Qin/article/details/84349144
|声明:遵循CC 4.0 BY-SA版权协议
建立在YOLOv1的基础上,经过Joseph Redmon等的改进,YOLOv2和YOLO9000算法在2017年CVPR上被提出,并获得最佳论文提名,重点解决YOLOv1召回率和定位精度方面的误差。在提出时,YOLOv2在多种监测数据集中都要快过其他检测系统,并可以在速度与精确度上进行权衡。
YOLOv2采用Darknet-19作为特征提取网络,增加了批量标准化(Batch Normalization)的预处理,并使用224×224和448×448两阶段训练ImageNet,得到预训练模型后fine-tuning。
相比于YOLOv1是利用FC层直接预测Bounding Box的坐标,YOLOv2借鉴了FSR-CNN的思想,引入Anchor机制,利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板,在卷积层使用Anchor Boxes操作,增加Region Proposal的预测,同时采用较强约束的定位方法,大大提高算法召回率。同时结合图像细粒度特征,将浅层特征与深层特征相连,有助于对小尺寸目标的检测。
下图所示是YOLOv2采取的各项改进带了的检测性能上的提升:
YOLO9000 的主要检测网络也是YOLO v2,同时使用WordTree来混合来自不同的资源的训练数据,并使用联合优化技术同时在ImageNet和COCO数据集上进行训练,目的是利用数量较大的分类数据集来帮助训练检测模型,因此,YOLO 9000的网络结构允许实时地检测超过9000种物体分类,进一步缩小了检测数据集与分类数据集之间的大小代沟。
下面将具体分析YOLOv2的各个创新点:
BN概述:
对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。BN正是基于这个假设的实践,对每一层输入的数据进行加工。
BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的,同时也将BN应用到了2014年的GoogLeNet上,也就是Inception-v2。
BN层简单讲就是对网络的每一层的输入都做了归一化,这样网络就不需要每层都去学数据的分布,收敛会更快。YOLOv1算法(采用的是GoogleNet网络提取特征)是没有BN层的,而在YOLOv2中作者为每个卷积层都添加了BN层。
使用BN对网络进行优化,让网络提高了收敛性,同时还消除了对其他形式的正则化(regularization)的依赖,因此使用BN后可以从模型中去掉Dropout,而不会产生过拟合。
BN优点:
神经网络每层输入的分布总是发生变化,加入BN,通过标准化上层输出,均衡输入数据分布,加快训练速度,因此可以设置较大的学习率(Learning Rate)和衰减(Decay);
通过标准化输入,降低激活函数(Activation Function)在特定输入区间达到饱和状态的概率,避免梯度弥散(Gradient Vanishing)问题;
输入标准化对应样本正则化,BN在一定程度上可以替代 Dropout解决过拟合问题。
BN算法:
在卷积或池化之后,激活函数之前,对每个数据输出进行标准化,方式如下图所示:
公式很简单,前三行是 Batch内数据归一化(假设一个Batch中有每个数据),同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β,此二者的取值算法可以参考BN论文,在此不再赘述。
fine-tuning:用已经训练好的模型,加上自己的数据集,来训练新的模型。即使用别人的模型的前几层,来提取浅层特征,而非完全重新训练模型,从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升,但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。
YOLO模型分为两部分,分类模型和检测模型,前者使用在ImageNet上预训练好的模型,后者在检测数据集上fine-tuning。
YOLOv1在预训练时采用的是224*224的输入(在ImageNet数据集上进行),然后在检测的时候采用448*448的输入,这会导致从分类模型切换到检测模型的时候,模型还要适应图像分辨率的改变。
YOLOv2则将预训练分成两步:先用224*224的输入在ImageNet数据集训练分类网络,大概160个epoch(将所有训练数据循环跑160次)后将输入调整到448*448,再训练10个epoch(这两步都是在ImageNet数据集上操作)。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型,在检测时用448*448的图像作为输入可以顺利检测。
YOLOv1将输入图像分成7*7的网格,每个网格预测2个Bounding Box,因此一共有98个Box,同时YOLOv1包含有全连接层,从而能直接预测Bounding Boxes的坐标值,但也导致丢失较多的空间信息,定位不准。
YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉,使得最后的卷积层可以有更高分辨率的特征,然后缩减网络,用416*416大小的输入代替原来的448*448,使得网络输出的特征图有奇数大小的宽和高,进而使得每个特征图在划分单元格(Cell)的时候只有一个中心单元格(Center Cell)。
为什么希望只有一个中心单元格呢?由于图片中的物体都倾向于出现在图片的中心位置,特别是比较大的物体,所以有一个单元格单独位于物体中心的位置用于预测这些物体。
YOLOv2通过引入Anchor Boxes,通过预测Anchor Box的偏移值与置信度,而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片,所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式,每个Cell可预测出9个Anchor Box,共13*13*9=1521个(YOLOv2确定Anchor Boxes的方法见是维度聚类,每个Cell选择5个Anchor Box)。
在FSRCNN中,以一个51*39大小的特征图为例,其可以看做一个尺度为51*39的图像,对于该图像的每一个位置,考虑9个可能的候选窗口:3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心,以及9种Anchor Box示例。
YOLOv1和YOLOv2特征图数据结构:
YOLOv1:S*S* (B*5 + C) => 7*7(2*5+20)
其中B对应Box数量,5对应边界框的定位信息(w,y,w,h)和边界框置信度(Confidience)。分辨率是7*7,每个Cell预测2个Box,这2个Box共用1套条件类别概率(1*20)。
YOLOv2:S*S*K* (5 + C) => 13*13*9(5+20)
分辨率提升至13*13,对小目标适应性更好,借鉴了FSRCNN的思想,每个Cell对应K个Anchor box(YOLOv2中K=5),每个Anchor box对应1组条件类别概率(1*20)。
聚类:聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下,根据数据相似度进行样本分组。
在FSR-CNN中Anchor Box的大小和比例是按经验设定的,然后网络会在训练过程中调整Anchor Box的尺寸,最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes,那么网络就更容易学到准确的预测位置。
YOLOv2使用K-means聚类方法类训练Bounding Boxes,可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数,意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误,聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数,即提高IOU值,这应与Box大小无关,因此YOLOv2采用IOU值为评判标准,即K-means 采用的距离函数(度量标准) 为:
d(box,centroid) = 1 - IOU(box,centroid)
如下图,左边是聚类的簇个数和IOU的关系,两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后,YOLOv2选择K=5,即选择了5种大小的Box 维度来进行定位预测。
其中紫色和灰色也是分别表示两个不同的数据集,可以看出其基本形状是类似的。更重要的是,可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显着——结果中扁长的框较少,而瘦高的框更多(更符合行人的特征)。
YOLOv2采用的5种Anchor的Avg IOU是61,而采用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9,也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候,AVG IOU更有显着提高。说明K-means方法的生成的boxes更具有代表性。
直接对Bounding Boxes求回归会导致模型不稳定,其中心点可能会出现在图像任何位置,有可能导致回归过程震荡,甚至无法收敛,尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标(x,y)位置的时候。
YOLOv2的网络在特征图(13*13)的每一个单元格中预测出5个Bounding Boxes(对应5个Anchor Boxes),每个Bounding Box预测出5个值(tx,ty,tw,th,t0),其中前4个是坐标偏移值,t0是置信度结果(类似YOLOv1中的边界框置信度Confidence)。YOLOv2借鉴了如下的预测方式,即当Anchor Box的中心坐标和宽高分别是(xa,ya)和(wa,wh)时,Bounding Box坐标的预测偏移值(tx,ty,tw,th)与其坐标宽高(x,y,w,h)的关系如下:
tx = (x-xa)/wa
ty= (y-ya)/ha
tw = log(w/wa)
th = log(h/ha)
基于这种思想,YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法:
上图中,黑色虚线框是Anchor Box,蓝色矩形框就是预测的Bounding Box结果,预测出的Bounding Box的坐标和宽高为(bx,by)和(bw,bh),计算方式如图中所示,其中:对每个Bounding Box预测出5个值(tx,ty,tw,th,t0),Cell与图像左上角的横纵坐标距离为(cx,cy),σ定义为sigmoid激活函数(将函数值约束到[0,1]),该Cell对应的Anchor Box对应的宽高为(pw,ph)。
简而言之,(bx,by)就是(cx,cy)这个Cell附近的Anchor Box针对预测值(tx,ty)得到的Bounding Box的坐标预测结果,同时可以发现这种方式对于较远距离的Bounding Box预测值(tx,ty)能够得到很大的限制。
YOLOv2通过添加一个转移层,把高分辨率的浅层特征连接到低分辨率的深层特征(把特征堆积在不同Channel中)而后进行融合和检测。具体操作是先获取前层的26*26的特征图,将其同最后输出的13*13的特征图进行连接,而后输入检测器进行检测(检测器的FC层起到了全局特征融合的作用),以此来提高对小目标的检测能力。
为了适应不同尺度下的检测任务,YOLOv2在训练网络时,其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲,每训练10个Batch,网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样,因此也采用32的倍数作为输入的size,即采用{320,352,…,608}的输入尺寸(网络会自动改变尺寸,并继续训练的过程)。
这一策略让网络在不同的输入尺寸上都能达到较好的预测效果,使同一网络能在不同分辨率上进行检测。输入图片较大时,检测速度较慢,输入图片较小时,检测速度较快,总体上提高了准确率,因此多尺度训练算是在准确率和速度上达到一个平衡。
上表反映的是在检测时,不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型,在测试的时候,输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。
YOLOv1采用的训练网络是GoogleNet,YOLOv2采用了新的分类网络Darknet-19作为基础网络,它使用了较多的3*3卷积核,并把1*1的卷积核置于3*3的卷积核之间,用来压缩特征,同时在每一次池化操作后把通道(Channels)数翻倍(借鉴VGG网络)。
YOLOv1采用的GooleNet包含24个卷积层和2个全连接层,而Darknet-19包含19个卷积层和5个最大池化层(Max Pooling Layers),后面添加Average Pooling层(代替v1中FC层),而Softmax分类器作为激活被用在网络最后一层,用来进行分类和归一化。
在ImageNet数据集上进行预训练,主要分两步(采用随机梯度下降法):
输入图像大小是224*224,初始学习率(Learning Rate)为0.1,训练160个epoch,权值衰减(Weight Decay)为0.0005,动量(Momentum)为0.9,同时在训练时采用标准的数据增强(Data Augmentation)方式如随机裁剪、旋转以及色度、亮度的调整。
fine-tuning:第1步结束后,改用448*448输入(高分辨率模型),学习率改为0.001,训练10个epoch,其他参数不变。结果表明:fine-tuning后的top-1准确率为76.5%,top-5准确率为93.3%,若按照原来的训练方式,Darknet-19的top-1准确率是72.9%,top-5准确率为91.2%。可以看出,两步分别从网络结构和训练方式方面入手提高了网络分类准确率。
预训练之后,开始基于检测的数据集再进行fine-tuning。
首先,先把最后一个卷积层去掉,然后添加3个3*3的卷积层,每个卷积层有1024个卷积核,并且后面都连接一个1*1的卷积层,卷积核个数(特征维度)根据需要检测的类数量决定。(比如对VOC数据,每个Cell需要预测5个Boungding Box,每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值,所以每个单元格对应125个数据,此时卷积核个数应该取125。)
然后,将最后一个3*3*512的卷积层和倒数第2个卷积层相连(提取细粒度特征),最后在检测数据集上fine-tuning预训练模型160个epoch,学习率采用0.001,并且在第60和90个epoch的时候将学习率除以10,权值衰减、动量和数据增强方法与预训练相同。
YOLO9000通过结合分类和检测数据集,使得训练得到的模型可以检测约9000类物体,利用带标注的分类数据集量比较大的特点,解决了带标注的检测数据集量比较少的问题。具体方法是:一方面采用WordTree融合数据集,另一方面联合训练分类数据集和检测数据集。
分类数据集和检测数据集存在较大差别:检测数据集只有粗粒度的标记信息,如“猫”、“狗”,而分类数据集的标签信息则更细粒度,更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练,那么就要用一种一致性的方法融合这些标签信息。
用于分类的方法,常用Softmax(比如v2),Softmax意味着分类的类别之间要互相独立的,而ImageNet和COCO这两种数据集之间的分类信息不相互独立(ImageNet对应分类有9000种,而COCO仅提供80种目标检测),所以使用一种多标签模型来混合数据集,即假定一张图片可以有多个标签,并且不要求标签之间独立,而后进行Softmax分类。
由于ImageNet的类别是从WordNet选取的,作者采用以下策略重建了一个树形结构(称为WordTree):
遍历ImageNet的标签,然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径;
如果路径只有一条,将该路径直接加入到WordTree结构中;
否则,从可选路径中选择一条最短路径,加入到WordTree结构中。
WordTree的作用就在于将两种数据集按照层级进行结合。
如此,在WordTree的某个节点上就可以计算该节点的一些条件概率值,比如在terrier这个节点,可以得到如下条件概率值:
进而,如果要预测此节点的概率(即图片中目标是Norfolk terrier的概率),可以根据WordTree将该节点到根节点的条件概率依次相乘得到,如下式:
其中:
YOLO9000在WordTree1k(用有1000类别的ImageNet1k创建)上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点(中间词汇),把标签由1000扩展到1369。
训练过程中GroundTruth标签要顺着向根节点的路径传播:为了计算条件概率,模型预测了一个包含1369个元素的向量,而且基于所有“同义词集”计算Softmax,其中“同义词集”是同一概念下的所属词。
现在一张图片是多标记的,标记之间不需要相互独立。在训练过程中,如果有一个图片的标签是“Norfolk terrier”,那么这个图片还会获得“狗”以及“哺乳动物”等标签。
如上图所示,之前的ImageNet分类是使用一个大Softmax进行分类,而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型,最后在ImageNet数据集上的top-1准确率为72.9%,top-5准确率为91.2%;在WordTree数据集上的top-1准确率为71.9%,top-5准确率为90.4%。
这种方法的好处是有“退而求其次”的余地:在对未知或者新的物体进行分类时,性能损失更低,比如看到一个狗的照片,但不知道是哪种种类的狗,那么就预测其为“狗”。
以上是构造WordTree的原理,下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图(用颜色区分了COCO数据集和ImageNet数据集的标签节点), 混合后的数据集对应的WordTree有9418个类。另一方面,由于ImageNet数据集太大,YOLO9000为了平衡两个数据集之间的数据量,通过过采样(Oversampling)COCO数据集中的数据,使COCO数据集与ImageNet数据集之间的数据量比例达到1:4。
对YOLO9000进行评估,发现其mAP比DPM高,而且YOLO有更多先进的特征,YOLO9000是用部分监督的方式在不同训练集上进行训练,同时还能检测9000个物体类别,并保证实时运行。虽然YOLO9000对动物的识别性能很好,但是对衣服或者装备的识别性能不是很好(这跟数据集的数据组成有关)。
YOLO9000的网络结构和YOLOv2类似,区别是每个单元格只采用3个Anchor Boxes。
YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制,即使用检测数据集(COCO)的图片去学习检测相关的信息即查找对象(例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率),使用仅有类别标签的分类数据集(ImageNet)中的图片去扩展检测到的对象的可识别种类。
具体方法是:当网络遇到一个来自检测数据集的图片与标记信息,就把这些数据用完整的损失函数(v2和9000均沿用了v1网络的损失函数)反向传播,而当网络遇到一个来自分类数据集的图片和分类标记信息,只用代表分类误差部分的损失函数反向传播这个图片。
YOLO v2 在大尺寸图片上能够实现高精度,在小尺寸图片上运行更快,可以说在速度和精度上达到了平衡,具体性能表现如下所示。
coco数据集
voc2012数据集
9. OPT机器视觉光源的机器视觉光源分类
OPT机器视觉光源共有25大系列
1、 环形光源(OPT-RI系列)
特点:环形光源提供不同角度照射,能突出物体的三维信息,有效解决对角照射阴影问题。高密度LED阵列,高亮度;多种紧凑设计,节省安装空间;可选配漫射板导光,光线均匀扩散。
应用:PCB基板检测;IC元件检测;显微镜照明;液晶校正;塑胶容器检测;集成电路印字检测;通用外观检测。
2、 条形光源(OPT-LI系列)
特点:条形光源是较大方形结构被测物的首选光源;颜色可根据需求搭配,自由组合;照射角度与安装随意可调。
应用:金属、玻璃等表面检查;表面裂缝检测;LCD面板检测;线阵相机照明;图像扫描。
3、 高均匀条形光源(OPT-LIT系列)
特点:高密度贴片LED,高亮度,高散射漫射板,均匀性好;良好的散热设计确保产品稳定性和寿命;安装简单、角度随意可调;尺寸设计灵活;颜色多样可选,可定制多色混合、多类型排布非标产品。
应用:电子元件识别与检测;服装纺织;印刷品质量检测;家用电器外壳检测;圆柱体表面缺陷检测;食品包装检测;灯箱照明;替代荧光灯。
4、 条形组合光源(OPT-LIM系列)
特点:四边配置条形光,每边照明独立可控;可根据被测物要求调整所需照明角度,适用性广。
应用:PCB基板检测,IC元件检测;显微镜照明,包装条码照明;二次元影像测量。
5、 同轴光源(OPT-CO系列)
特点:高密度排列LED,亮度大幅提高;独特的散热结构,延长寿命,提高稳定性;高级镀膜分光镜,减少光损失;成像清晰,亮度均匀。
应用:此系列光源最适宜用于反射度极高的物体,如金属、玻璃、胶片、晶片等表面的划伤检测;芯片和硅晶片的破损检测,Mark点定位;包装条码识别。
6、 底部背光源(OPT-FL系列)
特点:用高密度LED阵列面提供高强度背光照明,能突出物体的外形轮廓特征,尤其适合作为显微镜的载物台;红白两用背光源、红蓝多用背光源,能调配出不同的颜色,满足不同被测物多色要求。
应用:机械零件尺寸的测量;电子元件、IC的引脚、端子连接器检测;胶片污点检测;透明物体划痕检测等。
7、 侧部背光源(OPT-FLC系列)
特点:多次散射发光,局部和整体均匀性都很好;尺寸定制灵活,可以做到较大面积;超薄设计,最薄产品可做到6mm。
应用:大面积电路板电子器件检测与识别;透视尺寸测量;LCD坏点检测。
8、 平行背光源(OPT-FP系列)
特点:采用精确光路设计,出射光接近理想平行光,整体结构紧凑。
应用:可以作为背光源用于高精度尺寸测量,也可配合同轴光学系统,用于检测光滑平整表面的细小划伤、碰伤等缺陷。
9、 线形光源(OPT-LS系列)
特点:超高亮度;采用柱面透镜聚光;适用于各种流水连续检测场合。
应用:线阵相机照明专用;AOI检测;镀膜、玻璃表面破损、内部杂质检则。
10、 线形同轴光源(OPT-LSC系列)
特点:大功率LED,高亮度,保证高度检测的需要;独特分光镜结构,减少光损失;适用于各种流水线连续检测场合。
应用:线阵相机照明专用;薄膜、玻璃表面破损、内部杂质检测;高速印刷质量检测。
11、 点光源(OPT-PI系列)
特点:大功率LED,体积小,发光强度高; 光纤卤素灯的替代品,尤其适合作为镜头的同轴光源等;高效散热装置,大大提高光源的使用寿命。
应用:配合远心镜头使用;用于芯片检测,Mark点定位;晶片及液晶玻璃底基校正。
12、 球积分光源(OPT-RID系列)
特点:具有球积分效果的半球面内壁,均匀反射从底部360度发射出的光线,使整个图象的照度十分均匀;红、白、蓝、绿、黄等多种颜色可选;可调制出任何颜色。
应用:适合于曲面,表面凹凸不平的工件检测;适合于表面反光较强的物体表面检测;包装检测;适用于外形相同颜色不同的工件。
13、 平面无影光源(OPT-FC系列)
特点:散射发光,均匀性良好;同时具备无影光和同轴光效果;轻巧、紧凑、便于安装、节省空间。
应用:食品、烟草、日化用品包装检测;电器外壳、零件检测与测量;高反光、不平整表面字符、图形检测、测量与识别等。
14、 无影照射RIH系列(OPT-RIH系列)
特点:实现了四有无影照射效果,不同的工作距离能形成不同的光照环境,可以针对不同的检测类型使用。
应用:主要应用于表面碰伤、划伤等缺陷,印刷字符、标志、条码、指纹、图文识别等,大多针对幅面较大的矩形目标和幅面较小的不规则目标使用,也可替代普通环形光实现更高均匀性有。
15、 无影照射RIF系列(OPT-RIF系列)
特点:实现了圆形无影照射效果,不同的工作高度能形成不同的光0照环境,可以针对不同的检测类型使用。
应用:主要应用于表面碰伤、划伤等缺陷,印刷字符、标志、条码、指纹、图文识别等,大多针对幅面较大的圆形目标和幅面较小的不规则目标使用,也可替代普通环形光实现更高均匀性照明。
16、 无影照射RIE系列(OPT-RIE系列)
特点:采用设计独特的漫射板,将光线经过反射和散射形成双向、高均匀的圆对称光场,可以将物体表面细微差异造成的干扰过滤掉,凸显坡度急剧变化特征。
应用:主要应用于金属器件边缘定位、尺寸测量、碰伤检测等,也可替代普通环形光实现更高均匀性照明。
17、 无影照射RIW系列(OPT-RIW系列)
特点:采用设计独特的漫射板,将光线经过多次反射,形成多方向、高度均匀的圆对称光场,可以将物体表面不同坡面都照射均匀。
应用:主要应用于电子配件维修、回收返修、器件安装定位、表面字符图案识别和尺寸检测等,也可替代普通环形光实现更高均匀性照明。
18、 无影照射RIU系列(OPT-RIU系列)
特点:采用特制漫射板将光散射到不同方向,形成渐变球状分布,使得整个球面目标不同坡度的反光强度都比较一致,过滤局部反光干扰。
应用:主要应用于电子器件、玻璃制品、冲压金属件、注塑塑料件等反光表面的字符、图案检测与识别等,也可替代普通环形光实现更高均匀性照明。
19、 平行集光光源(OPT-PL系列)
特点:采用大功率LED结合独特散热结构,确保光源有足够的亮度,整体上利用透镜将通过散射板的光线汇聚起来形成均匀的光束,光线方向性好,接近平行光,可以保持在比较远的距离,光线都比较集中,可以作为背光或远距离打光的光源。
应用:远距离集束光源,实现不同距离下的聚光照明。
20、 对位专用光源(OPT-VA系列)
特点:对位精度高;体积小,集成度高;摄像机接口可选;放大倍数可选。
应用:上下两工件对准专用,如全自动印刷机、COG等。
21、 AOI专用光源(OPT-RIA系列)
特点:RIA系列光源专用于电路板焊锡检测;不同角度三色照明,凸显焊锡三维信息,层次清晰;漫射板导光,光线均匀,减少反光;红、蓝、绿、三色搭配,其它多种颜色可选。
应用:AOI专用光源。
22、 大功率系列光源
特点:原材料为超大功率LED,高密度排布,亮度超过一般光源三倍以上;散热设计好,发光稳定,寿命长;设计制作灵活,形态多样;尺寸和发光方向可根据客户要求定制。
应用:远距离照明;高速流水线照明;大面积照明。
23、 光纤点光源(OPT-QG15)
特点:采用德国原装大功率LED灯芯,寿命约为卤素光源的20倍;亮度控制采用恒流控制方式;一体化
机箱,内置100-240VAC电源;功耗为25W,亮度相当于150W卤素光。
应用:原使用卤素灯+光纤的应用都可以直接替代;医疗照明;半导体设备;电子器件设备;显微镜操作;一般工业照明。
24、 红外光源
特点:真空波长:850nm,940nm
应用:医学(血管网识别、眼球定位);包装(可以透过塑料包装);服装、纺织;制药;电子、半导体;LCD、OLED。
25、 紫外光源
特点:真空波长:365nm,385nm
应用:验钞;荧光特质检测;荧光字符、条码、二维码识别;玻璃微小缺陷检测;光化学效应(只能用于抽检);产品外壳微小划伤、碰伤等缺陷检测。
10. 认识圆形小班教案
活动目标
1、认识圆形,了解圆形的外形特征。
2、培养幼儿对认知图形的数学活动的兴趣。
3、能从许多实物和周围环境中找到与圆形相似的实物。
活动准备
1、各种圆形的实物(如圆形镜子、圆盘、圆饼干等)。
2、课件:各种各样的形状[2-54]
教学具图片
活动过程
一、导入
情境导入:“小朋友们,今天有些图形宝宝到我们班来,我们一起去看一看好吗?
带领幼儿参观由于圆形物品组成的圆圆商店,说说这些物品的面是什么形状的?
小结:这些物品的面都是圆形的。那么究竟什么样子的图形是圆形呢?
二、展开
1、幼儿每人一张阿圆形卡片,引导幼儿观察探索圆形的外形特征。
幼儿每人一个圆形卡片,请幼儿沿着圆形边缘摸一摸,
问:你有什么感觉?请幼儿摸一摸圆形的面,问:有什么感觉?
感知圆形边缘是光滑的,圆形的面是平的,初步感知圆形的外形特征。
小结:圆形的面是平平的,周围很圆滑,没有棱角,这样的图形就是圆形。
2、观察拓展,找找身边的圆形
请小朋友找一找身边的圆形:我们教室里有什么东西是圆形的?
你还在那里见过圆形的物体呢?
3、课件观察,感知生活中的圆形
师:请小朋友看一看,这些物品中哪些是圆形的?
4、游戏“送图形宝宝回家”
方法:幼儿人手一个三角形、一个圆形卡片,老师准备两个图形妈妈的卡片,
引导幼儿自己观察后将手中的图形送回家,并说:“我把xx图形送回家”。
最后,老师带领幼儿进行检查验证。
三、结束部分
小朋友们今天你们和圆形宝宝玩的开心吗?我们一起到教室外面找找看,还有那些东西也是圆形的好吗?
(教师带领幼儿去寻找圆形的物体,活动结束。)
活动目标:
1、让幼儿感知图形圆形。
2、创设愉悦的游戏情节,运用多种感观来调动幼儿思维,想象能力,发展幼儿观察能力,激发幼儿探索的欲望。
活动准备:
小圆片、多媒体课件。
活动过程:
一、导入
师:老师今天带了一个好朋友,你们想见见他吗?我们把它请出来。
它是什么样子的?
圆溜溜,很光滑。它有一个好听的名字叫做圆形。
请跟我一起说一说,圆形。
二、新授
1、师:小朋友们,请你们也从盒子中拿出一个圆形,摸一摸,它是什么样子的。
它是光滑的,圆圆的。请大家把圆形放回盒子里。
小朋友们,我们来找一找,教室里有没有圆形的东西?
2、师:老师也找到许多我们生活中圆形的东西,让我们一起来看一看吧!(出示PPT)
依次出示:球、硬币、盘子、钟、泡泡、车轮、纽扣、饼干、巧克力豆。
三、游戏
组合图形,利用圆形,拼出孩子喜欢的图案。
设计意图:
小班幼儿在认知过程中,容易受外界事物和情绪的支配。无意记忆占优势,常常在无意中记住一些事物。游戏、操作是幼儿最喜爱的活动形式,如果单纯让幼儿认识圆形,幼儿会感到很枯燥,兴趣往往不高,而且效果也会不好。因此,在设计这个教学活动时,让幼儿在游戏操作中了解一些常见的圆形物品与特点,从而激发幼儿对周围事物观察探究的兴趣,发展幼儿的感知、观察和想象能力。
活动目标:
1、在认知、操作和游戏活动中掌握圆形的特征。
2、在周围环境中寻找圆形物体,感知圆形在生活中的应用。
3、培养幼儿的观察力和想象力。
4、愿意大胆尝试,并与同伴分享自己的心得。
5、激发幼儿对科学活动的兴趣。
活动准备:
1、活动室布置一些圆形的物品。
2、圆形纸一张,圆形物品若干(如镜子、瓶盖、铃鼓、盘子)。
3、幻灯片,每桌一只箱子,箱子里有各种不同的圆形物品,操作纸若干、彩笔人手一份。
活动过程:
一、创设情境,认识圆形物品。
师:(用神秘的口气加眼神)今天老师给小朋友带来一箱子的玩具,请你们每人拿一件在桌上玩一下,说说它是什么?
幼:我拿的镜子,
幼:我拿的铃鼓,
幼:我拿的盘子……
师:你发现了什么?这些物品有什么相同的地方?
幼:他们都是圆圆的。(引出圆形这一话题。)
师:(出示一张圆形的纸)提问:它像什么?
幼:它像盘子,
幼:它像太阳,
二、感知圆形的特征
师:请小朋友自选圆形物品,沿着物品的表面和边缘触摸,互相交流一下自己的感受。
幼:平平的,
幼:圆圆的,
幼:边缘是光滑的,
幼:没有棱角……(幼儿交流,充分表达自己的观点)
师:说一说,你还见过哪些东西也是圆形的?(鼓励幼儿说出在家里或者在其他地方见到的圆形物品)
幼:碗、盆,球、掉灯……
三、观察幻灯片《杂技表演》
师:说一说,画面上有谁?他们在干什么?
幼 :奇奇、乐乐、欢欢、小熊。
幼:他们在玩杂技。
师:想一想,圆圈能翻跟头,为什么方圈不能呢?
幼:方圈不光,它有角翻不过去。(引导幼儿说)
师:看一看,独轮车的轮子是什么形状的?还有哪些东西也是圆形的?
幼:圆形的,(幼儿一起说)
幼:还有球,呼啦圈,滚圈,盘子
四、做圆形标记
发给每个幼儿一张白纸(四周打好圆形的小孔),指导幼儿沿小孔撕成圆形,然后请幼儿在圆形纸上画出自己喜欢的东西或作一个标记,做完后把它贴到自己的物品上作为标志。
五、寻找圆形物品
引导幼儿寻找活动室里的圆形物品,要求幼儿用语言表达出来如“我发现: 是圆形的.”。并把他们有规律的摆放到数学活动区。
活动延伸:
为幼儿准备一些画有圆形的纸,启发孩子在圆形上面添加几笔后变成另一个图案(如太阳,苹果),鼓励他画的越多越好。
教学反思:
1、通过本节课的活动,幼儿能够从众多物体中区分出圆形,能够通过观察,寻找到生活中的圆形物体。
2、本节课,我上的还是比较成功的,达到了预期的教学目的,这次活动我遵循了幼儿的年龄特征,以幼儿的兴趣为前提,通过幼儿喜欢的泡泡来引出了今天的活动主题 ——认识圆圆世界,幼儿能够根据老师的引导参与其中,并一步一步的认识圆形。不足的是,我觉得我的语言还不够儿童化,有些话语稍显生硬,幼儿听不太明白,导致整节课的活动进程有点不流畅,我以后一定要多听其他老师课,综合他们的教学语言,最终形成我自己独特的教学语言。
3、如果让我重新上这堂课,我将利用课件来展示各种圆形,设计吹泡泡的游戏让更多的幼儿参与其中,因为在我看来,通过课件展示的泡泡更加生动,更加能够吸引住幼儿的眼球,设计吹泡泡的游戏,更加能够调动幼儿的参与兴趣。
一、活动准备:
1、将各色色纸剪成大大小小的圆,贴在磁铁黑板上。剪刀、糨糊、圆形贴纸、画纸、磁铁、彩色等。
2、幼儿数学用书。
二、活动过程
(一)以讲《爱画画的波波的故事》的形式引起兴趣
随着故事情节让幼儿猜猜波波画的是什么?“小猪波波画了好多大大小小的圆,哥哥姐姐看了好久,不知道波波的圆圈是什么,就问波波:“你画的圆圈是什么呀?”波波说:“这个圆圈里有两只手,一只长,一只短,从早到晚绕着转。”哥哥说:“啊,我知道了,是时钟”,姐姐说:“那这个是什么?”波波说:“它下面还有一条长长的线,要抓好,才不会跑掉”。姐姐说:“喔,是气球”哥哥姐姐终于知道波波画什么了。波波又画了许多圆圈,连肚脐眼的圆都有呢?妈妈说:“ 波波真是个很棒的画家”。
(二)运用操作法让幼儿拼图
幼儿也当波波,用圆形色纸拼拼贴贴,看可以拼贴出什么造型。完成后请幼儿欣赏作品,鼓励幼儿说一说自己用圆形拼贴出了什么。
(三)带领幼儿打开《我的数学》第一页,启发幼儿观察画面内容,让幼儿给圆形涂上自己喜欢的颜色,再说说图中还有哪些东西是圆的。
(四)引导幼儿观察周围环境,想一想、说一说,生活中还有哪些东西是圆的。
三、活动目标:
1、认识圆形,运用圆形创作造型。
2、发展幼儿想象力及操作能力。
活动目标
1、愿意参与活动,对数学活动感兴趣。
2、认识圆形,初步掌握圆形的特征。
3、能在生活中找出各种圆形的物品。
活动准备
环境准备:教师提前在班级内的各个角落放置一些圆形的物品。
课件准备:“圆形专卖店”情景图片;“各种形状”组图;“去进货”组图;游戏背景音乐。
纸面教具:《圆形专卖店》。
材料准备:马克笔。
活动过程
一,出示图片引导幼儿初步感知圆形
——小老鼠皮皮新开了一家专卖店,里面卖的物品很特别,我们一起去瞧瞧吧!
——皮皮的专卖店里都有哪些物品?
二,帮助幼儿认识圆形掌握圆形的特征
——这个圆圆的图形就叫做圆形。
——圆形和其他形状相比,有什么特别的地方?
三,发放纸面教具巩固幼儿对圆形的认识
1、发放纸面教具,引导幼儿寻找正确的小汽车。
2、引导幼儿在纸面教具上连一连。
3、教师操作课件,验证幼儿的答案。
四,播放游戏音乐玩游戏寻找圆形的物品
——恭喜小朋友们顺利地帮助皮皮完成了进货任务,现在请小朋友在班级内找一找,哪些物品是圆形的?
活动目标:
1、通过分享活动,感受圆形的物体,理解圆形的主要特征。
2、丰富幼儿对图形的认识。
3、能在生活中找出各种圆形物体
4、通过各种感官训练培养幼儿对计算的兴致及思维的准确性、敏捷性。
5、能与同伴合作,并尝试记录结果。
活动准备:
图形饼干,有圆形特征的小猪图片活动过程:
1、通过吃饼干游戏,激发幼儿的兴趣。
师:小朋友,瞧,这是什么?(饼干)
师:这些饼干是什么样子的呢?我们一起来品尝这些饼干吧。
师:饼干好不好吃,饼干长什么样子。
2、观看图片,了解圆形
师:老师除了带来圆圆的好吃的饼干,还给你们带来了一个小动物朋友呢。看看是谁?(出示图片)师:我们来仔细认识这个朋友。看看,①他的头是什么形状的?(圆形的)②他身上还有那些地方是圆形的?
3、师幼讨论圆形特点师:圆形是什么样子的呢?
4、寻找生活中的圆形师:生活中还有很多东西是圆形的。我们教室里也有,找一找?!你还见过那些圆形东西呢?说一说
教学反思:
在执教的过程中缺少激情,数学本身就是枯燥的,那在教孩子新知识的时候,就需要老师以自己的激情带动孩子的学习,在今后的教学中这方面也要注意。
活动设计背景
小班的幼儿略微有了粗浅的几何概念,这一阶段的幼儿通过老师引导能正确的认识圆形,三角形和正方形。但他们不是从这些形状的特征来认识而是将其和日常生活中熟悉的物体相对照。因此,我让幼儿在游戏中探索中对图形产生兴趣,并通过观察,比较,想象动手等形式感知图形的不同特征。
活动目标
1、通过对比让幼儿感知图形的基本特征,创设愉悦的游戏情节。
2、运用多种感官来调动幼儿的思维想象能力的观察力,激发幼儿的探索能力。
3、引导幼儿积极与材料互动,体验数学活动的乐趣。
4、引发幼儿学习图形的兴趣。
5、发展幼儿逻辑思维能力。
教学重点、难点
圆形三角形和方形的认识和区别
活动准备
小动物的图片,几何图形组成的图画和三种几何图形卡片若干。
活动过程
1、小朋友老师今天带你们拼拼图,你们愿不愿意图?随后,我会出示用这三种图片组成的各种图片展示给幼儿,激发幼儿的兴趣。我会和幼儿一起继续通过想象摆出各种图形。
2、提问;这么多好看的图形你们知道它们使用什么图形组成的吗?
3、幼儿回答完我会根据小朋友的回答用儿歌的形式把三种图形的特点 和名称说给小朋友们听。
用游戏的形式让幼儿认识三种图形。
1、游戏;摸一摸。用摸得形式让小朋友体会这三种图形的不同之处,并说出图形的名称。
2、游戏;谁的本领大。出示由图形拼成的各种图案让小朋友找出是由什么图形组成的。
3、游戏;小动物找家。出示小动物图片,我会告诉小朋友它们哭了,原因是找不到自己的家了,请小朋友帮帮它找找它们的家。例如;我会扮演小动物说说自己的房子是什么形状的,请小朋友来帮忙。
4、游戏;找图形宝宝。在教室地板上摆放三个图形宝宝,我喊口令小朋友找图形站好看谁找的快又好。
结束。今天我们玩得很开心,小朋友们能告诉老师你们都认识了什么图形,它们都有什么特点?你们回家观察一下,你家里什么东西是由我们今天认识的图形组成的,明天来了告诉老师。
放排排队的歌,带小朋友去卫生间。
教学反思
当我进行实际教学过程时,我从孩子们身上看到了这样的现象:
1、幼儿对各种图形非常感兴趣,幼儿对身边的事物有着敏锐的观察力,有渴望了解图形宝宝的欲望
2、 在活动中,幼儿的情绪很活跃,能把自己发现的主动地告诉老师和周边的小伙伴,使幼儿的表达能力、反应能力和观察能力都得到了发展。
我还从孩子们的操作中,在这次活动中孩子乐于参与,积极发现。 孩子们兴致浓厚,也愿意主动去探索,主动去参与。我觉得我原来的设计可以这样的调整:幼儿自我操作时间不足,没有创设幼儿合作交流的机会,语言还要精炼等,在以后组织活动的过程中我应加以改进,为幼儿传递良好的语感,培养幼儿善于表达的能力。