A. 机器学习中用来防止过拟合的方法有哪些
防止过拟合的方法:
1,从模型&数据角度。
获取更多数据,你的模型可以存储很多很多的信息,这意味着你输入模型的训练数据越多,模型就越不可能发生过拟合。原因是随着你添加更多数据,模型会无法过拟合所有的数据样本,被迫产生泛化以取得进步。
收集更多的数据样本应该是所有数据科学任务的第一步,数据越多会让模型的准确率更高,这样也就能降低发生过拟合的概率。
2,数据增强&噪声数据。
收集更多的数据会比较耗时耗力。如果没有时间和精力做这个,应该尝试让你的数据看起来更多元化一些。利用数据增强的方法可以做到这一点,这样模型每次处理样本的时候,都会以不同于前一次的角度看待样本。这就提高了模型从每个样本中学习参数的难度。
3,简化模型
即时你现在手中获取了所有需要的数据,如果你的模型仍然过拟合训练数据集,可能是因为模型过于强大。那么你可以试着降低模型的复杂程度。
4,从训练过程角度。
大部分情况下,模型会首先学习数据的正确分布,然后在某个时间点上开始对数据过拟合。通过识别模型是从哪些地方开始发生转变的,那么就可以在过拟合出现之前停止模型的学习过程。和前面一样,通过查看随着时间推移的训练错误,就可以做到这一点。
5,从正则化角度。
正则化是指约束模型的学习以减少过拟合的过程。它可以有多种形式,下面我们看看部分形式。L1和L2正则化 正则化的一个最强大最知名的特性就是能向损失函数增加“惩罚项”(penalty)。
所谓‘惩罚’是指对损失函数中的某些参数做一些限制。最常见的惩罚项是L1和L2:L1惩罚项的目的是将权重的绝对值最小化,L2惩罚项的目的是将权重的平方值最小化。
B. 数据分析能力不强,应该通过什么方法加强
数据分析一般不需要编程能力,但是要有编程的逻辑思维能力:
1、要开发数据分析软件以及程序,让岗位人直观看明白的话可以采用编程方式开发出来,这个就要编程能力。
2、懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
3、懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
4、懂分析。指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
5、懂工具。指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
6、懂设计。懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。
参考链接:http://ke..com/link?url=b8z_U8-QuI49JAGq#3
C. 浅析如何提高统计数据质量
统计数据是经济社会发展的晴雨表,统计数据质量是统计工作的生命。统计数据质量从使用的要求上看,取决于准确性、及时性和完整性。准确性是统计数据质量在统计信息客观真实性方面的体现,是统计数据使用者的首要要求。及时性是统计数据质量在统计信息的时间价值上的体现,是对统计数据形成和提供的高速度、快节奏、强效率的要求。完整性是统计数据在统计信息的内容含量上的体现,就是要求统计部门提供的统计数据在内容上应该包括使用者所需的所有项目,不能残缺不全。随着我国社会主义市场经济体系的建立和完善,经济领域呈现经济利益多元化、经济格局多样化、经济统计现化化的趋势,统计工作面临的困难和挑战越来越大。县(市、区)统计工作如何适应新形势的要求,发挥统计在经济社会发展中的作用,确保统计数据可信可靠。笔者认为要抓好以下几方面的工作: 一、优化统计环境强化统计生态 统计生态是指统计组织赖以生存和发展的各种外部政治、体制、经济、法律、社会、文化环境因素在相互联系和动态演化中形成的有机整体。在恶劣的统计生态环境下,不可能有准确的统计数据,也不可能树立统计的公信力。我们需要一个共建、共有、共保、共享的统计生态链,这是一项系统工程,需要社会各方共同努力。 第一要完善《统计法》。加强统计法制建设,提高法律的可操作性,加大执法力度,市场经济就是法制经济,我们一定要做到有法必依、执法必严、违法必究,保障统计生态环境的健康发展。统计机构必须是依照法律独立设置的,并且统计机构在行政上应保持其独立的地位。要健全统计法制建设,依法统计,尤其要严格执法。强有力的法律实施机制将使得违法成本极高,从而真正杜绝虚报、瞒报、伪造、篡改统计资料,阻挠统计执法检查等统计违法行为的发生。三是要加大普法力度,广泛宣传《统计法》,增强社会各界的统计法制观念,只有这样才能依法统计,保证统计工作的顺利进行和统计数据的客观真实性。大力加强统计法制建设,提高依法行政水平。要与人大、政协、监察局、法制、司法等部门联合开展执法大检查,对违法案件进行处罚和曝光,增强各级领导和广大统计员的统计法律意识,统计数据质量得到较大提高。 第二进一步完善各级统计部门机关管理制度。用制度管人管事,奖优罚劣,精神和物质鼓励相结合;强力推进学习型统计局建设,深入开展“三个代表”、“保持共产党员先进性学教活动”和机关作风建设,在统计系统上下形成讲政治、讲大局、讲团结、比学习、比作风、比进步的良好风尚;加强领导班子决策能力建设,按照“三强五好”的要求切实加强领导班子建设和党风廉政建设;狠抓统计职业道德教育,忠诚统计、爱岗敬业、恪尽职守、无私奉献,争创一流工作业绩。五是抓办公条件的改善,为干部职工营造良好的工作环境。配备电脑,使办公条件大为改善,工作效率显着提高。 第三进一步理顺统计管理体制,增强统计系统凝聚力。更好地体现整体性特点,发挥统计整体功能。为此,必须坚持行政管理与业务管理一致的原则,一方面在统计机构和制度上,提高独立性和抗干扰能力,另一方面要建立约束机制,减少各方面的干预。这是科学管理的工作要求决定的,这样有利于贯彻责权利的统一。 第四进一步增强县(市)级统计局的力量。按照统计工作的流程对各级各类统计机构设置合理的内部机构进行系统优化。把统计局建设成为符合未来形势发展要求的,灵敏、快速、高效、精干的调查机构,提高效率,并使之适合网络时代的特点。各县(市)可按照普查制度规定成立适应普查任务要求的普查机构,专司各项普查工作。 第五切实树立统计大系统的观念. 各级统计部门的领导要多为基层着想,为基层办实事、解难事。在开展普查时,要贯彻受益者出钱的原则,按照受益大小分担经费,使基层统计局的领导从为上级要经费的尴尬局面中解脱出来。上级统计部门要切实为基层统计干部在待遇上排忧解难。一是争取提高统计人员待遇上的有关政策,二是对经济贫困县(市)统计部门实行经济扶贫,增加经济投入,解决统计人员经济待遇差的问题,确保统计干部队伍稳定。 第六改革完善考核评价体系。现行的考核评价体系很大程度是以统计数据为主要考核依据。考核是对一个地方经济社会发展的评价,也是领导政绩的体现。考核作为指挥棒,具有很强的引导性。近年来,各级各类的工作考核,在某种程度上发挥了一定的作用,但也存在不少问题:一是互相攀比,二是数据失真,三是围绕考核想尽“办法”拿名次。如果这些问题不能很好地解决,就会造成“聪明人”得益、老实人吃亏,从而挫伤大部人的积极性。因此,要逐步淡化考核工作或建立一种科学合理、客观公正的考核体系,以引导各级领导树立正确的政绩观,使统计数据不受包括政府在内的各方干扰,推进各项工作的顺利开展。 二、改善统计方法 提高统计质量 提供高质量统计数据是统计工作的中心任务和根本职责,是统计事业改革和建设的出发点和归宿点,亦是新时期和新形势对统计工作的基本要求。1、树立新的统计数据质量观理念。提高统计数据质量是统计工作的一个永恒的主题。但是在不同时期对统计数据质量有不同的标准,明确新时期统计数据质量的涵义和概念,树立全新的统计数据质量理念,是指导我们做好工作的前提和基础。因此,对数据质量评估判断标准的思维须从狭义转向广义,要从过去的只重视搜集生产转为生产和营销并重的观念。要从过去单纯注重提高数据准确性和及时性,扩展到提高数据的时效性、科学性多维的质量内涵,要从过去工作重点是收集上报搞准统计数据的工作思维中解脱出来,既要抓数据的准确性, 又要做好解读统计数据, 开发统计分析研究成果。逐渐把满足用户需求的程度作为评价数据质量的标准。以新理念来确立新思路,制定新措施,开拓新局面。2、改革统计制度及方法。当前统计制度存在着调查方法单一、对全面报表的依赖仍然过多、指标体系不尽合理、任务繁重以及完成任务的条件脱节等问题,要解决这些问题就必须加快统计制度及调查方法的改革。首先,必须明确应收集哪些资料,官方统计机构的职能除了将这些数据收集、整理及出版外,还要对这些数据进行进一步的统计分析,或将数据分析工作交给社会研究机构,这些都必须以一定的制度形式予以规定。其次,建立一套更加完善的国民经济核算体系及适应经济增长方式转变的统计指标体系,并且保证经确定的统计指标体系的全国统一和相对稳定,对指标的含义、统计口径、计算方法都必须做出说明和界定范围,同一指标不能有两种口径和随意变更,这些也都必须以制度形式予以规定。一方面,这样可以保证数据在时间上的可比性,使它能更好地反映现象发展的数量特征;另一方面,有利于使用者根据指标的说明和按研究的需要对数据进行调整和分析,增强数据的适用性。此外应建立从实际出发的科学适用的统计调查方法体系,适当减少全面统计报表,推广抽样调查,注重效益、节省成本,提高时效,减少被调查者的负担。3、建立完整规范的统计数据质量控制体系和统计数据质量监控评估中心。统计数据质量的监控与评估是一项复杂的、长期的系统工程,可在政府统计部门内建立权威的数据质量监控和评估中心,建立健全完善的统计数据产品质量管理体系,对统计数据生产全过程实行全面质量管理,提高统计数据的完整性和透明度。最近国家统计部门建立了自我检查和评估制度,对国内生产总值、工业增加值、价格指数、社会消费品零售总额等主要的统计指标数据质量实行定期评估,它对于减少统计数据的误差,提高统计数据的质量有着积极的作用。实际上,统计数据的监控与评估可以采用自我评估、监督评估与定性评估、定量评估相结合的方法。4、加强统计基础建设工作,提高统计人员素质。统计基础工作是整个统计工作的基石,要提高统计数据质量就必须加强基层统计组织的建设。一是狠抓基层统计机构的设立,统计人员的配备工作;二是加强对基层统计基础工作的业务指导和统计人员的业务培训,统计人员业务素质不断提高;三是抓基层基础规范化建设工作,针对部分乡镇统计力量薄弱,工作条件差,有些部门统计、行业统计工作削弱、人员精减、统计人员兼数职、统计台帐、原始记录不全的状况,必须采取多种有力措施,强化统计基础工作;软硬并举,统计信息化工作再上新台阶,争取领导重视,充实统计信息化的硬件设施;统计信息化水平得到提升,使乡镇单位实现了联网直报。 一方面,要加大资金投入,解决经费问题和改善基层统计组织的工作条件,提高先进统计设施在基层统计部门中的普及率和应用率。可以考虑建立部分数据的有偿使用机制,帮助筹措更多的资金来更好地收集数据,以维持统计基层部门工作的正常进行 �帮助统计机构建立激励机制,以奖励那些对数据的搜集做出突出贡献的人员。另一方面,要着手培养和提高基层工作人员的素质,采取定期培训或考核的 办法不断提高基层工作人员的业务素质,使他们熟练掌握统计新知识、新方法,特别是现代统计调查、统计整理、统计分析技能和计算机应用技术,并做到培训教育经常化、制度化、规范化,不断提高统计人员的业务水平。同时,加强统计职业道德建设,树立行业职业道德的优秀典型,弘扬务实求真、忠于职守的精神。
D. 图像增强的常用方法有哪些
图像增强可分成两大类:频率域法和空间域法。
前者把图像看成一种二维信号,对其进行基于二维傅里叶变换的信号增强。采用低通滤波(即只让低频信号通过)法,可去掉图中的噪声;采用高通滤波法,则可增强边缘等高频信号,使模糊的图片变得清晰。
后者空间域法中具有代表性的算法有局部求平均值法和中值滤波(取局部邻域中的中间像素值)法等,它们可用于去除或减弱噪声。
方法
图像增强的方法是通过一定手段对原图像附加一些信息或变换数据,有选择地突出图像中感兴趣的特征或者抑制(掩盖)图像中某些不需要的特征,使图像与视觉响应特性相匹配。
在图像增强过程中,不分析图像降质的原因,处理后的图像不一定逼近原始图像。图像增强技术根据增强处理过程所在的空间不同,可分为基于空域的算法和基于频域的算法两大类。
灰度变换主要针对独立的像素点进行处理,由输入像素点的灰度值决定相应的输出像素点的灰度值,通过改变原始图像数据所占的灰度范围而使图像在视觉上得到改善。
1.1 线性灰度增强
线性灰度增强,将图像中所有点的灰度按照线性灰度变换函数进行变换。在曝光不足或过度的情况下,图像的灰度可能局限在一个很小的灰度范围内,这时图像可能会很模糊不清。利用一个线性单值函数对图像内的每一个像素做线性拓展,将会有效地改善图像的视觉效果。
E. 怎样把手机4G数据信号加强
信号增强步骤(以SM-9009W为例)
升级前:建议连接至一个有效的WLAN(WIFI);如果没有WIFI而需要使用数据连接下载,数据流量费按本地流量标准资费收费。
第一步:下载升级包。以三星 SM-G9009W为例,进入设定界面->点击关于设备>点击系统更新>点击立即更新;之后手机会先注册,注册成功后停留在此界面,再点击一次立即更新,升级包开始下载,直至下载完成。
第二步:安装升级包。点击安装后等待10秒左右手机将重启,并进入升级状态,升级完成后手机自动重启,再次进入拨号盘查看手机软件版本(拨号盘输入*#0000#),确认升级后的手机软件版本。升级后的手机软件版本如下:
SM-G9009W(S5)所对应的手机版本为KEU1ANH7;
SM-N7509V(Note3 Lite)对应的手机版本为KEUANH4;
SM-G3589W(Core Lite)对应的手机版本为KEU1ANH2。
第三步:启动信号增强功能。进入拨号盘,输入*#147235981#,输入命令后等待3-4秒,手机重启即可完成操作。对手机成功进行信号增强之后,可以更流畅使用电信4G网络。
F. 机器学习中用来防止过拟合的方法有哪些
根据独立同分布假设,更多的数据往往对样本空间的整体分布估计更准确,不过实际应用中由于种种原因,并不一定总能获得足够的数据,例如成本问题。通俗得讲,数据机扩增即需要得到更多的符合要求的数据,即和已有的数据是独立同分布的,或者近似独立同分布的。一般有以下方法:从数据源头采集更多数据;复制原有数据并加上随机噪声;重采样;根据当前数据集估计数据分布参数,使用该分布产生更多数据等。正则化是假设模型的参数服从先验概率,即为模型参数添加先验,不同的正则化方式的先验分布不一样(L1正则是拉普拉斯先验,而L2正则则是高斯先验)。规定了参数的分布,降低了模型的复杂度,增强对噪声和异常点的抗干扰能力。
G. 我用MATLAB对图像进行了增强处理,因为用了几种方法,我想比较一下这些方法哪一个好些。
如果不同方法之间性能差别比较大,通常可以直观地观察出哪个更好,不少时候这也是进行处理希望达到的效果。如果是灰度图,使用均值只说明亮度的差别,难以用于比较增强效果(虽然通过灰度变换的确可以增强图像,但是效果通常可以直接观察出来)。从数据的角度,使用灰度直方图有一定帮助(参见《数字图像处理》“直方图均化”部分)。另外还得看增强算法的目的,如果是为了降噪,那么使用各种算法各自对不同的噪声类型进行处理,然后比较所得结果,更能说明算法的针对性及性能特点。 关于专门的描述,建议参考冈萨雷斯的《数字图像处理》,绿色十六开,对于灰度变换,轮廓图区,滤波等增强技术常见的技术都有详尽的描述和比较。
H. 产品经理提高自身的数据分析能力的方法有哪些
这种东西还是要自己平时多关注,努力从各种维度去看数据,当然首先自己要先学会处理数据,因为如果你都不知道数据是怎么一步一步做出来的,又怎么能够分析的透彻呢?
其实最主要的是,你需要把公司的盈利当做自己的事情来做,只要一心想提高销售,就可以想出无数办法,分析出无数个点。保证自己每天打开的电脑的第一件事就是看昨天的销售和今天的库存。
先提升自己处理数据的能力吧,平时多关注销售和一些竞品信息,祝你成功!
I. 数据增强的方法有哪些
1 什么是数据增强?
数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。
比如上图,第1列是原图,后面3列是对第1列作一些随机的裁剪、旋转操作得来。
每张图对于网络来说都是不同的输入,加上原图就将数据扩充到原来的10倍。假如我们输入网络的图片的分辨率大小是256×256,若采用随机裁剪成224×224的方式,那么一张图最多可以产生32×32张不同的图,数据量扩充将近1000倍。虽然许多的图相似度太高,实际的效果并不等价,但仅仅是这样简单的一个操作,效果已经非凡了。
如果再辅助其他的数据增强方法,将获得更好的多样性,这就是数据增强的本质。
数据增强可以分为,有监督的数据增强和无监督的数据增强方法。其中有监督的数据增强又可以分为单样本数据增强和多样本数据增强方法,无监督的数据增强分为生成新的数据和学习增强策略两个方向。
2 有监督的数据增强
有监督数据增强,即采用预设的数据变换规则,在已有数据的基础上进行数据的扩增,包含单样本数据增强和多样本数据增强,其中单样本又包括几何操作类,颜色变换类。
2.1. 单样本数据增强
所谓单样本数据增强,即增强一个样本的时候,全部围绕着该样本本身进行操作,包括几何变换类,颜色变换类等。
(1) 几何变换类
几何变换类即对图像进行几何变换,包括翻转,旋转,裁剪,变形,缩放等各类操作,下面展示其中的若干个操作。
水平翻转和垂直翻转
随机旋转
随机裁剪
变形缩放
翻转操作和旋转操作,对于那些对方向不敏感的任务,比如图像分类,都是很常见的操作,在caffe等框架中翻转对应的就是mirror操作。
翻转和旋转不改变图像的大小,而裁剪会改变图像的大小。通常在训练的时候会采用随机裁剪的方法,在测试的时候选择裁剪中间部分或者不裁剪。值得注意的是,在一些竞赛中进行模型测试时,一般都是裁剪输入的多个版本然后将结果进行融合,对预测的改进效果非常明显。
以上操作都不会产生失真,而缩放变形则是失真的。
很多的时候,网络的训练输入大小是固定的,但是数据集中的图像却大小不一,此时就可以选择上面的裁剪成固定大小输入或者缩放到网络的输入大小的方案,后者就会产生失真,通常效果比前者差。
(2) 颜色变换类
上面的几何变换类操作,没有改变图像本身的内容,它可能是选择了图像的一部分或者对像素进行了重分布。如果要改变图像本身的内容,就属于颜色变换类的数据增强了,常见的包括噪声、模糊、颜色变换、擦除、填充等等。
基于噪声的数据增强就是在原来的图片的基础上,随机叠加一些噪声,最常见的做法就是高斯噪声。更复杂一点的就是在面积大小可选定、位置随机的矩形区域上丢弃像素产生黑色矩形块,从而产生一些彩色噪声,以Coarse Dropout方法为代表,甚至还可以对图片上随机选取一块区域并擦除图像信息。
添加Coarse Dropout噪声
颜色变换的另一个重要变换是颜色扰动,就是在某一个颜色空间通过增加或减少某些颜色分量,或者更改颜色通道的顺序。
颜色扰动
还有一些颜色变换,本文就不再详述。
几何变换类,颜色变换类的数据增强方法细致数还有非常多,推荐给大家一个git项目:
https://github.com/aleju/imgaug
预览一下它能完成的数据增强操作吧。
2.2. 多样本数据增强
不同于单样本数据增强,多样本数据增强方法利用多个样本来产生新的样本,下面介绍几种方法。
(1) SMOTE[1]
SMOTE即Synthetic Minority Over-sampling Technique方法,它是通过人工合成新样本来处理样本不平衡问题,从而提升分类器性能。
类不平衡现象是很常见的,它指的是数据集中各类别数量不近似相等。如果样本类别之间相差很大,会影响分类器的分类效果。假设小样本数据数量极少,如仅占总体的1%,则即使小样本被错误地全部识别为大样本,在经验风险最小化策略下的分类器识别准确率仍能达到99%,但由于没有学习到小样本的特征,实际分类效果就会很差。
SMOTE方法是基于插值的方法,它可以为小样本类合成新的样本,主要流程为:
第一步,定义好特征空间,将每个样本对应到特征空间中的某一点,根据样本不平衡比例确定好一个采样倍率N;
第二步,对每一个小样本类样本(x,y),按欧氏距离找出K个最近邻样本,从中随机选取一个样本点,假设选择的近邻点为(xn,yn)。在特征空间中样本点与最近邻样本点的连线段上随机选取一点作为新样本点,满足以下公式:
第三步,重复以上的步骤,直到大、小样本数量平衡。
该方法的示意图如下。
在python中,SMOTE算法已经封装到了imbalanced-learn库中,如下图为算法实现的数据增强的实例,左图为原始数据特征空间图,右图为SMOTE算法处理后的特征空间图。
(2) SamplePairing[2]
SamplePairing方法的原理非常简单,从训练集中随机抽取两张图片分别经过基础数据增强操作(如随机翻转等)处理后经像素以取平均值的形式叠加合成一个新的样本,标签为原样本标签中的一种。这两张图片甚至不限制为同一类别,这种方法对于医学图像比较有效。
经SamplePairing处理后可使训练集的规模从N扩增到N×N。实验结果表明,因SamplePairing数据增强操作可能引入不同标签的训练样本,导致在各数据集上使用SamplePairing训练的误差明显增加,而在验证集上误差则有较大幅度降低。
尽管SamplePairing思路简单,性能上提升效果可观,符合奥卡姆剃刀原理,但遗憾的是可解释性不强。
(3) mixup[3]
mixup是Facebook人工智能研究院和MIT在“Beyond Empirical Risk Minimization”中提出的基于邻域风险最小化原则的数据增强方法,它使用线性插值得到新样本数据。
令(xn,yn)是插值生成的新数据,(xi,yi)和(xj,yj)是训练集随机选取的两个数据,则数据生成方式如下
λ的取值范围介于0到1。提出mixup方法的作者们做了丰富的实验,实验结果表明可以改进深度学习模型在ImageNet数据集、CIFAR数据集、语音数据集和表格数据集中的泛化误差,降低模型对已损坏标签的记忆,增强模型对对抗样本的鲁棒性和训练生成对抗网络的稳定性。
SMOTE,SamplePairing,mixup三者思路上有相同之处,都是试图将离散样本点连续化来拟合真实样本分布,不过所增加的样本点在特征空间中仍位于已知小样本点所围成的区域内。如果能够在给定范围之外适当插值,也许能实现更好的数据增强效果。
3 无监督的数据增强
无监督的数据增强方法包括两类:
(1) 通过模型学习数据的分布,随机生成与训练数据集分布一致的图片,代表方法GAN[4]。
(2) 通过模型,学习出适合当前任务的数据增强方法,代表方法AutoAugment[5]。
3.1 GAN
关于GAN(generative adversarial networks),我们已经说的太多了。它包含两个网络,一个是生成网络,一个是对抗网络,基本原理如下:
(1) G是一个生成图片的网络,它接收随机的噪声z,通过噪声生成图片,记做G(z) 。
(2) D是一个判别网络,判别一张图片是不是“真实的”,即是真实的图片,还是由G生成的图片。
GAN的以假乱真能力就不多说了。
2 Autoaugmentation[5]
AutoAugment是Google提出的自动选择最优数据增强方案的研究,这是无监督数据增强的重要研究方向。它的基本思路是使用增强学习从数据本身寻找最佳图像变换策略,对于不同的任务学习不同的增强方法,流程如下:
(1) 准备16个常用的数据增强操作。
(2) 从16个中选择5个操作,随机产生使用该操作的概率和相应的幅度,将其称为一个sub-policy,一共产生5个sub-polices。
(3) 对训练过程中每一个batch的图片,随机采用5个sub-polices操作中的一种。
(4) 通过模型在验证集上的泛化能力来反馈,使用的优化方法是增强学习方法。
(5) 经过80~100个epoch后网络开始学习到有效的sub-policies。
(6) 之后串接这5个sub-policies,然后再进行最后的训练。
总的来说,就是学习已有数据增强的组合策略,对于门牌数字识别等任务,研究表明剪切和平移等几何变换能够获得最佳效果。