- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
训练过程5.3
5.3.1数据集准备5.3训练过程构建深度学习网络的第一个步骤是准备数据集。数据集需要包含图像本身和与图像对应的标签信息,每个种类的图像数据应当是均匀的,如每个类别的图像数目相同。本章实验以花卉数据集为例,所用数据集包含5种类别的花卉,分别是雏菊(daisies)、蒲公英(dandelions)、玫瑰(roses)、向日葵(sunflowers)和郁金香(tulips),如图5-8所示,并按照图5-9所示的文件格式存放数据集。小知识深度学习在图像分类、目标检测、语义分割等任务中取得了显著成果。
5.3训练过程
数据集存放完毕后,第二步是划分数据集,在实际应用中,一般只将数据集分成训练集(trainingset)和测试集(testingset)两类。网络模型使用训练集中的图像数据来“学习”每个类别的外观特征,且当预测错误时网络模型可做出纠正。网络模型完成训练后,应在测试集上评估性能。训练集和测试集中的数据是互相独立且互不重叠的,这是极其重要的一点。如果测试集中的数据出现在训练集中,就会导致测试准确率虚假提高,因为该数据在训练集时已经成功学习到所属类别,这样做就失去了测试的意义。常见的训练集和测试集划分为2∶1、3∶1、9∶1,如图5-10所示。5.3训练过程
5.3训练过程
但是也可以将数据集分成训练集、验证集和测试集三类。验证集(validationset)的主要作用是调整模型训练过程中的参数,因为神经网络中有一些控制参数(如学习率、衰减因子、正则化因子等)需要调整以达到网络最佳性能,这些参数称为超参数(hyperparameters),合理地设定这些参数是极其重要的。验证集通常来自训练集且用作“假测试”数据,用于调整超参数。在使用验证集确定超参数值之后,才会在测试集上获得最终的精确度结果。通常分配训练集中总数据的10%~20%充当验证集,但是两者也有一定的区别,验证集是模型训练过程中留出的样本集,它可以用于调整模型的超参数并评估模型的能力。但测试集不同,虽然同是模型训练过程中留出的样本集,但测试集用于评估最终模型的性能,帮助对比多个最终模型并做出选择。5.3训练过程
本数据集的图像包含雏菊633张,蒲公英898张,玫瑰641张,向日葵699张,郁金香799张,数据集共计3670张图像。本章实验使用比例为9∶1进行训练集和验证集的划分,训练集中共计3306张,验证集中共计364张。对于测试集中的图像,本章可以选择花卉图像随机测试的方式,也可以从收集的数据集中提前划分出来部分图像进行测试。5.3训练过程
该数据集划分分为以下三个步骤。5.3训练过程第一步:导入需要的第三方软件包。在代码中使用了random、os、shutil等软件包。接下来,定义一个mk_file()函数,用来判断文件夹是否已经存在。如果文件夹已经存在,则先删除原文件夹再重新创建文件夹。这样做的目的是保证文件夹中数据的准确性。总地来说,这个函数的作用是确保在指定的路径下创建一个新的空目录。123
5.3训练过程
第二步:在main()函数中,首先通过random.seed(0)设置种子数,使得随机数据可预测。然后,定义一个split_rate变量,用来指定验证集所占的比例,这里设置为0.1,即数据集中10%的数据划分到验证集中。接下来,进行文件路径的操作。这段代码的作用是为花卉分类任务准备数据集。它首先定义了数据集根目录data_root,并在其中创建了一个名为origin_flower_path的文件夹。该文件夹包含不同种类的花卉图片,每个种类的花卉图片存储在其单独的子文件夹中。代码将这些子文件夹的名称存储在flower_class列表中。接下来,代码创建了两个新的文件夹,用于存储训练数据和验证数据,分别为train_root和val_root。然后,对于每个类别,代码将在train_root和val_root中创建一个子文件夹,以存储该类别的训练图像和验证图像。最后,代码使用随机数生成器将每个类别的花卉图像分成训练集和验证集,并将它们复制到相应的文件夹中。5.3训练过程
5.3训练过程
5.3训练过程
第三步:进行数据集的划分。该代码段用于将数据集按照一定比例随机分配到训练集和验证集两个目录中。首先通过os模块获取原始数据集路径,然后对数据集中的每个类别(文件夹)循环,对于每个类别,获取其中所有的图片,并计算出需要分配到验证集的图片数量。接着对于每个类别的每张图片,根据随机抽样结果将其分配到训练集或验证集中相应类别的目录下,最后输出处理完成的信息。5.3训练过程
5.3训练过程
5.3.2图像数据预处理深度学习分类模型的准确度很大程度上依赖于模型训练过程中训练数据的数量,在图像数据有限的情况下,
您可能关注的文档
- 计算机视觉应用--人体姿态估计.pptx
- 计算机视觉应用--软件安装及环境配置.pptx
- 计算机视觉应用--深度估计.pptx
- 计算机视觉应用--神经网络模型搭建与参数优化.pptx
- 计算机视觉应用--使用Matplotlib处理图像.pptx
- 计算机视觉应用--使用PIL处理图像.pptx
- 计算机视觉应用--使用SciPy处理图像.pptx
- 计算机视觉应用--图像分割.ptx.pptx
- 计算机视觉应用--图像分类.pptx
- 计算机视觉应用--图像增强.pptx
- 建银国际证券-港股熊牛切换走向深化:新质生产力助力打开港股长期上升空间.pdf
- 国金证券-创业板50择时跟踪:2月进一步提升创业板50看涨比例.pdf
- 信用|关注存单和城投下沉的机会.pdf
- 政策半月观:三大方向进一步受重视.pdf
- 固定收益专题报告:建筑行业信用风险及投资价值全梳理.pdf
- AI行业跟踪报告第58期:华勤技术,AI云、端全线卡位,全面受益于AI落地.pdf
- 高频选股因子:大单因子表现继续反弹,AI增强组合持续回撤.pdf
- 投资策略研究*专题报告:科技引领“中国资产”价值重估进度加快.pdf
- 电子行业:高阶智驾加速普及,催动硬件快速放量.pdf
- 浙商证券-北汽蓝谷-600733-北汽蓝谷深度报告:联袂小马打造无人出租,携手华为进军全民智驾.pdf
文档评论(0)