- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据自动增值方案
机器学习的核心问题最小化泛化误差:衡量一个模型预测未知数据的能力
机器学习的核心问题机器学习的理论基础M泛化误差假设空间大小数据量
是否数据越多越好关于数据量的2个基本问题1.Wide2.DeepPurchasingpower除掉Noisedata,outlier/biaseddataWealwaysneedmoredataOtherwise,itrequiresbetterapproaches
数据量的大致估计关于数据量的2个基本问题10EPVrule:10eventsperpredictorvariable1.数据量的大致估计:Eg1:图片2分类任务特征提取1024维度,则约需要1024×10×2张图片Eg2:NMTQE任务的训练数据量估计:Source:SeveralflavorsoftheLinuxkernelexistforeachportMT:每个OK端口OK都有OKLinux内核OKOK的几种味道OKOKBADOK每个词的contextpresentation:1024假设:每个词的正负分类均衡,上下文窗口3~10需要60K~200K训练样本(i.e.(1024×10×2×3)~(1024×10×2×10))
数据的增值空间生数据?标注数据节约Labeling10%-50%据?Labeling:指示出最值得标注的生数据待标数据标注数据?Enhancement:对标注数据进行增强,提标注平台升模型泛化性以及测试集上表现?提升模型性能低资源5%-15%高资源1%-5%?Denoise:对标注数据或者增强数据进行EnhancementDenoise去噪,提升模型训练效果去噪数据增强数据?数据划分:和测试集分布更接近的训练?提升模型性能?提升和线上测试的一致性数据划分数据训练数据
数据增强为什么会有好处数据自动增值方案?Neuralnetworksareuniversalfunctionapproximators-veryeasytooverfit?Tomakemodelsinvarianttoarbitrarytransformsbeyondtheonesbuiltintothearchitecture?观察多张输入图片的不同层featuremap,发现模型从2-5layer都可以学到复杂的不变性?数据增强的目的,不是增加数量,而是让他更多样化数据增强等效于方差的正则化,可以使分类器更健壮
线上增强Or线下增强?数据增强Neuralnetworktrainingisnon-convexoptimizationNon-ConvexDoDoNot
数据自动增值方案自动数据增强?现阶段数据增强存在的问题:不同模型需要不同的增强手段,每个模型手动研发增强策略,费时费力,且增强策略迁移性没有挖掘?LED的解决方案:构建、积累统一的增强库,通过有哪些信誉好的足球投注网站策略自动获取特定模型适用的增强手段增强库+有哪些信誉好的足球投注网站策略输出增强策略?有哪些信誉好的足球投注网站空间构造:[增强方法,概率,强度]?Typo?EDA?适应增强有哪些信誉好的足球投注网站的算法:?TF-IDF?TreeEDA?Back-translation?CBERT?Denoise?……PB2PBABananaFastAARL前向有哪些信誉好的足球投注网站…9
NLP增强库增强方法应用TextTextLabelPairTextLabelTreeAugSeq2SeqSeqLabel输出层LabelindependentLabeldependentCharAugWordAugSentenceAugCVAELAMBADA数据增强层Main,Delete,Add,BackTranslationSwappositionSynonyVAECBERTGPT2HypernymmHomophonicTypoSwap,EDAParaphraseNoiseBARTEDATF-IDFLM………………Otherknowledgebase资源依赖层WordDict(antonym、synonym、hypernym)Pre-trainLMmodelNLPParserNLP增强库项目结构(led-textaug)【目前已涵盖19种方案】10
智慧城市是利用先进的信息技术和数据分析手段,对城市进行全方位、多角度地信息化、智能化改造,以提高城市管理、服务和生活质量的现代化城市。其中,智慧城市的基础是由各种传感器和设备组成的物联网,以及其所产生的大数据。具体来说,智慧城市的基础建设包括以下几个方面:1.物联网基础设施:构建
动点策划通过提供各行各业经典策划案例,策划思路,行业必威体育精装版动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。
文档评论(0)