多数据源隐私保护数据清洗与联合学习研究 .pdfVIP

多数据源隐私保护数据清洗与联合学习研究 .pdf

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

摘要

如今,机器学习技术已经在多个领域得到了广泛的应用,为人们的生活带来了

相当的便利。机器学习模型训练的关键之一在于数据集的规模与质量,通过扩大数

据集规模,覆盖更完整的训练样本,可以直观的提升机器学习模型的性能。由于在

如今的大数据环境中,许多数据已经掌握在了不同拥有者的手中,因此跨数据集的

机器学习模型训练成为了目前的发展趋势。跨数据集训练涉及多个数据源,需要融

合多方数据才能准确进行的数据清洗和模型训练算法成为多方联合共建机器学习模

型中的关键问题,但是融合数据集带来的数据隐私安全问题也不可忽视。

安全多方计算技术作为密码学中一种以多方参与为背景的安全密码算法,十分

适合用于上述场景中,安全多方计算技术能够在保证参与方隐私的前提下,对参与

方协议的函数进行计算,包括秘密共享和混淆电路等技术,能够完成加减乘除与比

较等基本运算。本文使用安全多方计算技术,结合机器学习模型构建不同阶段的技

术,设计了一种隐私保护的联合多数据源数据清洗与模型训练算法。

首先,本文针对多数据源联合进行数据集清洗的问题,设计了一种隐私保护的

清洗算法,对AVF数据清洗算法做出改进,将秘密共享技术及Yao加密电路结合以

实现同时完成密文算术与比较计算,并创新使用排序电路降低密文排序的算法复杂

度,主要解决了多个数据源的数据联合清洗时可能出现的数据隐私泄露问题,经过

最终在公共数据集和人工调整的数据集上的仿真结果证明本文算法的可行性和有效

性。

针对数据清洗完成后的多方联合模型训练问题,本文设计了一种隐私保护的模

型训练算法,各参与方在本地使用统一模型训练,使用秘密共享技术对关键参数进

行加密,并实现了第三方对多个参与方的加密参数添加噪声,中心式的参数处理使

提高了最终各方模型的准确率,及添加噪声的统一和可控性,且使最终训练模型对

模型反演攻击有充分的鲁棒性。通过在MNIST数据集上进行的仿真实验说明了本方

案在选取不同规模差分隐私噪声时的表现,并证明了本文算法的有效性。

关键词:安全多方计算,差分隐私,联合训练,深度学习,排序网络

I

西安电子科技大学硕士学位论文

II

ABSTRACT

ABSTRACT

Today,machinelearningtechnologyhasbeenwidelyusedinmanyfields,bringingconsid-

erableconveniencetopeople’slives.Oneofthekeystomachinelearningmodeltraining

isthesizeandqualityofthedataset.Byexpandingthedatasetsizeandcoveringmore

completetrainingsamples,theperformanceofthemachinelearningmodelcanbeimproved

intuitively.Sincemanyofthedataintoday’sbigdataenvironmentarealreadyinthehands

ofdifferentowners,thetrainingofmachinelearningmodelsacrossdatasetshasbecome

thecurrenttrend.Cross-datasettraininginvolvesmultipledatasources.Datacleaningand

modeltrainingalgorithmsthatneedtobecombinedwithmulti-partydatacanbeakeyissue

inmulti-partyjointconstructionofmachinelearningmodels,butdataprivacyissuescaused

byconvergeddatasetscannotbeignored.

Asasecuritycryptographicalgorithmbase

文档评论(0)

187****2787 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档