基于半监督学习的物联网用户识别模型分析与研究.docx

基于半监督学习的物联网用户识别模型分析与研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? 基于半监督学习的物联网用户识别模型分析与研究 ? ? 孙静 冯锋 摘 要:随着物联网技术在多个领域的大规模应用,终端用户数量呈快速上升趋势。在享受通信便利的同时,也有个别用户利用物联网特性生成大量虚假用户,不利于行业的健康发展。针对以上现象,文中采用半监督学习的方法,通过研究相关样本数据的特征,建立用户识别模型,对异常用户行为做出及时判断,帮助相关部门、人员采取相应的措施,避免产生较大的损失,节省了大量人力物力,具有广泛的应用前景。 关键词:物联网;用户识别;半监督学习;识别模型;朴素贝叶斯分类;随机森林 :TP391:A:2095-1302(2020)11-0-03 0 引 言 伴随着LoRa、NB-IoT、5G等物联网通信技术的发展,我国物联网终端用户猛增。在日益增加的用户数量中,若出现大量恶意的虚假用户,则会影响物联网平台正常的工作运行。这些虚假用户占用了大量资源,使物联网平台无法充分利用,既影响用户的自身利益,也不利于物联网行业的健康发展。 仅凭人力识别、用户举报等传统方法监督用户行为,具有一定的局限性和缺陷,监督及识别效果并不理想。本文对于物联网用户识别模型进行研究,针对不同的识别方法及分类器进行分析,帮助相关人员尽早发现用户的异常行为,及时采取措施,避免造成更大损失。 1 物联网平台概述 物联网的工作流程为传感器收集数据,通过网络连接向云端发送数据,进行数据处理,筛选有用的数据后再向终端用户传递有用信息[1-2]。物联网平台主要分为服务管理器和控制中心两部分,物联网平台组成如图1所示。 物联网卡和5G技术在未来的物联网行业拥有绝对的优势。现阶段物联网卡具有资费便宜、无实名制等特点,依托物联网应用于智能服务领域,如智能家居、智能穿戴、智慧安防等[3]。在物联网平台上,用户群体被分为不同的身份与类型,为不同的用户提供不同的平台数据视图、权限等。 2 识别模型概述 用户识别实质上是根据用户的特征数据对其进行分类的过程,将异常数据与正常数据拆分开来。用户数据中既有少量的已确定虚假用户的信息,也有占大部分的正常用户。基于以上特征,本文建立了基于未标记样本以及正样本的半监督学习模型[4-5],用于识别物联网用户的类型。 解决这类问题主要有两种方法。第一种方法是直接在正样本中进行训练,训练出的分类器可以判别测试数据是否属于训练样本类别。但实际情况是,现实数据远比实验复杂,且模型只会输出“是”或“不是”两种结果,容易出现被认定为“不是”的样本并不属于正样本相对的另一类,出现误判的情况。 第二种方法是将其分为两步,将分类与预测分开。第一步是根据已标注的样本,在大量未标注样本中通过训练找出可靠的负样本集;第二步是通过迭代训练得到一个分类器进行用户识别工作。识别模型工作流程如图2所示。 3 用户数据处理 在处理关于用户的原始数据时,首先进行数据核查,通过计算数据的均值、期望值、中位数、方差等了解原始数据的大致分布。根据用户识别业务的需求遍历所有重要字段,所需数据字段见表1~表4所列。转换部分数据类型,便于后续处理,并利用上文得到的统计数据进行空值填充。将处理好的数据进行打标签操作后随机排序,分为训练集和测试集,再將测试集中的一小部分数据分离出可靠的正样本,用于训练分类器。 4 模型选择与搭建 4.1 两步法 在本文所研究的两步法模型中,第一步使用的模型为朴素贝叶斯分类器,其优势在于算法数学模型稳定、学习简单,分类效果较理想[6-7]。该分类器所需参数很少,对于缺失的数据不太敏感,比较符合实际数据情况,可解释性强。理论上来说,相较于其他模型,它的误差率最小。 贝叶斯基本公式为: 假设数据的每个样本有m维特征向量,描述其m个属性的值,即A={x1, x2, ..., xm}。数据类别可分为n类,即n={y1, y2, ..., yn}。给定未知样本集X,使用朴素贝叶斯分类方法将样本按类别n={y1, y2, ..., yn}分开。 代入贝叶斯理论,可得给定的某用户A属于某分类yn的概率为: 对于给定用户A属于某一分类yn的概率,可由A在每个给定的分类yn的概率得出,需要计算每个分类用户A在其中的概率。即 假设集合T为正样本集合,集合U为未标记样本集合。模型训练过程如下: (1)将集合T、U中的样本类别标记为1、0; (2)分别使用数据集T和U进行训练,得到理想的分类器; (3)使用上述分类器将未标记样本进行分类。 第二步使用的模型为随机森林算法。“森林”由多个决策树组成,采用随机有放回的选择模式训练数据模型,引入随机属性选择,通过组合模型来提升学习效果[8]。“森林”中的每一棵树都会根据自己分类选择进行“投票”,最终的结果是“票数”最多的属性。其计算公式如下: 式中:H(x)表示随机森林分类模型最终结果;hi(x)表示每棵决

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档