- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
?
基于半监督学习的物联网用户识别模型分析与研究
?
?
孙静 冯锋
摘 要:随着物联网技术在多个领域的大规模应用,终端用户数量呈快速上升趋势。在享受通信便利的同时,也有个别用户利用物联网特性生成大量虚假用户,不利于行业的健康发展。针对以上现象,文中采用半监督学习的方法,通过研究相关样本数据的特征,建立用户识别模型,对异常用户行为做出及时判断,帮助相关部门、人员采取相应的措施,避免产生较大的损失,节省了大量人力物力,具有广泛的应用前景。
关键词:物联网;用户识别;半监督学习;识别模型;朴素贝叶斯分类;随机森林
:TP391:A:2095-1302(2020)11-0-03
0 引 言
伴随着LoRa、NB-IoT、5G等物联网通信技术的发展,我国物联网终端用户猛增。在日益增加的用户数量中,若出现大量恶意的虚假用户,则会影响物联网平台正常的工作运行。这些虚假用户占用了大量资源,使物联网平台无法充分利用,既影响用户的自身利益,也不利于物联网行业的健康发展。
仅凭人力识别、用户举报等传统方法监督用户行为,具有一定的局限性和缺陷,监督及识别效果并不理想。本文对于物联网用户识别模型进行研究,针对不同的识别方法及分类器进行分析,帮助相关人员尽早发现用户的异常行为,及时采取措施,避免造成更大损失。
1 物联网平台概述
物联网的工作流程为传感器收集数据,通过网络连接向云端发送数据,进行数据处理,筛选有用的数据后再向终端用户传递有用信息[1-2]。物联网平台主要分为服务管理器和控制中心两部分,物联网平台组成如图1所示。
物联网卡和5G技术在未来的物联网行业拥有绝对的优势。现阶段物联网卡具有资费便宜、无实名制等特点,依托物联网应用于智能服务领域,如智能家居、智能穿戴、智慧安防等[3]。在物联网平台上,用户群体被分为不同的身份与类型,为不同的用户提供不同的平台数据视图、权限等。
2 识别模型概述
用户识别实质上是根据用户的特征数据对其进行分类的过程,将异常数据与正常数据拆分开来。用户数据中既有少量的已确定虚假用户的信息,也有占大部分的正常用户。基于以上特征,本文建立了基于未标记样本以及正样本的半监督学习模型[4-5],用于识别物联网用户的类型。
解决这类问题主要有两种方法。第一种方法是直接在正样本中进行训练,训练出的分类器可以判别测试数据是否属于训练样本类别。但实际情况是,现实数据远比实验复杂,且模型只会输出“是”或“不是”两种结果,容易出现被认定为“不是”的样本并不属于正样本相对的另一类,出现误判的情况。
第二种方法是将其分为两步,将分类与预测分开。第一步是根据已标注的样本,在大量未标注样本中通过训练找出可靠的负样本集;第二步是通过迭代训练得到一个分类器进行用户识别工作。识别模型工作流程如图2所示。
3 用户数据处理
在处理关于用户的原始数据时,首先进行数据核查,通过计算数据的均值、期望值、中位数、方差等了解原始数据的大致分布。根据用户识别业务的需求遍历所有重要字段,所需数据字段见表1~表4所列。转换部分数据类型,便于后续处理,并利用上文得到的统计数据进行空值填充。将处理好的数据进行打标签操作后随机排序,分为训练集和测试集,再將测试集中的一小部分数据分离出可靠的正样本,用于训练分类器。
4 模型选择与搭建
4.1 两步法
在本文所研究的两步法模型中,第一步使用的模型为朴素贝叶斯分类器,其优势在于算法数学模型稳定、学习简单,分类效果较理想[6-7]。该分类器所需参数很少,对于缺失的数据不太敏感,比较符合实际数据情况,可解释性强。理论上来说,相较于其他模型,它的误差率最小。
贝叶斯基本公式为:
假设数据的每个样本有m维特征向量,描述其m个属性的值,即A={x1, x2, ..., xm}。数据类别可分为n类,即n={y1, y2, ..., yn}。给定未知样本集X,使用朴素贝叶斯分类方法将样本按类别n={y1, y2, ..., yn}分开。
代入贝叶斯理论,可得给定的某用户A属于某分类yn的概率为:
对于给定用户A属于某一分类yn的概率,可由A在每个给定的分类yn的概率得出,需要计算每个分类用户A在其中的概率。即
假设集合T为正样本集合,集合U为未标记样本集合。模型训练过程如下:
(1)将集合T、U中的样本类别标记为1、0;
(2)分别使用数据集T和U进行训练,得到理想的分类器;
(3)使用上述分类器将未标记样本进行分类。
第二步使用的模型为随机森林算法。“森林”由多个决策树组成,采用随机有放回的选择模式训练数据模型,引入随机属性选择,通过组合模型来提升学习效果[8]。“森林”中的每一棵树都会根据自己分类选择进行“投票”,最终的结果是“票数”最多的属性。其计算公式如下:
式中:H(x)表示随机森林分类模型最终结果;hi(x)表示每棵决
您可能关注的文档
最近下载
- 机电一体化技术专业(五年制)人才培养方案(中职).doc
- 第六单元 追寻伟人足迹 单元任务群整体 教学设计 -2024-2025学年语文二年级上册统编版.docx VIP
- 记叙文阅读真题 郑州三年模考(20-22)(河南版)(解析版).docx
- 第3课《纹样的诞生》.pptx VIP
- (2023秋)北师大版二年级数学上册《一共有多少天》PPT课件.pptx VIP
- 2023江苏开放大学学前儿童健康教育第二次形成性考核作业.docx VIP
- 《公路盾构隧道设计标准》.pdf
- GB50316-2000 工业金属管道设计规范(2008年版).docx
- 部编版四年级语文下册《12 在天晴了的时候》PPT优质课件.pptx VIP
- 西北工业大学英语核心能力.docx
文档评论(0)