基于半监督学习的物联网用户识别模型分析与研究.docx

下载文档

2
0
约3.52千字
约 7页
2021-12-05 发布于上海
举报
版权申诉
保障服务

基于半监督学习的物联网用户识别模型分析与研究.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? ? 基于半监督学习的物联网用户识别模型分析与研究 ? ? 孙静冯锋摘要：随着物联网技术在多个领域的大规模应用，终端用户数量呈快速上升趋势。在享受通信便利的同时，也有个别用户利用物联网特性生成大量虚假用户，不利于行业的健康发展。针对以上现象，文中采用半监督学习的方法，通过研究相关样本数据的特征，建立用户识别模型，对异常用户行为做出及时判断，帮助相关部门、人员采取相应的措施，避免产生较大的损失，节省了大量人力物力，具有广泛的应用前景。关键词：物联网;用户识别;半监督学习;识别模型;朴素贝叶斯分类;随机森林：TP391：A：2095-1302（2020）11-0-03 0 引言伴随着LoRa、NB-IoT、5G等物联网通信技术的发展，我国物联网终端用户猛增。在日益增加的用户数量中，若出现大量恶意的虚假用户，则会影响物联网平台正常的工作运行。这些虚假用户占用了大量资源，使物联网平台无法充分利用，既影响用户的自身利益，也不利于物联网行业的健康发展。仅凭人力识别、用户举报等传统方法监督用户行为，具有一定的局限性和缺陷，监督及识别效果并不理想。本文对于物联网用户识别模型进行研究，针对不同的识别方法及分类器进行分析，帮助相关人员尽早发现用户的异常行为，及时采取措施，避免造成更大损失。 1 物联网平台概述物联网的工作流程为传感器收集数据，通过网络连接向云端发送数据，进行数据处理，筛选有用的数据后再向终端用户传递有用信息[1-2]。物联网平台主要分为服务管理器和控制中心两部分，物联网平台组成如图1所示。物联网卡和5G技术在未来的物联网行业拥有绝对的优势。现阶段物联网卡具有资费便宜、无实名制等特点，依托物联网应用于智能服务领域，如智能家居、智能穿戴、智慧安防等[3]。在物联网平台上，用户群体被分为不同的身份与类型，为不同的用户提供不同的平台数据视图、权限等。 2 识别模型概述用户识别实质上是根据用户的特征数据对其进行分类的过程，将异常数据与正常数据拆分开来。用户数据中既有少量的已确定虚假用户的信息，也有占大部分的正常用户。基于以上特征，本文建立了基于未标记样本以及正样本的半监督学习模型[4-5]，用于识别物联网用户的类型。解决这类问题主要有两种方法。第一种方法是直接在正样本中进行训练，训练出的分类器可以判别测试数据是否属于训练样本类别。但实际情况是，现实数据远比实验复杂，且模型只会输出“是”或“不是”两种结果，容易出现被认定为“不是”的样本并不属于正样本相对的另一类，出现误判的情况。第二种方法是将其分为两步，将分类与预测分开。第一步是根据已标注的样本，在大量未标注样本中通过训练找出可靠的负样本集;第二步是通过迭代训练得到一个分类器进行用户识别工作。识别模型工作流程如图2所示。 3 用户数据处理在处理关于用户的原始数据时，首先进行数据核查，通过计算数据的均值、期望值、中位数、方差等了解原始数据的大致分布。根据用户识别业务的需求遍历所有重要字段，所需数据字段见表1～表4所列。转换部分数据类型，便于后续处理，并利用上文得到的统计数据进行空值填充。将处理好的数据进行打标签操作后随机排序，分为训练集和测试集，再將测试集中的一小部分数据分离出可靠的正样本，用于训练分类器。 4 模型选择与搭建 4.1 两步法在本文所研究的两步法模型中，第一步使用的模型为朴素贝叶斯分类器，其优势在于算法数学模型稳定、学习简单，分类效果较理想[6-7]。该分类器所需参数很少，对于缺失的数据不太敏感，比较符合实际数据情况，可解释性强。理论上来说，相较于其他模型，它的误差率最小。贝叶斯基本公式为：假设数据的每个样本有m维特征向量，描述其m个属性的值，即A={x1， x2， ...， xm}。数据类别可分为n类，即n={y1， y2， ...， yn}。给定未知样本集X，使用朴素贝叶斯分类方法将样本按类别n={y1， y2， ...， yn}分开。代入贝叶斯理论，可得给定的某用户A属于某分类yn的概率为：对于给定用户A属于某一分类yn的概率，可由A在每个给定的分类yn的概率得出，需要计算每个分类用户A在其中的概率。即假设集合T为正样本集合，集合U为未标记样本集合。模型训练过程如下：（1）将集合T、U中的样本类别标记为1、0; （2）分别使用数据集T和U进行训练，得到理想的分类器; （3）使用上述分类器将未标记样本进行分类。第二步使用的模型为随机森林算法。“森林”由多个决策树组成，采用随机有放回的选择模式训练数据模型，引入随机属性选择，通过组合模型来提升学习效果[8]。“森林”中的每一棵树都会根据自己分类选择进行“投票”，最终的结果是“票数”最多的属性。其计算公式如下：式中：H（x）表示随机森林分类模型最终结果;hi（x）表示每棵决

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

基于半监督学习的物联网用户识别模型分析与研究.docx