基于大数据构建污染源在线监控数据有效性评估模型研究.docx

基于大数据构建污染源在线监控数据有效性评估模型研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于大数据构建污染源在线监控数据有效性评估模型研究

?

?

王晓东李瑞强张巍郭雪征

摘要:为规范污染源监管,落实排污单位主体责任,提高污染源在线监控数据质量,确保在线监控数据全面、准确、客观、真实。以乌海及周边地区在线监控数据为试点,通过数据挖掘和机器学习算法,构建了异常检测和有效性智能评估模型,以识别在线监控数据的异常模式,评估在线监控数据有效性,切实发挥在线监控数据的效能,更好地服务于生态环境保护监管。

关键词:在线监控数据;数据预处理;异常检测;有效性智能评估

:TP274:A:1674-9944(2019)16-0174-02

1引言

污染源在线监控系统作为环境监管的重要手段,对提升环境监管水平有着重要作用,全国各地大量建设运行,基本实现对在线监测污染物排放情况的实时监控、及时响应处置的效果。污染源在线监控数据的有效性直接关系到污染源在线监控系统作用的发挥,如何利用大数据技术,构建有效性评估模型,对不同粒度(污染源排口,企业)的数据进行有效性分析具有重要意义。

2在线监控数据有效性分析基本情况

污染源在线监控数据应客观真实的反应污染源企业污染物排放情况,与污染源及污染治理设施运行状况等企业生产实际状况息息相关。目前,为保障污染源在线监控数据的有效性,国家及地方出台了一系列的标准和规范性文件,内容涵盖自动监测系统建设、运行维护、质量控制以及自动监测数据有效性审核等方面。但是,这只是从管理层面做出的规定,在线监测设备实际运行情况及产生的数据是否符合规定的理想状态还得依靠现场检查。而现场核查检查以比对监测为主,受人力和物力的制约,此项工作开展的频次和所覆盖的范围都受到了限制。部分省市采用技术手段保障在线监测数据的有效性,辽宁、山东等地采取动态管控,以确保污染源自动监控数据真实、准确,深圳利用动态跟踪系统对在线监控数据进行有效性审核,内蒙古自治区、江苏省通过建设工况监控系统进一步保障在线监控数据的有效性、真实性。利用大数据手段,从数据分析、建模等方面进行在线监控有效性分析的还未见报道。

3模型构建方法

本文主要以内蒙古自治区乌海及周边地区重点监控企业为研究对象,通过对废水在线监控小时数据、废气在线监控小时数据以及污染源企业的基本信息、排口信息进行分析,构建污染源在线监控数据有效性评估模型。

3.1数据预处理

本文采用探索性数据分析,对研究对象的数据进行评判,依据评判结果,进行数据的处理。探索性数据分析(EDA),是指在尽量少的先验假定条件下对数据进

行分析,从数据本身出发去发掘与描述数据特征,并使用多种可视化手段表达数据特征,使数据易于被理解和检视,是一种强有力的数据分析与评判手段。

数据在不同时段经常出现缺失值、极端值,主要原因包括设备故障、网络中断、监测异常等。在建模之前,拟合缺失值、异常值的分布,主要采用以下2种缺失值插补算法进行处理。

3.2构建数据有效性评估模型

数据有效性评估模型主要包括异常检测和有效性智能评估功能模块。通过将污染源基本信息和废气、废水在线监控等数据输入到异常检测模块中,对样本进行分类(正常样本和异常样本);异常检测模型的结果作为有效性评估模型的输入,对企业在线监控数据有效性进行分析建模,构建有效性智能评估模块,对不同粒度(污染源排口粒度,企业粒度)的數据进行有效性评估。

3.2.1构建异常检测模块

异常检测是通过学习系统、应用程序或者用户等的正常行为习惯,建立特征模式库,然后将用户当前行为特征与模式库中的特征进行比较,以此来发现异常行为。

本文中主要通过箱线图、K-Sigma、残差统计等方法,找出与大部分对象存在明显差异的数据点。

3.2.1.1基于箱线图的异常值检测

箱线图(Boxplot)也称箱须图(Box-whiskerPlot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息。

具体含义如下,首先计算出第一四分位数(Q1)、中位数、第三四分位数(Q3)。中位数就是将一组数字按从小到大的顺序排序后,处于中间位置(也就是50%位置)的数字。同理,第一四分位数、第三四分位数是按从小到大的顺序排序后,处于25%、75%的数字。令IQR=Q3-Q1IQR=Q3一Q1,那么Q3+1.5(IQR)Q3+1.5(IQR)和Q1-1.5(IQR)Q1-1.5(IQR)之间的值就是可接受范围内的数值,这两个值之外的数认为是异常值。在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温

文档评论(0)

姚启明 + 关注
实名认证
内容提供者

80后

1亿VIP精品文档

相关文档