- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
不等长子时间序列的相似性度量方法
分段线性表示
?
?
论文导读::时间序列是按时间顺序排列的一系列观测数据。基于形状的相似度度量效果往往不好。基于时间序列趋势转折点的分段线性表示。本文提出了不等长子时间序列的相似性度量方法。
关键词:时间序列,相似度,分段线性表示,不等长子时间序列
?
0引言
时间序列是按时间顺序排列的一系列观测数据,其观测值按固定的时间间隔采样。时间序列广泛存在于商业、经济、科学工程和社会科学等领域,例如:股票价格数据、销售数据、图像数据、影像数据、手写体数据、脑扫描数据等都可以看作是时间序列数据[1]。这些数据中隐藏着大量重要的信息,反映的大都是某个待观察过程在一定时期内的状态或表现[2]。
时间序列的相似性度量是衡量两个时间序列的相似程度的方法;它是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础,也是时间序列挖掘的核心问题之一。[3]相似性度量的好坏决定着挖掘的效果。[2]对于数值型的时序序列,有以下几种相似度的度量:基于形状的相似度、基于压缩数据的相似度、基于特征的相似度和基于模型的相似度。[4]对于大量的长度不一的时序数据,基于形状的相似度度量效果往往不好,这时,就得考虑基于特征或者基于模型的相似度。[5]基于特征的相似度计算先要从时间序列中提取特征,将时间序列变换到特征空间,采用特征空间的特征模式来表示原始时间序列。[6]。从整体来说,目前,基于特征的相似度度量还是一个有很强的领域相关性,需要较多人为干预的过程。[5]与基于特征的相似度相比分段线性表示,基于模型的相似度有一个很大的优势,那就是基于模型来计算相似度可以将预先得到的关于数据产生的知识结合进来论文格式。通常计算相似度时,对每一个时间序列建模,并用对某个序列所建模型生成另一序列的概率值来衡量这两个序列间的相似度。基于模型的方法往往需要较长的时间序列来完成较好的参数估计。[5]
对于长度不同子序列的距离度量,目前没有很成熟的算法。[5]对于来源于同一序列中的各个子序列,具有不相同的长度,可能存在在时间轴和幅值相差很大、但变化趋势却很相似的序列,为了有效地计算来源于同一序列中的各个子序列的相似度,本文提出了不等长子时间序列的相似性度量方法。
1不等长子时间序列的相似性度量方法
本方法将参与相似度计算的时间序列先进行有效分段,使每一段具有相对独立的变化趋势,然后对相对段进行相减,并取绝对值,经过以上计算后的多个绝对值相加的和就是最后得到的相似度。不具有相同分段数目的时间序列被认为是不相似的,将不参与计算。
为了对时间序列进行有效分段,本文采为文献[7]中的方法。
1.1基于时间序列趋势转折点的分段线性表示
在文献【7】中,提出了一种有效地提取序列中的趋势和压缩原始数据的方法,这种方法通过计算时间序列中波动幅度达到一定程度的极值点和波动幅度达到一定程度的相邻点非极值点来确定每一个具有相对独立变化趋势的分段端点,具有较高的精确性和高效、实现方法简便、效果直观、适应性好的优点。
算法步骤:
步骤1:对原始时间序列进行扫描,在这一过程中,记录原始时间序列的趋势转折点,即波动幅度达到一定程度的极值点和短时间大波动的非极值数据点。
步骤2:对于每一对趋势转折点进行直线插补,以这样的直线代替原来的曲线数据。
1.2不等长子时间序列的相似性度量方法
在时间序列中,序列的变化趋势主要有以下几种:上升趋势、下降趋势、平稳趋势。如图1所示。
图1趋势变化图
Fig.1Fluctuationoftendency
图中AB子序列的变化是一个上升趋势,BC子序列的变化是一个下降趋势,DE子序列的变化是一个平稳趋势,也可以是以上子相邻子序列的组合,构成其他的变化趋势。
对于两段只有上升或下降趋势的序列可以只比较它的斜率,计算公式:|k1-k’1|;
对于两段一个上升一个下降趋势的序列,可以比较两个趋势段上的斜率分段线性表示,计算公式:|k1-k’1|+|k2-k’2|;
对于两段一个上升一个下降一个上升趋势的序列,可以比较三个趋势段上的斜率,计算公式:|k1-k’1|+|k2-k’2|+|k3-k’3|;
对于参与比较的两条时间序列,使用相同的时间窗长度进行划分,时间窗长度越小,则对原序列分的越细,比较结果越准确,从而可以从多个角度反映序列的相似程度。当划分完后,一段有剩余,则将前面相同段数的相似度结果与剩余的时间序列长度相加作为最后的相似度结果。
算法不等长子时间序列的相似性度量方法
输入来自于同一时间序列的两段子序列S=S1,S2
输出这两两段子序列的相似度
算法步骤:
步骤1采用文献【7】中提出的方法,对输入数据进行分段线性表示,得到S1_TPLR和S2_TPLR;
步骤2计算每一分段的斜率,保存到S1_K和S2_K中,如果分段数相等
您可能关注的文档
- 产褥期乳腺炎的预防及不同护理干预的临床效果分析.docx
- 公立医院在《事业单位成本核算基本指引》下实施三类一级成本费用分摊方法的探索.docx
- MBBR工艺在污水处理厂改造中的应用研究.docx
- 2025届河南省周口市扶沟高级中学高考化学全真模拟密押卷含解析.doc
- 陕西省延安中学2025届高考考前模拟化学试题含解析.doc
- 2025届林芝市重点中学高考化学四模试卷含解析.doc
- 云南省云天化中学2025届高考历史考前最后一卷预测卷含解析.doc
- 2025届江西省新余市渝水区第一中学高三下学期联考生物试题含解析.doc
- 江西省信丰中学2025届高考化学倒计时模拟卷含解析.doc
- 贵州省黔东南州天柱二中2025届高三下第一次测试化学试题含解析.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)