- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
以贪婪演算法作为矩阵分群之范例
建構XML多維度資料區間索引之研究 演說者:張 晏 嘉 日期:2006/11/1 大葉大學 資訊工程學系 大綱 簡介 相關研究 研究方法 實驗結果 結論與未來工作 簡介 由於電子資訊化的發展,時序性資料被廣泛的利用以及研究。 以XML作為時序性資料之儲存架構下,檢索資料相當費時。 針對XML所提出之索引架構並無法提供穩定的效能。 以穩定且快速為目標,設計新的時序性資料索引架構。 分析時序性資料資訊,將其建構於多維度矩陣上,以貪婪演算法將資料分群。 時序性資料 代表著某段時間區段內資料所有變化情況之歷史紀錄。 儲存於XML上會利用時間標籤來標記與時間的關聯。 當資料有所變動會在文件中新增資料來記錄該資料必威体育精装版資訊。 時序性資料之索引方式 分群架構: 以鍵值分群。 以時間分群。 時序性資料之索引方式(續) 群組之索引架構以樹狀結構居多。 B-tree、B+-tree、AP-tree…等等。 分群目標 同時考量時間與鍵值屬性。 針對時間或鍵值屬性之資料檢索都能提高效能。 新分群方式能擴展至更多屬性之檢索。 分群目標(續) 資料分群上必須滿足下列幾項要求 : 資料的經過分群後,各個群組內的資料總數必須儘可能相同。 分群的架構必須要能支援資料的增、刪、修。 分群過後,任何群組於矩陣內所代表的是一個矩形區塊。 資料轉換至矩陣之方式 資料的屬性當作一個維度。 資料中所有該屬性的數值集合成為該維度的區間組合。 分群策略 嘗試以限制區塊內資料筆數來達到均化群組內資料數量之目的。 利用貪婪演算法由內部向外擴展的方式來作為分群方法。 貪婪演算法可保證目前分群的群組都符合所訂立的條件。 分群重點 以二維矩陣為基礎,初步規範分群的重點 : A = A1 ? A2 ? …? An Ai ? Aj = ?, for i ? j |count(Ai) – count(Aj)| 門檻值, count(Ak) 代表Ak區塊中所包含的資料筆數。 貪婪矩陣分群流程 步驟一: 由矩陣中取得一點,這一點必須為矩陣中尚未分割的區塊裡,X座標最接近原點的座標集合中,Y座標最接近原點的座標。當無法從矩陣取得任何一點時,則跳到步驟四執行。 步驟二: 由此點向外擴展搜尋一塊符合條件的最大矩形區塊。 步驟三: 將區塊劃分為已分割,並跳回步驟一執行。 步驟四: 結束分割。 以貪婪演算法作為矩陣分群之範例 Block_Tree之定義 Block_Tree初始為一個空的樹(tree)。 Block_Tree的每一個節點(node)代表矩陣所分割的一個區塊。 根(root)到任一葉節點(leaf node)的路徑(path)代表的是一種分群方式,該路徑所有的節點的聯集便為原本的矩陣,而節點與節點間並無交集。 任一條根到葉節點的路徑所包含的節點數代表該分群方式所分割的區塊總數。 任一條根到葉節點的路徑中任兩個節點中所包含資料筆數總和相減小於某個門檻值(預設區塊條件資料筆數)。 Block_Tree之範例 改良式貪婪矩陣分群法之流程 步驟一:對於Block_Tree的每一個葉節點分別處理:由矩陣中取得一點,這一點必須不包含在該葉節點與根的路徑中任一節點的範圍內,並且為矩陣中最內部的一點,當無法從矩陣取得任何一點時,則跳到步驟四執行。 步驟二:由此點為起點搜尋符合條件筆數的最大矩形區塊。 步驟三:將區塊資訊加入到Block_Tree內所對應路徑中葉節點的子節點,成為該路徑新的葉節點回到步驟一執行。 步驟四:結束分割。 實驗模擬 本文在Visual Studio .NET上以C#進行開發。而在實驗上,以亂數產生二維矩陣模擬資料轉換至二維度矩陣上之狀態。 矩陣大小: 20 X 20 、40 X 20 、50 X 30 資料量(資料於矩陣中所佔之比例): 30%、40% 區塊資料筆數: 10筆、15筆、20筆 以程式模擬矩陣分群之結果 結論與未來工作 新的分群架構。 鍵值與時間。 多維度矩陣。 均化各群組資料數量。 將二維的分群擴展至多維度。 針對新分群架構開發索引結構。 分群策略(續) 當資料有所變化時,會在時間維度最末端新增一個區間。 該區間的數值為資料變動的時間。 新區間記錄目前必威体育精装版資料狀態。 資料的增、刪、修不會改變舊有資料於矩陣上的位置。 以貪婪演算法作為矩陣分群之範例 * * Y軸 X軸 大小:20 X 20 ,資料量:40% ,區塊條件筆數:10筆 鍵值 時間 1/1 2/1 3/1 4/1 Joe Tom John 5/1
您可能关注的文档
- 基于分解与加密的云数据库隐私保护机制研究-信息工程大学学报.pdf
- 网络自然密度社团结构模块度函数-科学网—博客.pdf
- 本章讨论加权最小二乘估计异方差性和自相关一致协-时间序列分析.ppt
- 结合稀疏表示与图像压缩融合的目标检测-红外技术.pdf
- 谱修正技术在脉冲压缩信号检测中的应用-声学技术.pdf
- autocad建筑制图基础教程2008版41选择对象.ppt
- wto争端解决机制专家组程序问题评析-北大法宝.pdf
- 药事管理·国际中药失效专利分析-天津中草药杂志社.pdf
- 软件测试研究①-计算机系统应用.pdf
- 我国高三学生高考前焦虑障碍检出情况meta分析.pdf
- 新解读《GB_T 40197 - 2021雄蜂蛹生产技术规范》必威体育精装版解读.pptx
- 2025年暑假计算题综合特训(专项训练)数学一年级下册苏教版(含解析).docx
- 2025年人教版五年级下册数学期末应用题专项练习(含答案).docx
- 2025年暑假每日计算训练(试题) 四年级下册数学人教版(无答案).docx
- 2025年人教版五年级下册数学期末应用题(含答案).docx
- 麦角新碱联合欣母沛在预防剖宫产术患者出血中的应用效果及对凝血功能的影响研究临床科研项目可行性与安全性论证报告.doc
- 2025年暑假作业—计算训练(试题) 数学三年级下册人教版.docx
- 每月危急值管理分析总结模板.docx
- 新解读《GB_T 40179 - 2021植物中有机酸的测定 液相色谱 - 质谱_质谱法》必威体育精装版解读.pptx
- 新解读《GB_T 40180-2021婴童浮力泳装》必威体育精装版解读.pptx
最近下载
- 2025年中考生物总复习第三部分新课标命题七大主题突破专题五人体生理与健康.pptx VIP
- 统编一年级下册《端午粽》跨学科教学设计.docx
- 趣味化学实验在初中生学习动机激发中的实证研究教学研究课题报告.docx
- 项目施工进度安排方案及各阶段进度保证措施.docx VIP
- 20S515 钢筋混凝土及砖砌排水检查井.docx VIP
- 主题五+人体生理和健康+课件-2025年中考生物总复习主题突破.pptx VIP
- 机械制图习题集(第3版)非机类_杨慧英课后习题答案.pdf
- 《水泥行业协同处置项目二氧化碳减排量核算方法学》.pdf VIP
- 河流基本情况调查报告.docx
- [甘肃]2024下半年甘肃省文化和旅游厅直属事业单位招聘2人笔试历年参考题库附带答案详解.pdf
文档评论(0)