- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2001年度冬のLAシンポジウム 半構造化テキストに対する文字列照合アルゴリズム 喜田 拓也* 貴福 友晴? 竹田 正幸? *九州大学附属図書館研究開発室?九州大学システム情報科学府情報理学専攻 発表内容 研究の目的 既存の手法 我々のアプローチ 文字列照合による処理の利点と問題点 提案アルゴリズム 誤検出を回避する方法 パスを考慮した照合処理 実験結果 まとめ 既存の手法 我々のアプローチ 利点 巨大なXML文書や大量の文書群を一括に処理 複数の質問を同時に処理 文字列照合問題 Aho-Corasick(AC)照合機械 問題点 タグ名の一部分とマッチする 解決策 PMM構築方法 属性の取り扱い パスを考慮した照合 アイデア 実験結果 Sgrep(J. Jaakkola and P. Kilpel?inen)との比較 まとめ XML文書に対する文字列照合処理 誤検出しない効率的な照合機械の構築 パスを考慮したアルゴリズム Sgrepに比べ3倍以上高速 今後の課題 複数文字列を一度に置換するアルゴリズムの開発[3] XML文書を圧縮して処理を高速化[6] * * 発表者: 喜田 拓也 XML文書 XML文書 メモリ プログラム DOM API … … Tanaka person/name/last Makiko person/name/first “” person/name “” person person name first last Makiko Tanaka XMLパーサー XML文書 XML文書 メモリ プログラム 文字列照合アルゴリズム person name first Makiko /first last Tanaka /last /name /person 木構造 処理が高速 少ないメモリで可 様々な応用 XML文書 Pattern matching is one of the most fundamental operations in string processing. Recently, a new trend for accelerating pattern matching has emerged: Speeding up pattern matching by text compression. From the traditional criteria for data compression, i.e., compression ratio and compression/decompression time, adaptive dictionary methods such as the Lempel-Ziv family are often preferred. However, such methods cannot speed up the pattern matching since an extra work is needed to keep track of compression mechanism. matching パタン テキスト Knuth-Morris-Pratt (1974) Boyer-Moore (1977) Aho-Corasick (1975) Shift-Or (1992) 6 7 8 9 10 11 12 13 0 1 2 3 4 5 14 r o t h e r o t h e m other mother 任意の文字 goto遷移 failure遷移 パタン集合:?={other, mother} other body h1あのTVCM/h1 p mother mother /mother mを取ったらother、 other 他人 /other です. /p /body 誤った検出 r o t h e r o t h e m 13 6 7 8 9 10 11 12 0 1 2 3 4 5 other mother 以外の文字 以外の文字 15 14 以外の文字 以外の文字 r o t h e r o t h e m 13 6 7 8 9 10 11 12 0 1 2 3 4 5 other mother 以外の文字 以外の文字 15 14 以外の文字 以外の文字 14 15 0
您可能关注的文档
- 安徽省天然气开发股份有限公司.doc
- 2017年世界高血压日宣传活动总结 - Cangzhou.docx
- 苏宁电器集团简介 - Xiamen University.doc
- 《临床小儿外科杂志》.docx
- 海盐枫糖戚风蛋糕 - edufe.doc
- 苏宁环球集团.doc
- 图案固化,一层层叠加,感觉像是在做蛋糕那样创建三维.doc
- 邕财报[2007] 号 签发苏宁.doc
- 关于推荐、认定和展示2019年 - vaehacn.doc
- 关于举办《护理与睡眠医学教育高级研讨班》的通知.doc
- 2025届衡阳市第八中学高三一诊考试物理试卷含解析.doc
- 2025届湖南省娄底市双峰一中等五校重点中学高三第二次诊断性检测物理试卷含解析.doc
- 天水市第一中学2025届高三第二次联考物理试卷含解析.doc
- 2025届金华市重点中学高三考前热身物理试卷含解析.doc
- 2025届北京市石景山区第九中学高三第四次模拟考试物理试卷含解析.doc
- 江苏扬州市2025届高三第一次模拟考试物理试卷含解析.doc
- 2025届江苏省南通市高级中学高考物理五模试卷含解析.doc
- 广东省清远市华侨中学2025届高三第一次调研测试物理试卷含解析.doc
- 辽宁省凤城市2025届高三第五次模拟考试物理试卷含解析.doc
- 内蒙古巴彦淖尔市重点中学2025届高考仿真卷物理试卷含解析.doc
文档评论(0)