- 1、本文档共76页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复数文书自动要约
2007-01-29 東京大学情報理工学系研究科?博士本審査 Research on Information Aggregation and Integration for Multi-Document Summarization 東京大学大学院情報理工学系研究科 電子情報学専攻?石塚研究室 博士課程3年 37406 岡崎直観 情報爆発と情報過多 到達可能なWebサイトのドメイン数 (NetCraft) 5,000万(2004年5月)→ 1億(2006年11月) ANA61便のハイジャックに関する文書数 (Google) 5,860,000 (“hijacking”) → 9,910 (+ “ANA 61”) 情報過多と自然言語処理 情報検索 (information retrieval) 大量の文書集合からキーワードに基づいて文書を検索する 検索は情報を得るための有力な手段として浸透しつつある 動的に文書を集めるため,検索結果は構造化されていない 質問応答 (question answering) 自然言語で与えられた質問に直接的に対応する答えを返す 情報抽出 (information extraction) あらかじめ定義された表(テンプレート)を埋める 評判情報抽出 (sentiment analysis) 特定の製品,会社など関する良い意見/悪い意見を収集 複数文書自動要約 複数文書自動要約 [Radev and McKeown 98] ユーザーは検索システムを使って文書集合を得る 検索結果の文書集合から,有用な情報を文章として提示する 本システムが作成した要約例 タンザニア、ケニアでの米国大使館爆破事件(10記事) 東アフリカ、ケニアの首都ナイロビと隣国タンザニアの首都ダルエスサラームの米大使館近くで7日、ほぼ同時に起きた爆破テロ事件は8日未明現在、死者89人、負傷者は1700人に達した。 ケニアとタンザニアの米大使館を標的に七日発生した同時爆破テロ事件で、トーマス?ピカリング米国務次官はの会見で、米大使館を狙った組織的、計画的犯行との見解を明らかにした。 身元が確認された米人死者は、大使館職員のアーリーン?カークさんと、大使館付武官のケネス?ホブソン陸軍軍曹の二人にとどまっている。 タンザニアの米大使館同時爆破テロで、両国の警察当局は合計十数人を拘束している。 関連研究: Google News 人間が要約を行うプロセス Endres-Niggemeyer [1998] は,要約を職業とする6人の作業を調べ,以下の3ステージにまとめた 文書構造の認識: タイトル,ジャンル,レイアウトを確認 入力文書の整形(例: HTML) 重要なトピックの認識: 文書を特徴付けるトピックを認識 文書を内部表現に変換して,重要箇所を言い当てる 要約の生成: できる限り「コピー&ペースト」で要約を作成する(要約者は情報を生成してはならない) 重要箇所抽出,並び替え,文の編集 複数文書自動要約の課題 複数文書自動要約の課題 異なる情報源からの情報の集約(重要箇所抽出) 入力文書で共通に述べられている事項に着目 冗長な要約は避ける 異なる情報源からの情報の統合(文章構造の再構築) 抽出文の並び替え 照応解析?解消 固有名詞の統一化 複数の文の統合 要約システムの概要 発表内容 複数文書自動要約で重要なサブトピック 複数文書自動要約向けの重要文抽出 「どの文を要約に含めるべきか?」 要約文章の構築に向けた抽出文の並び替え 「文をどのように並べて文章にするか?」 括弧表現に着目した言い換え表現の抽出 「冗長な用語をどのように短くすればよいのか?」 結論 複数文書自動要約向けの重要文抽出 重要文抽出 複数文書要約向けの重要文抽出 文書集合から要約に含めるべき文を選ぶ 多くの文の中から決められた分量の文を選ぶ 要約文に含めるべき情報を認識する 文書集合には冗長な内容が含まれている可能性がある 同じ情報を重複して抽出することは避ける 複数文書要約システムでは中心的役割を果たす 常に文法的に正しい要約文を得ることができる 要約文の生成や文の統合は難しい 入力文がたくさんあることが仮定できるのであれば,良質な文を選ぶことに注力するほうが,要約の質が上がる 複数文書向け重要文抽出の関連研究 文の内容の表現(近似)方法について考える BOW [Salton 75],n-gram [Lin Hovy 02],係り受け関係 [Okazaki 04],PrefixSpan [平尾 03],類似関係 [Okazaki 03],タグ付け文書(GDAなど) [長尾 98; 綾 05],格文法 文(内容)の重み付け方法 TF*IDFなどの統計的手法によるもの [S
您可能关注的文档
- 基于无模型自适应控制的无人驾驶汽车横向控制方法-ACSL.PDF
- 基于改进的典型相关分析的故障检测方法-山东大学学报工学版.PDF
- 基于时间Petri网的工作流系统模型的线性推理.PDF
- 基于晶闸管无源触发技术的变压器有载分接开关无燃弧-高电压技术.PDF
- 基于最佳中继选择的异构多媒体自适应协作分集算法-计算机应用研究.PDF
- 基于机器视觉的茶陇识别与采茶机导航方法-农业机械学报.PDF
- 基于标量场的网络拓扑布局算法-CiteSeerX.PDF
- 基于模态识别与分离的铝板激光超声检测-应用声学.PDF
- 基于模糊逻辑的高压输电线路故障类型识别新方法.PDF
- 基于水生态因子的沼泽安全阈值研究———以三江平原-应用生态学报.PDF
文档评论(0)