网站大量收购独家精品文档,联系QQ:2885784924

第5章-自动标引.pptVIP

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章-自动标引

第五章 自动标引 本章内容提要 自动标引基本原理 自动标引的主要方法和技术 汉语自动标引 第一节 自动标引的基本原理 自动标引的定义、类型 自动标引的意义 自动标引的流程 自动标引的原理 1 自动标引的定义 自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。 换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。 2 自动标引的类型 按人工介入与否分为全自动标引与半自动标引。 按标引词来源分为自动抽词标引与自动赋词标引。 3 自动标引的意义 1.适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。 信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。 3 自动标引的意义 2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势: 处理能力强 处理速度快 成本低 一致性好,稳定性好 3 自动标引的意义 美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。 3 自动标引的意义 自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。 3 自动标引的意义 美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。 4 自动标引的流程 获得机器可读的待标文献 语句分析(难点) 语词加权(难点) 确定标引词的权阈值(难点) 选出标引词 转换 文档生成与索引编辑输出 反馈 确定标引源 即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。 标题是自动标引的主要标引源。但仅以标题为标引源,信息量少,标引质量差,难以推广使用。 如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。 确定标引源 一般选择以下内容作为标引源: 1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。 2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。 3.首尾章节:科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。 确定标引源 4.章节的首尾段:常反映章节讨论的主题,替代整个章节,节省大量无效劳动。 5.段落的首尾句:国外有学者对科技文献的200个段落进行了主题句的分析,结果:85%的段落主题句是段落的第一句,7%的段落主题句是最后一句。用段落首尾句替代整个段落,节省工作量,免除许多“杂音”。 输入标引源内容 标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。 印刷型文献:手工录入或OCR(光学字符识别)输入 电子文档(XML、DOC、TXT等格式):直接导入 文档的预处理 字符内码的检测与转换:BIG5码与GB码的自动检测与转换。 文档格式的检测与转换:去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。 典型的如:网页清洗 分词处理 在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合。 西方文字有分隔符,切分容易实现。而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。 确定关键词 根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定可表达文档中心内容的词作为该文档的关键词。 确定关键词 主要方法: 绝对词频统计法:以词在文章中出现的绝对频次为根本依据

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档