专题--自动标引修改稿2.ppt

下载文档 降价啦

2
0
约5.16千字
约 47页
2019-01-29 发布于北京
举报
版权申诉
保障服务

专题--自动标引修改稿2.ppt

1、本文档共47页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

专题--自动标引修改稿2.ppt

块状的文献类（2）基于引文链接的自动聚类基于引文链接的自动聚类，优于基于语词特征的自动聚类。它们独立于不同的语言和变化的术语。通过引文链接进行文献聚类有如下三种形式： ①利用直接引文进行文献聚类直接引文文献类由一篇文献及后来引用了这篇文献的其他文献所组成。例如：X引用了A、B、C，所以X、 A、B、C可聚为一个文献类。 ②运用“书目耦合”原则进行文献聚类所谓的“书目耦合”，即两个或两个以上的条目具有共同的参考文献越多，这些条目的联结越紧密。例如：文献X，Y形成了一个文献类。因为它们都引用了A、B、C。文献X，Y紧密联结是因为它们都有且仅引用了文献A，B，C。而文献Z和文献X，Y联结不是太紧密，是因为它与文献X，Y只有两篇共同的参考文献。换一种说法，如文献X与文献Y之间的关联强度为3，而文献X与文献Z、文献Y与文献Z之间的关联强度只有2。 ③利用共同引文进行文献聚类在上图所描述的文献关系中还有一种关系就是共同引文关系。根据共同引文关系，我们可以认为文献A，B，C形成了一个文献类，因为它们被文献X，Y共同引用。根据书目耦合原则，共同引文关系具有不同的强度。共同引用的条目越多，它们之间的关联性越强。在上图中，文献A，B，C为弱相关，因为只有两篇文献共同引用了它们。二、汉语自动分词目前较典型的汉语自动分词方法有：词典匹配切词法设立切词标志法理解式切词法（专家系统方法） 1. 词典匹配切词法词典匹配方法主要是基于字符串匹配的原理进行的，即它以一部词典为依据，采用一定的处理策略将汉语文本中的字串与词典的词逐一匹配，若成功，便认定该字串为词。最常用的方法有最大匹配法、逆向最大匹配法、双向扫描法、逐词遍历匹配法、最佳匹配法、长短结合匹配法、词首匹配法。【最大匹配法】假设在计算机中存放一个已知的分词词典，该词典中的最长词是I个字，则取被处理文本中当前字符串中的前I个字与词典中的词进行匹配。匹配命中即记下该词，再以该词的长度将标引文本向后移动一个“步长”（词典中最长词的长度）截取下一字符串继续匹配。若匹配失败，则舍去某后端一字（正向扫描舍去后端，逆向扫描舍去前端）继续有哪些信誉好的足球投注网站，若到最后一字仍有哪些信誉好的足球投注网站无效，则从标引信息的该字后部或前部重新截取一定长字符串进行匹配。 2. 设立切词标志法在分词时，先找出切分标志（标点符号、词首字、词尾字、单音节单纯词、多音节单纯词、拟声词等），把句子切分成一些较短的字段，然后再用最大匹配法和逆向最大匹配法进一步把词切分出来。另外还有一种方法，叫穷多级列举法。切词时，先切出具有特殊标志的字符串，如阿拉伯数字、拉丁字母等，再切出可枚举的闭锁词(如连词、助词、叹词等可以一一枚举的词类)，最后再逐级切分开放词(如名词、动词、形容词等无法一一枚举的词类)。 3. 理解式切词法（专家系统方法）针对词典匹配法的不足，人们提出了理解式切词方法，其分词系统由词库、知识库和推理机及三部分组成。三、文本全文索引文本全文索引是指：计算机索引程序通过扫描文章中的每一个信息片断（英文中主要指单词，中文中包括词或字），为每一个信息片断建立一个索引，指明该信息片断在文章中出现的次数和位置。文本全文索引不是一种标引方式。汉语文本全文索引分为三种：单汉字索引、词索引和字词组合索引。 1. 单汉字索引单汉字索引：在标引时将概念词拆成单汉字，以单汉字为处理单位，利用汉字索引文件实现自动标引和逻辑检索。单汉字索引也叫“全索引”或“无索引”。处理过程：计算机对处理的文本逐一抽字，并去掉无意义的虚字；对剩下的字建立单字索引文件。举例：假设有下列两条记录：01 信息传播与检索；05 自然语言检索标引字记录数记录号与位置信 1 01，1 息 1 01，3 传 1 01，5 博 1 01，7 检 2 01，11 02，9 索 2 01，13 02，11 自 1 02，1 然 1 02，3 语 1 02，5 言 1 02，7 （1）单汉字检索的实现 ①字间位置运算算法：首先把检索字符串分解成单个汉字，并逐个在单汉字索引中进行查找，获得它们的记录号集合及各汉字在文献中的位置，然后对两个集合进行交运算，并根据检索字串中各单字的位置信息进行位置运算得出结果。位置匹配算法可以提高查准率，但算法复杂，系统运行速度慢。（1）单汉字检索的实现（续） ②检索词首字直接匹配法：即首字定位，全词匹配算法。取检索词的第一个汉字在单汉字索引中查找，获取其在数据库中的记录号和位置值，然后直接比较检索词和所得记录的子字串，若相同，则作为命中结果。首字直接匹配法在保证检索正确率的前提下，提高了算法的清晰度和运行效率。（2）单汉字索引的优缺点绕过了汉语自动分词的难题，实现比较容易，不存在词典构造负