- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术应用论文:
基于单链表和散列表比较的词频统计研究
摘要:针对操作系统课程中的词频统计实验,介绍两种分别采用单链表和散列表进行词频统计的方法,并着重说明后一种方法在效率方面的优越性。 关键词:单链表;散列表;词频统计;效率 在操作系统课程中,词频统计实验具有重要的理论价值和实用价值,一直受到广大师生的重视。该实验要求编写程序,读取一个文件,对该文件中的英文文章进行词频统计,并把统计结果存放到另一个文件中。程序的功能并不复杂,大多数学生都能完成,但是程序的效率往往不尽如人意。采用单链表和散列表进行词频统计都是该实验常用的方法。从效率方面来看,后一种方法明显优于前一种方法。 1采用单链表进行词频统计 1.1概述 在该实验中,大多数学生采用单链表进行词频统计。这种方法简洁明了,易于理解,但是程序每次从文件中读取一个单词后,都要在单链表中顺序查找该单词,这就大大降低了程序的效率。下面通过程序流程图和部分代码来说明采用单链表进行词频统计的具体过程。 1.2解决方案 1.2.1数据结构 由于程序最后要输出各单词及其出现的次数,因此要声明一个结构体类型。分别使用char型数组和int型变量存储单词及其出现的次数。这样在输出统计结果时,只要遍历单链表即可。 typedef struct wordNode { char word[length]; int iWordCount; wordNode *pNext; } wordNode; 1.2.2程序流程图 程序每次从文件中读取一个单词,删除该单词末尾可能带有的标点符号后,在单链表中顺序查找该单词。如果查找到该单词,那么把该单词出现的次数加1,不再继续查找。如果没有查找到该单词,那么把该单词插入到单链表的尾部,并把该单词出现的次数置1。等到文件中的所有单词都处理完毕后,输出统计结果。程序流程图如图1所示。 1.2.3处理单词细节 按照英文书写习惯,标点符号一般紧跟在前一个单词之后。当程序从文件中读取一个单词时,由于一旦遇到空格或换行即认为单词读取完毕,因此会出现单词和标点符号一并读取的情况。所以要定义一个函数Clip(),删除单词末尾的标点符号。对读取的单词,要判断最后一个字符是否为字母,若不是字母则将其删除。不过单词末尾的标点符号也存在一些特殊情况。例如,“a.m.”和“Mr.”等是特定的缩写,最后的“.”不能删除;“students’”最后的“’”表示复数所有格,也不能删除。以下是函数Clip()的具体代码,对有些特殊情况无法一一列举,这也是该函数不完善之处。 void Clip(char *current) { int i; i = strlen(current); if (!strcmp(current, a.m.)) return; else if (!strcmp(current, Dr.)) return; else if (!strcmp(current, Mr.)) return; else if (!strcmp(current, Mrs.)) return; else if (!strcmp(current, Ms.)) return; else if (!strcmp(current, p.m.)) return; else if ((!isalpha(current[i - 1])) (current[i - 1] != \)) { current[i - 1] = \0; } } 此外,当某个单词出现在句首和句中时,首字母有大小写之分,这会导致使用函数strcmp()判断它们是否相同时,把它们误判为不相同。所以要定义一个函数Change(),把单词中的大写字母转化为小写字母,以消除由于大小写不一致而导致的误判。以下是函数Change()的具体代码。 void Change(char *current) { for (; *current != \0; current++) { if ((*current = A) (*current = Z)) { *current += 32; } } } 1.3分析 采用单链表进行词频统计的主要操作是在单链表中进行顺序查找和在单链表尾部进行插入。程序每次从文件中读取一个单词后,都要在单链表中顺序查找该单词。反复在单链表中进行顺序查找,会大大降低程序的效率。以一篇300词的英文文章为例,
文档评论(0)