- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
文本文件单词的检索与计数
专业:软件工程班级:1227班姓名:王晓春学号:74同
组人:王晓春闫瑞娟张泽磊组长:王晓春完成日期:
一.【问题描述】
串是非数值处理中的主要对象,如在信息检索、文本编辑、符号处理等许多
领域,得到越来越广泛的应用。在高级语言中也引入了串数据类型概念,并且串
变量与其他变量〔如整型、实型等〕一样,可以进行各种运算。
然而,在各种不同类型的应用中,所处理的串有不同的特点,要想有效地实现
串的处理,就必须熟悉串的存储结构及其根本运算。本课程设计的目的就是熟悉
串类型的实现方法和文本模式匹配方法,熟悉如何利用模式匹配算法实现一般的
文本处理技术。
本课程设计分两步:首先,设计出串定位算法〔即模式匹配算法〕及其实现;
然后,再利用串定位算法设计文本文件的检索及单词的计数等操作。
二.【设计需求及分析】
1.设计要求
串模式匹配算法的设计要求
在串的根本操作中,在主串中查找模式串的模式匹配算法——即求子串位置的
函数Index(S,T),是文本处理中最常用、最重要的操作之一。
所谓子串的定位就是求子串在主串中首次出现的位置,又称为模式匹配或串匹
配。模式匹配的算法很多,在这里只要求用最简单的朴素模式匹配算法。该算法的
根本思路是将给定子串与主串从第一个字符开始比拟,找到首次与子串完全匹配的
子串为止,并记住该位置。但为了实现统计子串出现的个数,不仅需要从主串的
第一个字符位置开始比拟,而且需要从主串的任一给定位置检索匹配字符串,所以,
首先要给出两个算法:
1.标准的朴素模式匹配算法
2.给定位置的匹配算法
文本文件单词的检索与计数的设计要求
要求编程建立一个文本文件,每个单词不包含空格且不跨行,单词由字符序
列构成且区分大小写;统计给定单词在文本文件中出现的总次数;检索输出某个
单词出现在文本中的行号、在该行中出现的次数以及位置。
该设计要求可分为三个局部实现:其一,建立文本文件,文件名由用户用键
盘输入;其二,给定单词的计数,输入一个不含空格的单词,统计输出该单词在文
本中的出现次数;其三,检索给定单词,输入一个单词,检索并输出该单词所在的
行号、该行中出现的次数以及在该行中的相应位置。
1.建立文本文件
2.给定单词的计数
3.检索单词出现在文本文件中的行号、次数及其位置
1/91/9
4.主控菜单程序的结构
2.概要设计例如如下:
算法设计
朴素模式匹配算法
该算法的根本思想是:设有三个指针——i,j,k,用i指示主串S每次开始比拟的
位置;指针j,k分别指示主串S和模式串T中当前正在等待比拟的字符位置;一开始
从主串S的第一个字符〔i=0;j=1〕和模式T的第一个字符〔k=0〕比拟,假设相等,
那么继续逐个比拟后续字符〔j++,k++〕。否那么从主串的下一个字符〔i++〕
起再重新和模式串〔j=0〕的字符开始比拟。依此类推,直到模式T中的所有字符都
比拟完,而且一直相等,那么称匹配成功,并返回位置i;否那么返回-1,表示
匹配失败。
顺序串的模式匹配算法如下:
intindex(SStringS,SStringT)
{
立文本文件
建立文件的实现思路是:
〔1〕定义一个串变量;
〔2〕定义文本文件;
〔3〕输入文件名,翻开该文件;
〔4〕循环读入文本行,写入文本文件,其过程如下:
While(不是文件输入结束){
读入一文本行至串变量;
串变量写入文件;
输入是否结束输入标志;
}
〔5〕关闭文件。
2.给定单词的计数
该功能需要用到前一节中设计的模式匹配算法,逐行扫描文
文档评论(0)