网站大量收购闲置独家精品文档,联系QQ:2885784924

信息计量第七章.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

齐普夫定律的应用

——英语单词的选择《教师二万词词书》——词频法统计词汇的最重要的一部文献——美国教育学家桑戴克(EL.Thorndike):TeachersWordBookof20,000Words选择出常用的词汇20,000个,依照每个词在这些文献中出现出现的频率分成20级,每级1000个词,用1,2,3....20来标记。25万字的儿童文学读物300万字左右的圣经和英国古典文学作品,30万字左右的小学课本,5万字左右的有关烹饪,缝纫,农艺,商业之类的著作9万字左右的新闻报纸5万字左右的书信,共41种不同的文献根据Ogden在1967年版的EncyclopaediaBritanica中对BasicEnglish的定义,对于一个英语国家的成年人,应认识20000个单词,除语言专家外,普通人遇到的单词量一般不超过60000个。问题:假定这60000个单词在文献中出现的频次服从Zipf定律,那么一个人如果认识上述20000个常用单词,即当m=20000时(1/3),对英文读物的词汇覆盖率有多大?**单击此处添加小标题齐夫定律的启示——英语单词的选择单击此处添加小标题由nr=k/r可知,排列在前m个等级词出现的总频次为:单击此处添加小标题由调和级数求和公式(欧拉公式)可知:单击此处添加小标题所以近似有:单击此处添加小标题单词覆盖率:**英语单词的选择问题设?为覆盖率,则从理论上讲,只要熟练掌握1/3的高频词,就可以“读懂”含有6万个不同词(词组)的文献内容的90%。“四级”考试:450077.63%“六级”考试:550079.36%PETS5需要600080.12%TOEFL词汇800082.3%**第六节

布-齐-洛定律分布一致性**信息计量学的三大基本定律研究和发展的两个方面:一,对每一定律的内涵及经验公式的深入研究,从而获得更一般、更精确的定律表达式二,发现并深入研究三定律之间内在分布的一致性及其理论基础问题**三定律的形式及特点布拉德福定律及其特点基本思想:将科学期刊按其刊载某学科论文数量多少,以渐减的次序进行排列,分为三个区,每一区中期刊所载相关论文数量基本相等的条件下,得出各区期刊数量比例为1:a:a2(a为比例系数)基本内容描述:文字表达与图象表达**参数c值的推论设N’为总词次数,fr为等级为r的词出现的频率,则有如下关系fr=nr/N’对于fr=cr-1,对于上式,当D(最末一级词的等级序号)比较大时,当取D为一定数值时,计算其对应的c值:Dc50000.11100000.10500000.091000000.08**010302040506添加标题对Zipf定律的几点讨论添加标题高频词区添加标题高频词作用的局限性添加标题低频词区添加标题中频词区添加标题英语、拉丁语的词频分布logo同频词的排序lnr(lnnr)序号递增(lnr)词频相同在随机排序中,同频词的出现将随词频的降低而增多,产生“阶梯”状图形。试验证明:当15r1500时,同频词不多;当r1500时,大量的同频词出现。因同频词存在,低频词区呈阶梯状分布。而采用其他排序方法则不存在阶梯状分布。lnnr0102**第三节齐普夫定律的修正和发展**齐普夫定律的修正——双参数模型1936年美国语言学家朱斯(M.Joos)提出的双参数模型——“通用齐夫定律”(GeneralizedZipf’sLaw)nr=k/rb或fr=c/rb式中,b0,c0,r=1,2,3.......,D)且满足对上式取对数,图像显示为一斜率为-b的直线。怀利斯()对8个不同样本的研究结果:0.89b-1.04。**logo齐普夫定律的修正——三参数模型1952年美籍法国数学家曼代尔布罗特(B.Mandelbrot)提出三参数模型:对于齐夫定律的表述,许多工具书大都采用类似观点和说法。如英国著名的语言学著作《语言与语言词典》中对词频分布定律的释义是:“指谈话者或写作者使用的词的分布和频次的总描述。f·r=c,方程式中f=频次,r=序号,即频率表上的位置

文档评论(0)

shaoye348 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档