网站大量收购闲置独家精品文档,联系QQ:2885784924

一些文档预处理的基本技巧.docxVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从各类数据库下载的中文文档的质量并不好,尤其是化工医药等上下标较多的文档更 是需要投入大量的精力进行前期处理。除非提供的是高质量中英文文件对,在匹配中英文 句对之前,有必要对文档(尤其是中文文档)进行处理,在此对常见的需要处理的问题及 处理的方法进行简单归纳,实际工作过程中请根据实际情况选择进行其中必要的处理。 注意:本文中中文方括号【】表示范围,在输入原来内容和替换内容时,仅输入中文方括 号内的内容! 一、 文档处理的内容及方法 以下对常用的文档处理内容和方法进行归纳。在 Word 中,弹出有哪些信誉好的足球投注网站和替换画面的快 捷键为 Ctrl+h。 1. 不完全的回车符? 文档中的标准回车符应为回车换行符,而下载的文档中常常会有一些不完全的回 车符(一般显示为【↓】),这样的不完全回车符在进行 WinAlign 句对匹配时,有 可能不能正常地断句;因此,建议将全部这样的不完全回车符替换为标准回车符。 解决方法:替换所有【^l】为【^p】(^在英文输入状态下 shift+6;l 和 p 分别为小 写的字母 l 和 p) 句首和句尾的空格 由于作为语料库的内容,格式没有任何意义,所以句首和句尾的空格都应该改予 以删除。 删除一个句首空格的方法:替换所有【^p 】为【^p】 删除一个句尾空格的方法:替换所有【 ^p】为【^p】 以上方法应重复运行多次,直至所有句首和句尾的空格删除完毕。 删除多余的空行 全部替换【^p^p】为【^p】(取消【使用通配符】的勾选) 两个汉字间多余空格的处理 中文文档中,有些汉字之间会出现多余的空格,两个汉字之间的一个空格需要删 除,处理的方法应该是: 在替换画面点击【更多】有哪些信誉好的足球投注网站选项,勾选【使用通配符】 查找内容为【([一-﨩]) ([一-﨩])】 替换内容为【\1\2】 点击【全部替换】 常见乱码的处理 特别是在从数据库中下载的中文文档中,容易带有乱码,以下是其中的一部分, 乱码可以在 WinAlign 之前或者在入库后统一行查找和修正: a) 【根据】等容易被识别成【木艮据】等,由于【艮】字不是常用汉字,所以 可以通过查找【艮】字,根据上下文确定是否修正。 b) 类似的还有【方法】、【方式】容易被误写为【万法】、【万式】等等。 二、  宏的作用与录制方法 由于前述的文档处理的步骤具有很强的通用性,因此可以把这些通用的文档处理 操作步骤全部记录下来,记录下来的一批操作步骤就是一个“宏”,在下一次对新 的文档进行处理时,调用一次所记录的宏,就可以完成进本的文档处理工作。 宏的录制方法: 以对(一)种的(1)-(4)处理各执行一次为例,录制一个名为 A_doc 的常用宏:  在 word 中,点击菜单栏的【视图】—【宏】—【录制宏】—【宏名】栏内 填入【A_doc】,点击【确定】。 按照(一)的(1)-(4)的步骤顺序执行。 点击菜单栏的【视图】—【宏】—【停止录制】。 宏的调用方法: 打开文档后,点击菜单栏的【视图】—【宏】—【查看宏】—选择【A_doc】,点 击【运行】。 例 1:中英文档推荐使用通用宏(A_align) 替换【^t】为【^p】 替换【^p 】为【^p】 使用通配符,替换【\[([0-9])([0-9])([0-9])([0-9])\]】为【^p[\1\2\3\4]】 使用通配符,替换【\[([0-9])([0-9])([0-9])([0-9])\] 】为【】 例 2:中文文档推荐使用通用宏(A_CN) a) 替换【,】为【,】,【.】为【。】,【(】为【(】,【)】为【)】。。。 (所有的全半角标点) b) 替换【万法】为【方法】,【木艮】为【根】,【才居】为【据】等 (OCR 识别中的一些错误,可通过错误类型报告来完善) c) 使用通配符,替换【([一-﨩]) ([一-﨩])】为【\1\2】

文档评论(0)

lihuamei118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档