- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学公式提取-WME.ppt
从Postscript格式文献中提取数学公式的方法 概述 从Postscript格式文献中提取识别数学公式, 是数学公式识别领域的一个研究方向。主要针对以Word和Latex为生成源的Postscript文档, 提出基于内容的数学公式提取方法。首先重载Postscript语言中的一些相关命令, 先后提取出 文档中的字符及由线段连接得到的图形。然后根据字符名称、字体信息、位置信息对字符进行判断分析, 提取出其中的数学符号; 对提取出的图形, 进行编码以识别出其对应的数学符号。最后, 根据得到的数学符号之间的空间位置关系, 借助启发式规则, 将数学符号合并, 提取出完整的数学公式。 PS语言 PS(Postscript) 是Adobe公司在1985年发明的一种解释性页面描述语言, 它拥有强大的图形功能以支持文字、图形与图像的显示和打印, 并可在图文编辑环境和打印设备之间传递信息, 具有设备无关性的优点。 PDF(Portable document format)是一种基于PS语言的电子文档格式。 PS和PDF文档的生成和转化 (1)编写PS语言代码。 (2)由PS/PDF虚拟打印机生成。 (3)由应用程序转化而成。(e.g:Acrobat Distiller;Divps) (4)PS和PDF文档可以通过ps2pdf/pdf2ps等程序进行相互转化。 PS语言特点 (1)基于栈的存储和执行,所有命令和操作数都存储在栈中。 (2)操作数在前,操作命令在后。 (3)支持多种数据类型。 (4)可自由定义操作命令以扩展功能。 (5)程序代码完全由ASCII字符编写,可在任意文本编辑工具中编辑。 (6)支持头文件(prolog)和脚本(script)的文件 的文件组织结构。头文件中主要包含脚本中命令和过程的定义。 PS语言由解释器进行解释执行,控制打印机或显示设备进行输出。 PS中文本的显示机制 (1)字符串 (e.g:(This is a cat)(\098)) (2)字体 (3)显示位置 (4)显示命令 (show,ashow,widthshow,awidthshow,kshow,xshow,yshow,xyshow等) PS显示文本的过程 数学符号提取 从PS文档中正确提取出数学公式的前提是提取并识别出文档中的数学符号。 由于数学符号同其他字符混杂在一起, 这需要首先提取出文档中的字符然后经过判别, 筛选出其中的数学符号。 此外, 一些数学符号不是由字符而是由图形所表示的。 例如在以Word文档为生成源的PS文档中, 根号表示为4 条顺次连接的线段。 在由Latex文档转换得到的 文档中, 根号表示为由4 条线段封闭连接形成的狭长矩形。因此, 除了提取字符, 还需要提取出这些表示特殊数学符号的图形。 字符提取 从PS文档中提取字符可以视为一个解码过程。字符提取的目标是提取出PS文档中的所有字符的相关信息。这些信息用来判断字符是否为数学符号, 包括字符名称、字体信息 字体类型和字体名称 以及位置信息。 具体步骤: (1)重载show ashow w idthshow awidthshow kshow xshow yshow xyshow等显示命令, 提取出字符串; (2)加载当前字体词典, 访问其字体类型和字体名称; (3)根据每个字符的字符编码, 在字体词典的编码 表中索引对应的字符名称; (4)对每一个字符, 根据显示命令的位置参量,设置正确的当前位置, 并用charpath命令得到其应字形的图形构造路径, 之后用 pathbbox命令得到字形的最小外接矩形; (5)对外接矩形坐标进行坐标变换, 由PS用户坐标变换至最终显示的页面坐标, 从而得到字符的 位置信息。 图形提取 绝大多数表示数学符号的图形都是由线段连接组成的封闭或开放的图形。方法是先提取出所有线段,然后找出相连接的线段以组成图形。 数学符号识别 在提取出 文档中的字符之后, 接下来是判断其是否为数学符号。判断的依据是字符的息, 包括字符名称、字体信息以及位置信息。 字符名称能够反映一个字符的本质含义,是判别数学符号的基本依据。 字体信息(包括字体类型和字体名称)也是判断数学符号的重要依据。 数学公式和普通文本的区别很大程度上在于数学符号的二维空间排列性质,因此子图位置信息也很重要。 对于提取出的图形,先对其进行编码,然后根据编码识别其对应的数学符号。首先给出一个绘制方向的定义:
文档评论(0)