网站大量收购独家精品文档,联系QQ:2885784924

Tesseract主要API功能介绍.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Tesseract主要API功能介绍

tesseract本身代码是由c/c++混编而成的,其中有用的简单的接口函数几乎都是在baseapi.h中。 从其处理过程中,不难得出:它还需要有一个image处理的类,及相关的方法;这样子,读取图片后,生成image对象,再获取相关的参数;当然还需要有对image对象的读取,版面分析等接口函数;再次,它还定义了很多自身的数据类型,比如:BITS16、array_record、BLOCK、IMAGE等;而且它具有自学的能力。 现在,我们从头有调理地简单讲述一下子: (1)tesseract::TessBaseAPI,基础的接口函数,包含了初始化,简单的 处理图片文字信息,版面分析的结果体等。? (2)IMAGE,只是一个类,里边封装了相关的图片操作,包括图片的 读取,图片参数信息的获取等。? (3)其他,包括数据类型声明,相关结构体声明,跨平台处理,命令端参数提取等。? 我们在实际中用到的就是前两个里边的东西。 声明:以下函数皆是在tesseract::TessBaseAPI域 下 1: SetImage 函数声明: void tesseract::TessBaseAPI::SetImage ( const unsigned char *? imagedata, int? width, int? height, int? bytes_per_pixel, int? bytes_per_line? ) 为Tesseract 提供待识别的图片。 2:SetSourceResolution 函数声明: void tesseract::TessBaseAPI::SetSourceResolution(int?ppi) 设置源图像的分辨率(像素每英尺),可以计算最终的字体大小信息。 SetImage之后调用此函数。 3:SetRectangle 函数声明: void tesseract::TessBaseAPI::SetRectangle ( int? left, int? top, int? width, int? height? ) 将识别限制到图像的一个子矩形区域,SetImage 之后调用此函数。每一次该函数调用后将清除识别结果,以便同一张图像可以进行多矩形区域的识别。 4:SetThresholder 函数声明: void tesseract::TessBaseAPI::SetThresholder( HYPERLINK /dox/tesseract-ocr-3.02.02/classtesseract_1_1ImageThresholder.html ImageThresholder?*?thresholder) 在一些特殊的情况下, 通常是产生一个阈值器类的子类的时候,该函数可以提供一个不同的阈值器,阈值器可能会随着图片和设定预装入,或者被随后设定。Tesseract 拥有阈值器支配权,并在它被替换或是API被析构后删除。 5:GetThresholdedImage 函数声明: Pix * tesseract::TessBaseAPI::GetThresholdedImage() 从Tesseract获得内部阈值图像的拷贝,在SetImage 或者TesseractRect 之后可以随时别调用。 注意,只有安装了Leptonica之后才可使用。 6:GetRegions 函数声明: Boxa * tesseract::TessBaseAPI::GetRegions ( Pixa **? pixa ) 以aleptonica-style Boxa, Pixa pair 格式获得页面结构分析的结果,在Recognize前后均可被调用。 7:GetTextlines 函数声明: Boxa * tesseract::TessBaseAPI::GetTextlines ( Pixa **? pixa, int **? blockids? ) 以aleptonica-style Boxa, Pixa pair 格式获取文本行,在Recognize前后均可被调用。如果blockids(block数目) 是空的话,每行block- id返回每行一个元素的数组,使用之后被删除。 8:GetStrips 函数声明: Boxa * tesseract::TessBaseAPI::GetStrips ( Pixa **? pixa, int **? blockids? ) 以aleptonica-style Boxa, Pixa pair 格式获取图像区域的文本行和条形区域,方便后面非矩形区域的处理。在Recognize前后均可被调用 9:GetWords 函数声明: Boxa * tesseract::TessBas

文档评论(0)

tiangou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档