- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Tesseract主要API功能介绍
tesseract本身代码是由c/c++混编而成的,其中有用的简单的接口函数几乎都是在baseapi.h中。 从其处理过程中,不难得出:它还需要有一个image处理的类,及相关的方法;这样子,读取图片后,生成image对象,再获取相关的参数;当然还需要有对image对象的读取,版面分析等接口函数;再次,它还定义了很多自身的数据类型,比如:BITS16、array_record、BLOCK、IMAGE等;而且它具有自学的能力。 现在,我们从头有调理地简单讲述一下子:(1)tesseract::TessBaseAPI,基础的接口函数,包含了初始化,简单的 处理图片文字信息,版面分析的结果体等。?(2)IMAGE,只是一个类,里边封装了相关的图片操作,包括图片的 读取,图片参数信息的获取等。?(3)其他,包括数据类型声明,相关结构体声明,跨平台处理,命令端参数提取等。?
我们在实际中用到的就是前两个里边的东西。
声明:以下函数皆是在tesseract::TessBaseAPI域 下
1: SetImage
函数声明:
void tesseract::TessBaseAPI::SetImage
(
const unsigned char *?
imagedata,
int?
width,
int?
height,
int?
bytes_per_pixel,
int?
bytes_per_line?
)
为Tesseract 提供待识别的图片。
2:SetSourceResolution
函数声明:
void tesseract::TessBaseAPI::SetSourceResolution(int?ppi)
设置源图像的分辨率(像素每英尺),可以计算最终的字体大小信息。 SetImage之后调用此函数。
3:SetRectangle
函数声明:
void tesseract::TessBaseAPI::SetRectangle
(
int?
left,
int?
top,
int?
width,
int?
height?
)
将识别限制到图像的一个子矩形区域,SetImage 之后调用此函数。每一次该函数调用后将清除识别结果,以便同一张图像可以进行多矩形区域的识别。
4:SetThresholder
函数声明:
void tesseract::TessBaseAPI::SetThresholder( HYPERLINK /dox/tesseract-ocr-3.02.02/classtesseract_1_1ImageThresholder.html ImageThresholder?*?thresholder)
在一些特殊的情况下, 通常是产生一个阈值器类的子类的时候,该函数可以提供一个不同的阈值器,阈值器可能会随着图片和设定预装入,或者被随后设定。Tesseract 拥有阈值器支配权,并在它被替换或是API被析构后删除。
5:GetThresholdedImage
函数声明:
Pix * tesseract::TessBaseAPI::GetThresholdedImage()
从Tesseract获得内部阈值图像的拷贝,在SetImage 或者TesseractRect 之后可以随时别调用。 注意,只有安装了Leptonica之后才可使用。
6:GetRegions
函数声明:
Boxa * tesseract::TessBaseAPI::GetRegions
(
Pixa **?
pixa
)
以aleptonica-style Boxa, Pixa pair 格式获得页面结构分析的结果,在Recognize前后均可被调用。
7:GetTextlines
函数声明:
Boxa * tesseract::TessBaseAPI::GetTextlines
(
Pixa **?
pixa,
int **?
blockids?
)
以aleptonica-style Boxa, Pixa pair 格式获取文本行,在Recognize前后均可被调用。如果blockids(block数目) 是空的话,每行block- id返回每行一个元素的数组,使用之后被删除。
8:GetStrips
函数声明:
Boxa * tesseract::TessBaseAPI::GetStrips
(
Pixa **?
pixa,
int **?
blockids?
)
以aleptonica-style Boxa, Pixa pair 格式获取图像区域的文本行和条形区域,方便后面非矩形区域的处理。在Recognize前后均可被调用
9:GetWords
函数声明:
Boxa * tesseract::TessBas
您可能关注的文档
最近下载
- 《开国大典》ppt课件.pptx VIP
- Unit 4 Stage and screen 课件(共30张ppt) 外研版(2019)高中英语必修第二册.pptx VIP
- 2025年青岛职业技术学院单招职业适应性测试题库及答案一套.docx VIP
- 2024年《知识产权法》形考任务1答案.pdf VIP
- 高一数学备课组长工作总结.pptx VIP
- Moldflow模流分析入门与实战 课件 1.5 创建浇注系统.pptx
- BEVERLY 比佛利 QZBW20S-16净水机 说明书.pdf
- 困难退役军人帮扶计划书.pptx VIP
- 【优质课】《马克思主义的诞生与传播》说课课件.pptx VIP
- 畜产品质量安全知识课件.pptx
文档评论(0)