我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Java使用Tesseract-Ocr识别数字

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Java使用Tesseract-Ocr识别数字

前言

Tesseract-Ocr是我在编写爬虫项目中,用来识别图片(不是验证码)的本地解决方案(因为客户不想使用API识别,太贵),识别率目前达到了100%,可以说是相当了得,当然了,这取决于使用的traineddata。

简介

Tesseract最初是在1985年至1994年间在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co开发的,1996年进行了一些更改,移植到Windows,并且随着C++在1998年兴起。2005年Tesseract由惠普开源,然后从2006年至今,由谷歌继续开发。

Tesseract-Ocr并不是一个软件,它是一个软件包,包含了一个OCR引擎【libtesseract】和一个命令行程序 【tesseract】。Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于行级识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。

要启用与Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它还需要支持传统引擎的traineddata(训练好的数据文件),这些文件可以从tessdata存储库的文件获取。

Tesseract支持识别unicode(UTF-8),可以“开箱即用”识别100多种语言。

Tesseract支持多种输出格式:纯文本,hOCR(HTML),PDF,TSV。主分支还具有ALTO(XML)输出的实验支持。

⭐️⭐️⭐️ 具体介绍可以上tesseract-wiki查看。

在Java上使用

创建项目,并引入Jar包

Maven


<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

Gradle


compile 'net.sourceforge.tess4j:tess4j:4.3.1'

导入traineddata

traineddata是使用Tesseract-Ocr训练好的数据文件,可以直接使用。这些文件你可以去tessdata存储库查找,也可以去谷歌搜索,当然了,你也可以自己训练😂。

traineddata通常以*.traineddata命名,其中*指的是支持的语言类型。在这里你可以看到4.0.0版本支持的语言以及traineddata列表。

这次,我们选择eng.traineddata进行测试。下载eng.traineddata放入/resources/traineddata目录。

编写测试代码

初始化Tesseract引擎


public class TesseractTest {

    private ITesseract tesseract;

    @Before
    public void init() {
        tesseract = new Tesseract();
        System.out.println("tesseract init done...");
    }

}

实际上,上面的代码是无法正常运行的,因为找不到指定语言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract构造函数中,没有提供可选参数的构造器。


public class Tesseract implements ITesseract {

    // Tesseract使用的语言版本,用以选择traineddata
    private String language = "eng";
    // traineddata目录,里面放*.traineddata数据文件
    private String datapath;
	
    // 省略其他代码 ...

    public Tesseract() {
        try {
            // 默认从系统环境变量获取traineddata目录
            datapath = System.getenv("TESSDATA_PREFIX");
        } catch (Exception e) {
            // ignore
        } finally {
            if (datapath == null) {
                datapath = "./";
            }
        }
    }
    
    
    @Override
    public void setLanguage(String language) {
        this.language = language;
    }
    
    
    @Override
    public void setDatapath(String datapath) {
        this.datapath = datapath;
    }
    
    // 省略其他代码 ...
}

所以,我们可以选择设置环境变量TESSDATA_PREFIX为数据目录,或者通过Java编码的方式来设置。


tesseract.setLanguage("eng"); // 默认就是eng,你可以选择其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));

OCR识别测试
tesseract提供了一系列doOcr方法的重载,我们可以方便的进行OCR识别。


String doOCR(File imageFile) throws TesseractException;

String doOCR(File imageFile, Rectangle rect) throws TesseractException;

String doOCR(BufferedImage bi) throws TesseractException;

String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出,doOcr方法支持多种图片识别方式,如图片文件、多个图片文件、图片文件局部处理等等方式。

为了方便测试,我们选取最简单的图片文件方式测试。

图片是个URL链接,如下所示


@Test
public void testOcr() throws IOException, TesseractException {
    BufferedImage image = ImageIO.read(new URL("http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png"));
    String ocr = tesseract.doOCR(image);
    System.out.println("ocr result : " + ocr);
}

控制台输出:


tesseract init done...
ocr result : 2710386495

识别准确率,主要在于你选择的训练数据文件,我使用的是数据文件是这个,对于数字的准确率基本上是100%。

异常
如果你遭遇Invalid memory access异常,这是由于找不到对应lang的*.traineddata文件,请修改language和datapath。


Invalid memory access
java.lang.Error: Invalid memory access
	at com.sun.jna.Native.invokePointer(Native Method)
	at com.sun.jna.Function.invokePointer(Function.java:470)
	at com.sun.jna.Function.invoke(Function.java:404)
	at com.sun.jna.Function.invoke(Function.java:315)
	at com.sun.jna.Library$Handler.invoke(Library.java:212)
	at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
	at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
    ...

训练工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

训练数据仓库

  • tessdata_best:基于LSTM引擎的训练数据,最佳最准确的
  • tessdata_fast:基于LSTM引擎的训练数据,快速(精简)版本
  • tessdata:支持双引擎(LSTM和传统引擎),但LSTM训练数据不是最新的版本

推荐使用tessdata_best,虽然识别速度相对于tessdata_fast稍慢,但是准确率可以保证。

参考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr识别数字的详细内容,更多关于Java 识别数字的资料请关注编程网其它相关文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Java使用Tesseract-Ocr识别数字

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何在Java项目中使用OCR tesseract实现一个图文识别功能

如何在Java项目中使用OCR tesseract实现一个图文识别功能?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。代码:package com.zhy.test; im
2023-05-31

Java如何使用Tessdata做OCR图片文字识别

这篇文章主要介绍“Java如何使用Tessdata做OCR图片文字识别”,在日常操作中,相信很多人在Java如何使用Tessdata做OCR图片文字识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Java如
2023-06-20

如何利用OCR文字识别各种图文

这篇文章主要讲解了“如何利用OCR文字识别各种图文”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何利用OCR文字识别各种图文”吧!【先上一张效果图】:一、原理:其实原理很简单:1.手机投屏
2023-06-19

OpenCV使用KNN完成OCR手写体识别

这篇文章主要为大家介绍了OpenCV使用KNN完成OCR手写体识别示例解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-05-19

Python通用验证码识别OCR库怎么使用

本篇内容主要讲解“Python通用验证码识别OCR库怎么使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python通用验证码识别OCR库怎么使用”吧!传统验证码传统验证就是数字、字母、汉字等
2023-06-30

如何用Python实现图像文字识别OCR工具

这篇文章主要介绍“如何用Python实现图像文字识别OCR工具”,在日常操作中,相信很多人在如何用Python实现图像文字识别OCR工具问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用Python实现图像
2023-06-22

如何在java项目中利用ocr实现一个图片文字识别功能

这期内容当中小编将会给大家带来有关如何在java项目中利用ocr实现一个图片文字识别功能,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现g
2023-05-31

如何使用Python识别手势数字

这篇文章主要介绍如何使用Python识别手势数字,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!前言谷歌出了一个开源的、跨平台的、可定制化的机器学习解决方案工具包,给在线流媒体(当然也可以用于普通的视频、图像等)提供了
2023-06-15

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录