Java使用Tess4J实现图像识别基础

作者:じ☆ve宝贝

发布时间:2019-02-20T11:26:59

最近要识别图表数据,最先使用腾讯的AI接口,正确率高,识别率高,但是有些需求不符合,因此需要再次调研图像识别工具。故寻找到TESSERACT-OCR和Tess4J。由于TESSERACT-OCR需要下载软件,在电脑上安装环境,移植性不高,使用Tess4J只需要下载相关Jar包,导入项目,再把项目封装好就可以处处运行了。 因此先尝试使用Tess4J来实验。

下载Tess4J的相关资源官网:

http://tess4j.sourceforge.net/codesample.html

资源下载:https://jaist.dl.sourceforge.net/project/tess4j/tess4j/3.4.8/Tess4J-3.4.8-src.zip

目录结构

lib文件夹下放的是需要用到的Jar包 tessdata下放的是语言库,默认的有英语库,中文库需要另外下载,下载地址:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata。 src:项目源码 test:测试案例目录

使用中文语言库

instance.setLanguage("chi_sim");