如果您需要提取机器打印的文字内容,如扫描文档或照片中的文字,这时OCR技术就派上用场了。OCR是Optical Character Recognition的简称,它可以将扫描文档或图片中的文字信息转化成可编辑的文本格式,比如.txt或.docx。
现在市面上有很多OCR识别软件,但是大多数需要花费一定的费用,而且效果也参差不齐。不过好消息是,现在有很多开源的OCR识别库可以使用,而且还免费。
tesseract-ocr
tesseract-ocr是一个由谷歌公司开发的OCR识别库,它支持多种语言,包括中文、日文和韩文等。tesseract-ocr没有图形界面,但是我们可以通过命令行调用它。下面是一个Java的示例代码:
ProcessBuilder pb = new ProcessBuilder(