使用macos系统的ocr
在尝试了几个在线了的ocr,以及Tesseract 的java封装tess4j 的表现之后,发现效果都不及macos的系统自带的ocr识别效果好。
于是就想有没有可能直接系统系统功能来完成。github上搜索一下,果然有人跟我有一样的想法,并且已经开源。https://github.com/straussmaximilian/ocrmac下面就写一个简单例子,识别发票
1 2 3 4 5 6 7 8 9 10 11
| from ocrmac import ocrmac
file = './China-Fapiao-Invoice-System-2.jpeg'
def recognize_invoice_text(image_path): return ocrmac.OCR(image_path, language_preference=['zh-Hans']).recognize()
annotations = recognize_invoice_text(file)
for annotation in annotations: print(annotation[0])
|
识别结果
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
| 浙江增值税电矛普通发票 机器编号:661618766971 称:杭州天然气集团有限公司 购 买 方 訥税人识别号: 地址、电话: 开户行及账号: 货物或应税劳务、服务名称 服务费 規格型号 单位 致量 10 区 单价 0.94339623 发票代码:033001600211 发录号码:50843024 开柔日期:2017年04月01日 校检码:80167 52728 05105 03956 40554238005->88122-959>/636 7+14*4/-393+ +39> * + +>>/6 *8-5345*27+/<>56<0*473-/10< >77<18<4*4/-393+<+39>-*83<< 税率 税 9.43 G% 0.57 售 方 合 计 价税合计(大写) ⑧壹拾凶整 称:杭州爱信诺航天信息有限公司 纳税人识别号:913301065551991560 地址、电话:杭州市西湖区万塘路30号高新东方科技园3幢3层 0571-81029850 开户行及账号:杭州市工行古荡支行 1202005909900032278 放款人: 复核: ¥9.43 (小写)¥10.00 ¥0.57 卒 注 开柔人:爱信诺 筑售方:(幸) 杭 9E3|10836121530 鸟 发票专用章
|
假如你有一台macOS,那就本地运行,效果不错,还免费。
同时也测试了 https://scandocflow.com/,效果还行。假如在服务器部署,可能是一个不错的方案,每个月有50 个文档的免费配额。
https://www.newocr.com/,效果稍微差一点,但是免费配额更多。