使用macos系统的ocr

使用macos系统的ocr

在尝试了几个在线了的ocr,以及Tesseract 的java封装tess4j 的表现之后,发现效果都不及macos的系统自带的ocr识别效果好。

于是就想有没有可能直接系统系统功能来完成。github上搜索一下,果然有人跟我有一样的想法,并且已经开源。https://github.com/straussmaximilian/ocrmac下面就写一个简单例子,识别发票

1
2
3
4
5
6
7
8
9
10
11
from ocrmac import ocrmac

file = './China-Fapiao-Invoice-System-2.jpeg'

def recognize_invoice_text(image_path):
return ocrmac.OCR(image_path, language_preference=['zh-Hans']).recognize()

annotations = recognize_invoice_text(file)

for annotation in annotations:
print(annotation[0])

识别结果

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
浙江增值税电矛普通发票
机器编号:661618766971
称:杭州天然气集团有限公司



訥税人识别号:
地址、电话:
开户行及账号:
货物或应税劳务、服务名称
服务费
規格型号
单位
致量
10

单价
0.94339623
发票代码:033001600211
发录号码:50843024
开柔日期:20170401
校检码:80167 52728 05105 03956
40554238005->88122-959>/636
7+14*4/-393+ +39> * + +>>/6
*8-5345*27+/<>56<0*473-/10<
>77<18<4*4/-393+<+39>-*83<<
税率

9.43
G%
0.57




价税合计(大写)
⑧壹拾凶整
称:杭州爱信诺航天信息有限公司
纳税人识别号:913301065551991560
地址、电话:杭州市西湖区万塘路30号高新东方科技园330571-81029850
开户行及账号:杭州市工行古荡支行 1202005909900032278
放款人:
复核:
¥9.43
(小写)¥10.00
¥0.57


开柔人:爱信诺
筑售方:(幸)
9E3|10836121530
发票专用章

假如你有一台macOS,那就本地运行,效果不错,还免费。

同时也测试了 https://scandocflow.com/,效果还行。假如在服务器部署,可能是一个不错的方案,每个月有50 个文档的免费配额。

https://www.newocr.com/,效果稍微差一点,但是免费配额更多。