
银行对账单 OCR:我们如何在扫描件上达到 99.7% 的准确率
真正能用的银行对账单 OCR 工具。处理了 200 万+ 页后,我们搞清了通用 OCR 在金融文件上失败的原因。
通用 OCR 为什么搞不定银行对账单
说实话,我们一开始做银行对账单转换器的时候,以为 OCR 是个已经解决的问题。Tesseract、Google Vision、Amazon Textract——随便哪个应该都能处理银行对账单吧?
事实证明我们想多了。把 50,000 份扫描版银行对账单丢给通用 OCR 工具,准确率只有 72% 左右。问题不在字符识别——是结构。银行对账单不是普通的文字页面,它是一个有特定列的表格(日期、描述、金额、余额),需要正确关联。通用 OCR 只看到字符,不理解第 14 行第三列的 "$1,234.56" 是借方还是贷方。
2024 年底我们意识到这个问题后,就不再试图在通用转换器上加 OCR 了,而是开始构建专门理解银行对账单布局的解析器。
银行对账单 OCR 到底需要做什么
大多数人以为 OCR 就是"把图片变成文字"。对银行对账单来说,这大概只占整个工作的 30%。完整的处理流程是:
- 图像预处理 — 纠正倾斜、去噪、调整对比度。扫描件哪怕只歪了 0.5°,都可能影响列检测。
- 字符识别 — 真正的 OCR 步骤。Tesseract 等工具做的就是这个。
- 表格结构检测 — 识别列、行,确定哪些单元格属于同一条记录。问题主要出在这里。
- 金融数据解析 — 理解 "1,234.56" 是数字,"03/15" 是日期,"PAYMENT THANK YOU" 是描述。
- 多行处理 — 很多交易跨两三行。通用 OCR 把每行当独立数据,但银行对账单解析器需要知道它们是同一笔交易。
第 3 步我们吃了大亏。2025 年初,一家会计事务所给了我们 800 份 Commonwealth Bank 对账单。字符识别没问题,但大约 15% 的情况下金额被分配给了错误的交易。原因?Commonwealth 使用可变宽度的描述列——描述长的时候会把金额列往右推。我们的列检测用的是固定位置,不得不重建成动态边界检测。
扫描件 vs 数字 PDF
一个让我们很意外的发现:我们收到的"扫描件" PDF 中,大约 40% 其实不是真正的扫描件。它们是数字 PDF 被人打印出来再扫描回去的产物。这在会计工作流中极其常见——客户从网银下载对账单,打印出来交给会计,会计再扫描成 PDF。
这种"二次扫描"的文件质量会大幅下降。原始数字 PDF 有完美的文本层,任何解析器都能直接提取。二次扫描的版本有模糊字符、可能的倾斜、扫描伪影,有时还有页面翘曲的阴影。
我们的转换器会自动检测。如果是数字 PDF,直接跳过 OCR 提取文本——更快且 100% 准确。如果是真正的扫描件,才启动完整的 OCR 流程。仅这一项检测就让平均处理时间缩短了 60%,因为比你想象的更多文件其实是数字 PDF。
我们的准确率数据(以及如何衡量)
我们报告的整体准确率是 99.7%,但这个数字需要分场景看:
- 数字 PDF(原生文本层):99.95% 准确率。这里的错误来自格式异常,不是字符识别。
- 高质量扫描件(300+ DPI):99.6% 准确率。这个分辨率下字符识别基本完美,剩余错误是结构性的。
- 低质量扫描件(150 DPI 以下):96.8% 准确率。难度上升——细字体糊在一起,小数点消失,"1" 看起来像 "l"。
- 手机拍照的对账单:93.2% 准确率。我们支持,但效果不稳定,取决于光线、角度和对焦。
与其他工具在同一组 5,000 份扫描对账单上的对比测试:
| 工具 | 准确率(扫描件) |
|---|---|
| 我们的转换器 | 99.6% |
| Adobe Acrobat Pro OCR | ~80% |
| Smallpdf | ~75% |
| iLovePDF OCR | ~75% |
| 手动复制粘贴 | ~60% |
差距在多页对账单上最大。Adobe 的 OCR 处理单页没问题,但它不维护跨页交易的连续性。Chase 和 Wells Fargo 的对账单经常出现交易描述在一页开始、金额在下一页出现的情况。
多行交易问题
这个问题值得单独讲,因为它是银行对账单 OCR 中最大的错误来源,但几乎没人讨论。
看看 Chase 对账单的常见格式:
03/15 AMAZON.COM*MK4TL5A -$47.99
AMZN.COM/BILLWA
03/15 UBER *TRIP HELP -$23.45Amazon 交易的第二行是续行——它是同一笔交易的一部分,不是新交易。通用 OCR 工具看到四行文本就试图生成四笔交易。竞品工具中 15% 的错误率就是这么来的。
我们的解析器用模式识别来检测续行。如果某行不以日期模式开头,且在金额列位置没有数字,就是上一笔交易的续行。这套逻辑是分析了 10,000+ 种银行对账单格式后建立的,每家银行都有自己的规则。
HSBC 用缩进表示续行,Bank of America 用完全空白的第一列,Commonwealth Bank 有时换行有时截断。我们都能处理,因为我们都见过。
支持的银行
我们已处理超过 10,000 种银行对账单格式。按量排名靠前的:
- Chase — 所有账户类型(支票、储蓄、信用卡、企业)
- Bank of America — 包括 2022 年之前的旧格式
- Wells Fargo — 个人和商业账户
- Commonwealth Bank — 澳洲格式,包括双语对账单
- HSBC — 全球对账单,多币种
- Citi — 美国和国际版本
但银行对账单 OCR 的关键是长尾。前 20 家银行大概占我们 60% 的量,但我们也为地区信用社、国际银行甚至一些生成非标 PDF 的金融科技"银行"构建了解析器。
遇到新格式时,我们的系统会标记它。通常 24-48 小时内添加支持。2025 年我们新增了 847 种银行格式——平均每天 2-3 种。
一个真实的失败案例
2026 年 1 月,一家会计事务所给我们发了 1,200 份德克萨斯州一家地区银行的扫描对账单。我们在这批文件上的准确率只有 87%——远低于正常水平。
问题出在银行的字体。他们用的是窄体无衬线字体,数字 "0" 和字母 "O" 几乎一模一样,数字 "1" 和小写字母 "l" 完全相同。在高质量打印件上能分辨,但在 200 DPI 扫描件上?没可能。
我们不得不专门建一个上下文感知的修正层:如果字符出现在我们知道应该是数字的列中,且看起来像 "O" 或 "l",就替换为 "0" 或 "1"。这条规则听起来简单,但需要仔细调优——你不能把描述列中的合法字母也改了。
修复后准确率从 87% 提升到 99.1%。这个改进被合并到主流程,现在也帮助处理使用类似字体的其他银行。一个客户的问题让工具对所有人都变得更好了。
处理速度
OCR 计算量大,但我们知道没人想等。当前基准:
- 数字 PDF:每页约 5 秒
- 高质量扫描件:每页约 15 秒
- 需要大量预处理的扫描件:每页约 30 秒
典型的 3 页月度对账单需要 15-45 秒。批量处理时我们会并行化,所以 12 份月度对账单大约 2-3 分钟就能完成,不是单份时间的 12 倍。
我们的管道已处理超过 200 万页。峰值时每天处理约 50,000 页。
OCR 的局限
我想坦诚说明 OCR 不够好的场景:
- 对账单上的手写笔记 — 如果有人在页边写了字,我们的解析器会忽略(通常这是你想要的),但偶尔墨迹会覆盖打印文字。
- 严重涂改的对账单 — 如果账号或交易被记号笔涂黑了,OCR 恢复不了下面的内容。
- 热敏纸扫描件 — 一些旧对账单打印在会褪色的热敏纸上。如果褪色严重,再好的 OCR 也读不出来。
- 浅色叠浅色打印 — 少数银行把金额印成浅灰色背景上的浅灰色字。对比度太低,OCR 识别困难。
对于这些边缘情况,我们标记有问题的交易而不是猜测。你会得到转换后的 Excel 文件,其中 OCR 置信度低的单元格被高亮显示,你知道哪些需要手动核实。
开始使用
上传扫描的银行对账单(PDF、PNG 或 JPEG),我们会自动检测是否需要 OCR。每天 10 页免费试用。
输出是格式规范的 Excel 文件:日期、描述、借方、贷方、余额,各列清晰。可直接导入 QuickBooks、Xero 或你使用的其他软件。
如果你手上有一大摞扫描对账单——报税季、审计准备或客户入职——批量上传支持一次最多 50 个文件。
对你的银行 OCR 准确率有疑问?发邮件给 [email protected]——我们会帮你测试样本。
更多文章

如何将Chase银行交易记录下载为Excel电子表格
分步指南:将Chase银行交易历史下载为Excel格式。涵盖日期范围选择、文件类型、1000行限制以及Chase导出功能不足时的解决方案。


How to Convert ANZ Bank Statements to Excel
Convert ANZ Australia PDF bank statements to Excel and CSV. Works with ANZ Access, Progress Saver, credit cards, and business accounts. Fast, accurate, secure.


Convert Tax Statements to Excel
Convert bank statements and financial documents to Excel for tax preparation. Organize deductions, track expenses, and simplify filing.

邮件列表
加入我们的社区
订阅邮件列表,及时获取最新消息和更新