609 B
609 B
Post-OCR Data Extraction Project
项目愿景
实现工厂环境下信封背面信息的自动化提取与结构化录入。
技术栈
- OCR: PaddleOCR (本地部署)
- 数据处理: Python, Pandas
- 解析逻辑: 正则表达式 + 语义校验
目录结构
data/input/: 原始图片存放处data/output/: 结果 Excel 及处理日志src/: 源代码
开发规范
- 错误处理:所有 OCR 失败或解析不完全的记录必须记录在
data/output/error_log.csv中。 - 验证:在保存前进行邮编(6位)和电话(正则)的合法性校验。