深源恒际:解读AI技术如何优化医疗票据录入流程

深源恒际科技有限公司 2020-11-04 03:29:03

随着AI技术的深入发展,语音识别和自然语言处理技术让人们在语音交流上实现了人机交互;而作为计算机视觉领域的分支应用,OCR识别技术的演进让人们在文字信息交流上实现了人机交互。由此,人类在感知世界的两大通道(听觉和视觉)上均已实现人机交互协同,这将对未来的生产方式产生深刻影响。

 



以OCR为例,早在20世纪60年代,IBM就开始利用OCR技术实现各类文档的数字化;20世纪80年代,平板扫描仪的诞生把OCR推向了更普遍的商用阶段。当下,OCR作为一种通用技术手段,能够把不可编辑的非结构化信息转化为可编辑的结构化信息,已被广泛应用于金融、物流、医疗等领域,帮助实现信息采录和文档管理的自动化,为用户提供高效、便捷的信息管理方式。


例如,在保险理赔环节中往往涉及大量的信息处理作业,尤其在健康险核赔理算中,医疗票据录入是一项依赖大量人力的重复性劳动,每年耗费成本近百亿。传统的人工录入作业方式存在两方面不足:一是理算过程中涉及的信息量十分庞杂,人工作业难免出现疏漏或删繁就简的情况,影响理算信息的准确性,进而发生理赔渗漏,给保险公司带来不必要的经济损失;二是投入大量人力从事相对重复的事务性工作,对保险机构而言,不仅耗时费力、效率低下,而且增加了运营成本。


而基于OCR技术的落地应用,健康险核赔理算流程将得到全面、高效的优化提升。从健康险理赔端票据录入环节切入,深源恒际自主研发了医疗票据OCR识别引擎,秒级识别医疗票据类型,自动提取、录入票面文字信息,支持门诊发票、住院发票、医保结算单、费用清单、入院记录、出院小结等多类型票据识别,助力健康险实现理算信息录入自动化。目前,在无人工干预的场景下可自动化处理40%的票据结构化,结合人工干预可提升80%以上的人效比。



那么,OCR技术是如何优化提升医疗票据录入流程的?医疗票据OCR服务包括前端图像质量检测、票据自动分类、OCR识别与结构化提取、信息智能校准与纠正四大核心服务模块。四大核心功能环环相扣,以信息数字化、电子化的方式替代人工录入作业,大幅缩短理算用时,优化理赔服务流程。


图像质量检测是在拍照端对图像质量进行检测和预处理的环节。基于图像智能处理技术,当用户上传票据信息时,系统会动态检测图像质量,一方面自动捕捉清晰度高的图片,自动对图像进行优化预处理(如倾斜矫正、去遮挡等);另一方面自动识别用户上传的文件是否符合规范,如身份证、银行卡是否为原件扫描件抑或其他影印件。


基于简单易用的前端操作,图像质量检测相当于在数据上传时同步完成图像质量把控,既降低了信息识别与提取的难度,也缩短了算法模型处理图像的时耗,提高识别准确率的同时也提升了识别速度。


完成图片质量检测后,票据自动分类模块主要基于OCR识别技术对理赔材料进行自动分类,身份证、银行卡、发票单据、入院记录、出院小结等将被智能分类归集,便于算法模型对不同模板的票据进行准确识别。


OCR识别与结构化提取,基于OCR识别技术,算法模型自动识别、提取用户所上传票据单证上的文字信息,包括身份证信息、银行卡信息、医疗发票(门诊发票、住院发票)、费用清单、出院小结等,实现核赔理算信息的结构化提取,有效提升信息录入效率,减少人工核算工作量,降低人力成本。


识别过程中存在诸多技术难题,如票面信息模糊、发票折叠畸变、内容重叠遮挡、信息串行等,都会对识别准确率造成干扰。为降低或消弭噪音,深源恒际在训练算法模型时结合了畸变纠正、断点补偿、字符修正等多种图像处理手段排除干扰因素,让医疗票据专用识别模型具备很好的抗干扰能力和鲁棒性。


信息智能校准与纠正,是确保理算信息准确无误的关键环节。基于字段间的逻辑关联关系,深源恒际研发了交叉校验规则引擎,系统会自动识别出置信度较低的、可能出错的数据,通过交叉校验对存疑信息进行启发式纠正、基于医疗词典库对模糊字段进行智能校准,综合多种校验方式提高信息校对速度,辅助人工完成信息复核与补录。


从前端图像质量检测、票据自动分类到OCR识别与结构化提取,再到信息智能校准与纠正,医疗票据OCR服务一方面通过自动化作业方式取代80%以上的人工录入,全面改进了传统票据录入作业流程,高效提升理赔服务效率;另一方面基于算法持续的自我迭代与优化,健康险票据信息处理作业将不断走向标准化,进而实现理赔流程的优化提升。