百度大腦OCR技術(shù)全分享 文字、票據檢測識別應用表現行業(yè)第一
OCR技術(shù)的應用創(chuàng )新,為整個(gè)產(chǎn)業(yè)“智能化”升級帶來(lái)有效助力。
在對“降本增效”的絕對追求下,OCR技術(shù)的應用創(chuàng )新,為整個(gè)產(chǎn)業(yè)“智能化”升級帶來(lái)有效助力。10月31日,百度大腦開(kāi)放日OCR文字識別專(zhuān)場(chǎng)在上海召開(kāi),百度AI技術(shù)生態(tài)部產(chǎn)品經(jīng)理為開(kāi)發(fā)者們詳細介紹了百度大腦最新的開(kāi)放能力,百度視覺(jué)技術(shù)部韓鈞宇深入分享了百度大腦OCR文字識別方向的最新技術(shù)與趨勢,并邀請華夏保險上海分公司、快合財稅等企業(yè)通過(guò)實(shí)際案例講述了是如何基于百度大腦OCR技術(shù),進(jìn)行企業(yè)內部智能化升級的全新思路。百度OCR產(chǎn)品經(jīng)理進(jìn)一步分享了交通、教育、醫療等更多行業(yè)應用的案例并進(jìn)行了實(shí)際的產(chǎn)品演示?;顒?dòng)現場(chǎng)座無(wú)虛席,互動(dòng)活躍。
百度大腦OCR技術(shù)持續保持業(yè)界第一
據介紹,百度大腦AI開(kāi)放平臺面向廣泛的企業(yè)和開(kāi)發(fā)者,提供最先進(jìn)、最全面的AI能力,不斷降低AI應用落地的門(mén)檻。截至目前,已開(kāi)放218項AI技術(shù)能力,達到24小時(shí)快速集成,開(kāi)發(fā)者規模持續快速增長(cháng)并突破150萬(wàn)。
而基于深度學(xué)習的百度OCR技術(shù)更是獲得了持續領(lǐng)先性的成果。2019年,在由工信部、公安部和網(wǎng)信辦組織的,中國最高等級商業(yè)領(lǐng)域人工智能技術(shù)競賽的90+隊伍中,百度OCR脫穎而出,獲得唯一A級別證書(shū),同時(shí)還獲得ICDAR2019 MLT文字檢測競賽冠軍等榮譽(yù)。
“百度OCR基礎技術(shù)的持續領(lǐng)先,離不開(kāi)更好效果的算法創(chuàng )新和更高性能的模型壓縮。”韓鈞宇介紹到。百度OCR文字識別算法具備準確、多場(chǎng)景、多語(yǔ)種、多平臺的特性,通用中英文字符識別準確率達95%以上,支持文檔,隨拍,網(wǎng)圖,街景,商品,手寫(xiě)等常見(jiàn)文字場(chǎng)景,并且支持中,英,日,韓,法,德,意等20多種語(yǔ)種,還支持云端,嵌入式,私有化等請求部署方式。而端到端識別、卡證票據識別、公式識別、文字編輯等解決方案則能夠更好地解決具體場(chǎng)景的技術(shù)痛點(diǎn)問(wèn)題,提升模型精度和運算效率,讓識別更加準確高效。
未來(lái),OCR技術(shù)的行業(yè)應用趨勢將向綜合方案和定制平臺兩個(gè)方向發(fā)展。教育、醫療、交通、財稅等場(chǎng)景都已實(shí)現通用化的綜合解決方案,而iOCR自定義模板文字識別和垂類(lèi)OCR模型訓練平臺等定制平臺將針對更豐富的客戶(hù)需求滿(mǎn)足個(gè)性定制。
百度大腦OCR實(shí)現最廣泛的應用落地
此次專(zhuān)場(chǎng),百度大腦邀請到了華夏保險上海分公司和快合財稅兩家企業(yè)客戶(hù)根據自身結合百度OCR技術(shù)的實(shí)際應用落地進(jìn)行了案例分享。
(左:華夏保險上海分公司新技術(shù)應用處經(jīng)理於維佳 右:快合財稅產(chǎn)品總監寧壽輝)
華夏保險上海分公司新技術(shù)應用處經(jīng)理於維佳表示:“通過(guò)百度大腦OCR提供的解決方案,讓我們在面臨手工錄入發(fā)票信息出錯率高、效率低等行業(yè)痛點(diǎn)時(shí),能夠顯著(zhù)的節約成本、提升財務(wù)報銷(xiāo)業(yè)務(wù)流程效率。”華夏保險上海分公司,通過(guò)應用百度大腦iOCR自定義模板文字識別和EasyDL定制化物體檢測,實(shí)現二維碼檢測、增值稅發(fā)票識別,進(jìn)而實(shí)現報銷(xiāo)單據影像分組及票面識別的自動(dòng)化業(yè)務(wù)流程,年節省人力等成本核算達到1000萬(wàn)元。
快合財稅產(chǎn)品總監寧壽輝則在現場(chǎng)講到,基于百度iOCR財會(huì )票據識別平臺搭建的快合財稅智能記賬SaaS,結合一臺自動(dòng)饋紙式掃描儀,就能夠將快合財稅的會(huì )計做賬效率提升3倍,每年幫助幾百家代賬公司在做賬報稅環(huán)節合計省出2000萬(wàn)元的成本。
最后,百度OCR產(chǎn)品經(jīng)理更加系統化的詳細介紹了金融財稅之外更多行業(yè)應用方案。目前,百度OCR已經(jīng)廣泛應用于財稅票據、身份驗證、內容審核、教育、保險醫療、交通以及拍照識別/翻譯等領(lǐng)域,并且為了滿(mǎn)足不同客戶(hù)的各種需求,百度大腦除了提供近40款垂類(lèi)文字識別產(chǎn)品外,還提供了自定義模板文字識別開(kāi)發(fā)平臺iOCR,針對特殊版式的票據可快速定制識別模板。通過(guò)這些案例,能夠看出在這些應用場(chǎng)景中,百度OCR充分發(fā)揮著(zhù)的優(yōu)勢:豐富的接口、支持自定義模板、高可用的服務(wù)確保用戶(hù)業(yè)務(wù)持久穩定、低價(jià)/多樣的付費方式(購買(mǎi)次數包,最多可以節省74.6%的費用,高精度版本低至千次7.6元),以及支持部署至私有云。
AI的大力發(fā)展,讓不同行業(yè)逐步走上了智能化升級之路,而隨著(zhù)基礎能力的進(jìn)一步開(kāi)放,百度OCR技術(shù)將獲得更多的業(yè)界專(zhuān)家和開(kāi)發(fā)者的支持,在技術(shù)不斷突破的同時(shí),百度OCR技術(shù)也通過(guò)百度大腦AI開(kāi)放平臺全面開(kāi)放給第三方使用,打破封閉的研發(fā)生態(tài),積極推動(dòng)技術(shù)在具體場(chǎng)景上的落地。從而積累更為領(lǐng)先的技術(shù),探索更多的應用場(chǎng)景,賦能更多的合作伙伴,創(chuàng )造更多的價(jià)值。
最后,對百度于2019年度公開(kāi)發(fā)表的OCR文字識別領(lǐng)域創(chuàng )新技術(shù)算法,進(jìn)行簡(jiǎn)單介紹:
文字檢測:
基于主干、候選回歸、候選區域及精細化二次回歸,文字檢測算法可對任意文字形狀進(jìn)行精確表示,解決任意形狀長(cháng)行文字檢測問(wèn)題,在公開(kāi)數據集合達到SOTA檢測定位效果。
借鑒目標檢測中的經(jīng)驗,為提升檢測速度,研究者通過(guò)單階段模型結構與多分支輸出設計對文字候選區域表達,多任務(wù)學(xué)習、單階段訓練可以取得兩階段、多階段相當的效果,并提升速度。
端到端識別:
現有文字識別系統以?xún)呻A段、多階段檢測、序列識別模型級聯(lián)為主,非規則文字識別效果精度不足。為克服同時(shí)識別規則和非規則文字效果不佳的問(wèn)題,我們提出端到端OCR識別TextNet算法,通過(guò)共享主干、透視RoI變換實(shí)現文字檢測、空間注意力機制序列識別耦合設計,同時(shí)提升非規則行的文字識別效果。
針對中文大類(lèi)別識別場(chǎng)景,我們引入弱標注數據的概念,針對街景場(chǎng)景只標注關(guān)鍵詞信息,忽略非重要信息,無(wú)需精確位置標注,避免大量精標注全監督數據高成本低效率問(wèn)題。
基于端到端-部分監督學(xué)習方法,弱標注成本是精標注的1/90,弱標識數據量從2萬(wàn)擴增到40萬(wàn),單模型平均編輯距離AED錯誤率相對降低20%。取公開(kāi)英文數據集,端到端部分監督學(xué)習在ICDAR 15端到端評測達到單模型尺度SOTA效果。
大規模公開(kāi)數據集:
為進(jìn)一步推動(dòng)中文場(chǎng)景文字識別領(lǐng)域發(fā)展,通過(guò)構建新的ICDAR 2019-LSVT大規模街景文字、ICDAR 2019-ArT任意形狀文字集合,百度攜學(xué)術(shù)界舉辦兩項ICDAR 2019場(chǎng)景文字識別的國際賽事,提供源于百度真實(shí)場(chǎng)景圖像數據45萬(wàn),獎金17,800美金,吸引業(yè)內各大企業(yè)、知名高校研究單位118支參數隊伍有效提交結果339個(gè),各大主流媒體報道20余次。百度團隊在ICDAR 2019國際會(huì )議期間受邀做總結報告并為獲獎單位頒獎,展現近年來(lái)OCR識別技術(shù)的快速發(fā)展與應用新高度。
文字編輯:
針對文字編輯和風(fēng)格遷移任務(wù),我們提出了業(yè)界首個(gè)文本行級別的文字編輯解決方案SRNet。該方案主要思想是將文字屬性遷移和背景紋理修復任務(wù)進(jìn)行解耦監督學(xué)習,并且讓網(wǎng)絡(luò )自適應學(xué)習兩者的融合,以端到端優(yōu)化方式達到魯棒的文字編輯功能。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
