國內首份OCR白皮書(shū)正式發(fā)布,騰訊云引領(lǐng)OCR技術(shù)產(chǎn)業(yè)化落地
騰訊云開(kāi)發(fā)的天鑒OCR服務(wù)引擎自動(dòng)化評測平臺,不僅能夠為OCR技術(shù)供給方提供技術(shù)測試服務(wù),也將發(fā)布OCR技術(shù)或產(chǎn)品的測試結果,為需求方提供客觀(guān)公正的選型依據。
9月28日,在工業(yè)和信息化部、北京市人民政府、國際電信聯(lián)盟ITU-T指導的2020AIIA人工智能開(kāi)發(fā)者大會(huì )上,主辦方正式發(fā)布國內首份智能文字識別(OCR)能力測評與應用白皮書(shū)。白皮書(shū)從OCR發(fā)展背景、技術(shù)沿革、產(chǎn)業(yè)發(fā)展現狀、技術(shù)標準化、發(fā)展趨勢等多個(gè)維度,對當前國內OCR產(chǎn)業(yè)進(jìn)行了一次詳細梳理,全面助推OCR技術(shù)產(chǎn)業(yè)化加速落地及可持續發(fā)展。
OCR是光學(xué)字符識別(Optical Character Recognition)的縮寫(xiě),指利用機器將圖像中手寫(xiě)體或印刷體的文本轉換為計算機可以直接處理的格式。作為計算機視覺(jué)領(lǐng)域的重要分支,OCR典型應用是通過(guò)圖像文字識別實(shí)現信息錄入。同時(shí),由于文字和符號包含豐富的語(yǔ)義信息,基于OCR提取文字信息繼而進(jìn)行分析,能夠幫助機器更好地理解圖像。
據了解,這份白皮書(shū)是由中國信息通信研究院、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟、騰訊云AI計算機視覺(jué)中心、騰訊安全戰略研究部、騰訊優(yōu)圖實(shí)驗室聯(lián)合起草。
新基建帶來(lái)新機遇,OCR技術(shù)發(fā)展三大趨勢
借助人工智能技術(shù),近年來(lái)OCR性能的不斷提升為產(chǎn)業(yè)數字化催生出的更復雜的OCR應用場(chǎng)景提供了堅實(shí)支撐。同時(shí),覆蓋手機、電子產(chǎn)品以及云服務(wù)在內的更加多樣化的服務(wù)載體,進(jìn)一步加快了OCR的普及,持續向社會(huì )生產(chǎn)生活的更多領(lǐng)域滲透。
尤其是今年4月,發(fā)改委明確將人工智能基礎設施列入“新基建”范圍,作為人工智能應用中最接“地氣”,商業(yè)推廣較為成熟的領(lǐng)域,OCR產(chǎn)業(yè)在“新基建”背景下無(wú)疑將迎來(lái)新的發(fā)展機遇,相關(guān)技術(shù)也將迎來(lái)新一輪的變革。
報告指出,OCR技術(shù)未來(lái)發(fā)展的三大方向主要包括一體化的端到端OCR模型、兼具高性能高效率的OCR、從感知到認知的智能OCR。
詳細來(lái)說(shuō),構建一體化的端到端網(wǎng)絡(luò ),同時(shí)對文字檢測和識別進(jìn)行訓練,將成為OCR技術(shù)發(fā)展的重要趨勢之一。端到端的網(wǎng)絡(luò )設計不僅能夠減少重復計算,又能夠提高特征的質(zhì)量,促進(jìn)任務(wù)性能的改善。同時(shí),大量的OCR應用需要在資源受限的移動(dòng)端設備上運行,當前移動(dòng)端OCR算法大多以犧牲一定的算法精度來(lái)?yè)Q取運行速度,針對移動(dòng)設備設計兼顧性能和效率的輕量OCR模型將是未來(lái)發(fā)展的重要方向。
另外,從感知到認知的智能OCR來(lái)說(shuō),OCR技術(shù)通常從計算機視覺(jué)領(lǐng)域出發(fā),未來(lái)與自然語(yǔ)言處理技術(shù)、知識圖譜等更廣領(lǐng)域的交叉融合,通過(guò)語(yǔ)義及知識的深度挖掘提升OCR性能是重要趨勢。此外,在OCR中引入強化學(xué)習和元學(xué)習等新的學(xué)習范式,讓機器自主學(xué)習如何識別文字,也將成為研究熱點(diǎn)。
市場(chǎng)規模達133.81億美元,OCR成科技巨頭標配
目前,OCR技術(shù)已在金融、保險、醫療、交通、教育等諸多行業(yè)有了深入成熟的應用。未來(lái)隨著(zhù)傳統行業(yè)的數字化轉型,OCR應用范圍和場(chǎng)景將進(jìn)一步擴展,市場(chǎng)規模將進(jìn)一步增大。有權威機構預測,2025年全球OCR市場(chǎng)規模將達到133.81億美元。
早期受限于技術(shù)發(fā)展水平,OCR廠(chǎng)商通常從特定應用切入,例如車(chē)牌識別系統等,形成了一系列專(zhuān)用設備。近年來(lái),越來(lái)越多的終端設備及應用均嵌入了OCR技術(shù),并逐漸形成了從基礎設施、基礎能力到終端應用的完整產(chǎn)業(yè)鏈生態(tài),也衍生出了卡證、票據等一系列細分OCR能力,通過(guò)組合的方式服務(wù)于各個(gè)行業(yè)。
OCR產(chǎn)業(yè)生態(tài)圖
不難看出,OCR技術(shù)逐漸“下沉”為一項基本的能力,為上層不同的業(yè)務(wù)應用提供底層技術(shù)支撐。以騰訊云為代表的科技巨頭和云計算廠(chǎng)商正在紛紛加速布局OCR,在滿(mǎn)足自身內部業(yè)務(wù)需求的同時(shí),不斷對外開(kāi)放先進(jìn)的OCR能力,OCR已然成為科技巨頭能力標配。
多行業(yè)場(chǎng)景成熟落地,首次發(fā)布OCR評測標準
在具體的落地應用層面,目前卡證識別、票據識別等標準場(chǎng)景文字識別已經(jīng)相對成熟,手寫(xiě)文字識別在教育、物流等行業(yè)的應用也在不斷擴大。復雜動(dòng)態(tài)場(chǎng)景下的OCR技術(shù)和應用成為近兩年的熱門(mén)研究方向,比如在無(wú)人駕駛、機器人等場(chǎng)景利用OCR對視場(chǎng)中出現的文字進(jìn)行識別等。
在此次發(fā)布的白皮書(shū)中,騰訊云也公布了其多項OCR領(lǐng)域的典型落地案例。
豐巢快遞柜通過(guò)使用騰訊云聯(lián)合騰訊優(yōu)圖實(shí)驗室提供的身份證OCR技術(shù),身份證字段識別準確率高達99%,大幅提高了用戶(hù)寄件、取件的效率;寧波銀行通過(guò)采用騰訊云聯(lián)合騰訊優(yōu)圖實(shí)驗室打造的智能票據OCR解決方案,將識別的字段準確率提升至90%以上,更好地滿(mǎn)足了銀行業(yè)務(wù)場(chǎng)景的需要。搜狗廣告圖片文本審核借助OCR產(chǎn)品服務(wù)幫助客戶(hù)自動(dòng)識別海量的圖片文字內容,從而高效地進(jìn)行廣告圖片違法內容識別,降低客戶(hù)業(yè)務(wù)的違規風(fēng)險。
值得一提的是,為全面降低OCR相關(guān)領(lǐng)域的應用門(mén)檻,避免出現魚(yú)龍混雜局面,白皮書(shū)也首次公布OCR評測標準和規范。
今年4月,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟制定了《OCR服務(wù)智能化分級技術(shù)要求和評估方法》,規定了OCR服務(wù)在功能、性能、安全等方面的技術(shù)要求以及評估方法。7月,OCR服務(wù)要求及評估方法在國際電信聯(lián)盟ITU-T SG16組成功立項,標志著(zhù)深度學(xué)習背景下的OCR評測方法已經(jīng)逐漸被國際標準組織所接受。
在此之中,騰訊深度參與推動(dòng)OCR領(lǐng)域技術(shù)革新和標準制定,幫助企業(yè)客觀(guān)、全面地評價(jià)不同OCR服務(wù)能力。目前,由中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟指導,騰訊云開(kāi)發(fā)的天鑒OCR服務(wù)引擎自動(dòng)化評測平臺,不僅能夠為OCR技術(shù)供給方提供技術(shù)測試服務(wù),也將發(fā)布OCR技術(shù)或產(chǎn)品的測試結果,為需求方提供客觀(guān)公正的選型依據。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
