第一章 公司簡介
北京文通科技有限公司是享譽國內外的OCR(光學字符識別)技術生產商、文檔影像技術和應用解決方案提供商。經過多年的創新與發展,文通科技現已成長為國內知名的高新技術企業,在全國十余個城市建立了分支機構,公司產品涉及多個領域。
在與清華大學的攜手合作過程中,文通科技成功地將"國家863計劃"項目成果——"文字圖像識別技術TH-OCR"產業化,真正實現了TH-OCR技術與市場應用的完美結合。
文通科技以TH-OCR和手寫識別技術為核心,研發出多項產品并提供多種行業解決方案,依靠完善的服務體系,拓寬了產品技術應用領域。目前,文通科技已經擁有跨平臺(包括Windows/Linux/Android/IOS及嵌入式平臺)的智能圖像處理、亞洲文字OCR、手寫識別、二維條碼識別等自有知識產權技術。公司業務深入至金融保險、智能交通、稅務、公共安全、政府等行業領域。
文通科技秉承以人為本的理念,不斷培養和引入尖端技術及管理人才,并充分發揮人才優勢,取得了豐碩的科技成果,在國內外信息化領域獲得廣泛認可,產品榮獲包括國家科學技術進步二等獎在內的幾十項國內外大獎,共取得四十余項軟件著作權和多項專利,規范的現代化管理也使得文通科技順利通過"ISO9000 質量體系認證"。
“源于清華,服務全球”,在創新的征途上,文通科技邁著銳意進取的步伐,憑借著領先的核心技術、精準的市場定位、優秀的產品及解決方案、完善的服務體系,文通科技將在信息化浪潮中發揮越來越重要的領軍作用!
第二章 系統功能組成模塊
《文通銀行票據識別系統》基本組成模塊
《文通銀行票據識別系統》主要由以下基本模塊組成:
1)模板編輯器
《文通銀行票據識別系統》為最終用戶提供了方便快捷的模板制作工具,這就是模板編輯器。通過模板編輯器,用戶可根據自己業務系統的實際需要,靈活定制如下票據識別內容:哪些票據需要分類、哪些票據需要識別、在票據識別過程中采用何種定位機制、需要對票據的哪些域(如賬號、金額、日期等)進行識別、票據特征學習等。
有了模板編輯器,經過簡單培訓,用戶(如系統管理員)無須系統集成商和OCR提供商的參與,就能夠獨立完成模板制作。
2)銀行票據圖像預處理模塊
銀行票據圖像預處理模塊是銀行票據分類識別的前驅工作,通過傾斜校正、去黑邊、濾噪聲、濾色(彩色方案)、二值化(彩色方案)、濾波等一系列數字圖像處理技術,得到利于分類識別的內存圖像。
該模塊直接影響后續的分類識別效果,因此是整個識別系統的關鍵環節之一。
3)版面理解模塊
《文通銀行票據識別系統》具有高效準確的版面理解功能,通過版面理解模塊,系統能快速地分析出票據的抬頭位置、票據的線條信息、字符的手寫或打印位置、字符類型(字符是打印的還是手寫的、字符是中文字符還是數字等等)。
4)銀行票據分類模塊
銀行票據分類是指確定票據屬于哪種票據類型。在版面理解的基礎上對票據進行準確分類,是對票據關鍵字段(如賬號、金額、日期等)進行識別的基礎,只有對票據進行準確分類之后,才有可能對票據中的關鍵字段進行識別。
《文通銀行票據識別系統》同時采有多種分類機制(如框線匹配、抬頭匹配、基于網格特征的票據分類、色彩特征分析等)來確保對票據進行精確分類。
5)字符識別模塊(TH-OCR識別核心)
根據分類模塊輸出的票據類別,在模板的指導下,對票據識別域進行準確定位,并識別相關字段,輸出識別結果。
字符識別模塊是整個票據識別系統中的最關鍵模塊,系統識別性能的好壞直接取決于字符識別模塊。
《文通銀行票據識別系統》采用TH-OCR作為系統的識別模塊。TH-OCR包含印刷漢字識別、印刷英文識別、印刷符號識別、印刷數字識別、手寫漢字識別、手寫英文識別、手寫符號識別、手寫數字識別、磁碼識別、條形碼識別及小字符集識別等多個識別引擎。
第三章 文通銀行票據識別系統性能
3.1 適應性強:文通銀行票據識別系統簡體中文識別核心支持常用的宋體、仿宋、楷體、黑體、隸書、幼圓等漢字字體。印刷體英文和數字同樣支持多種字體包括常見的:Arial、Times New Roman、Avant Garde、Bookman Old Style、 Helvetica、Verdana等多種字體。通過對銀行的幾輪測試對橫縱向壓縮后的數字識別有很好的適應性,能取得較高的識別率。
3.2 票據分類精準:文通銀行票據識別系統有很強的版面區分能力,充分利于框線、框線顏色、標題內容、標題顏色、文本內容、文本顏色等多種特征來進行版面的區分,版面識別的準確率在99%以上。
3.3 識別類型豐富:系統支持印刷漢字識別、印刷英文識別、印刷數字識別、手寫漢字識別、手寫英文識別、手寫數字識別、磁碼識別、條形碼識別、客戶簽字檢測、附件章檢測等多個識別引擎。
3.4 識別速度快:經過實際生產線運行計算,單張票據識別時間為300ms~900ms,平均識別時間約為500ms。
3.5 識別率高:
印刷體漢字識別率達99.5%;
印刷體英文和數字識別率>99.6%;
規范手寫數字識別率達99%;
一維條碼、二維條碼(PDF417、DataMatrix)識別率>99%。