本軟件是飛濤軟件工作室開發的一款免費Ocr軟件,主要用于識別圖像文件之中,出現的漢字顯示字體。Ocr的中文含意是光學字符識別。
為什么叫Mini呢?因為現有的識別漢字的商業Ocr軟件,動輒二三十兆,而本軟件解壓后,也不過三兆多,身材比較纖小,再加上本軟件主要用于識別字體比較小的漢字,所以叫Mini,中文的發音是“迷你”,中文含義是超小型。
Mini Ocr進行漢字識別的策略:
1) 采用復合特征的分類方法。
2) 字符集選擇3755個一級漢字。
3) 字體選擇最常用的宋體。
4) 字號選擇從小五號到一號漢字,主要針對20個點之內的小字體。
5) 英漢混排時,漢語優先。
6) 漢字粘連時,進行動態優化切分。
7) 識別前,先進行頁面切分,把頁面分割成一個一個的文字段落,擦除圖形塊,保留文字塊。按照文字塊先后順序進行識別,以期處理圖文混排的頁面時,能達到更好的識別效果,并排除圖形的干擾,加快文字的識別速度。
網友評論