一、減少時間等待,提高掃描識別工效
使用OCR軟件必經的程序一般是先用OCR自帶的掃描功能掃描圖片,再進行識別。而當處理較長的文檔時等待掃描的時間會很長,如果要充分利用好時間我們可以利用Windows的多任務特性,用一個軟件專門負責掃描,同時用一個OCR軟件進行識別。
掃描軟件推薦使用《丹青中英文辨識系統》4.0以上或ACDSEE4.0以上版本,它們的特點是能自動按編號存儲圖片,換稿後只需按“掃描”按紐繼續掃描。OCR軟件推薦使用《尚書六號》,它能支持包括JPG圖片的多種圖片格式,用灰度級和真彩圖片時還能自動調節對比度,或者手動調節對比度來提高識別率。尚書六號還能准確識別中文引號、用軟回車存檔、支持追加存檔,可以有效的減少了後續排版處理的工作量。
二、彌補軟件的不足,快速進行後續排版處理
要快速進行後續的文檔處理,選擇合適的OCR軟件十分重要,前面也提到,《尚書六號》還能准確識別中文引號、用軟回車存檔、支持追加存檔,有效的減少了後續的工作量。TW.wINGwIT.cOm但不管什麼軟件都有其缺陷,就如《尚書六號》,它在識別“加”字時經常會識別成“力口”,追加存檔時,括號、冒號、分號被識別為半角標點,跨頁段落中會多出一個硬回車。
因此,當熟悉使用一個OCR軟件之後,可針對其缺陷,用排版軟件的功能來彌補其不足,就像“加”字識別為“力口”。因“力口”在文檔中出現的幾率極小,可以在排版時直接批量替換掉。半角標點則可全部替換為全角標點,對於跨頁段落中間的硬回車,可在碰到跨頁段落時時,在追加存檔時在頁間插入一個特殊記號,在排版處理時連同硬回車一並替換為空。
From:http://tw.wingwit.com/Article/Software/201309/3528.html