從識別軟件挖掘(本文為WWW.SQ120.COM電腦知識網推薦文章)
也許有人說,識別軟件不是內置在掃描儀驅動程序中,這有什麼好挖掘的?其實不然,不同的OCR掃描識別軟件在文字識別的能力以及功能方面是不完全相同的,而挑選一款操作方便、識別能力較強的識別軟件是提高文字識別准確率的前提。一般用戶通常都會使用掃描儀內置的OEM識別軟件,不過這種識別軟件相比其他專業的識別軟件來說,識別功能不強,文字識別的准確率也不是很高,甚至還無法對中文字體進行識別;而類似尚書OCR6.0、清華紫光OCR2003等專業的文字識別軟件,不但在文本自動識別方面有較強的能力,而且在使用功能方面也比較突出一些,選擇這些專業的識別軟件可以很輕松地提高文字的識別准確率。tW.winGwIT.Com當然,要是目標文稿中包含的文字具有復雜的格式,比方說段落中出現了首行縮進格式,文字字體使用了斜體、粗體等格式,那麼有的OCR軟件在識別這些格式時,常常會識別出亂碼來;所以當我們在掃描識別一些具有特殊格式的文字材料時,一定要選用可以支持文字格式的掃描識別軟件,只有這樣才能獲得較高的文字識別成功率。
從放置操作挖掘
不少人都認為放置掃描原稿是一件十分簡單的事情,只要將原稿正面的內容對著平板玻璃放置,然後蓋上掃描儀的上面蓋就可以了;其實原稿的放置操作也會影響文字的准確識別,正確放置文稿的方法應該為先將文稿正面的內容對著平板玻璃放置,然後將文稿位置調整到掃描起始線正中,同時確保掃描儀的平板玻璃表面完整和干淨,最後放下掃描儀的上面蓋。要是文稿放置有一定傾斜角度的話,一定要在掃描完成後使用旋轉工具對傾斜文字進行糾正,不然的話掃描識別程序會將水平筆劃看作斜筆劃來處理,這樣文字識別的正確率就會下降很多。
從識別參數挖掘
在使用OCR識別軟件來識別目標文稿中的文字時,常常需要先在識別軟件中進行合適的參數設置,畢竟使用默認的參數設置是無法獲取最令人滿意的效果的。一般來說,需要設置的識別參數主要包括掃描模式設置、分辨率設置、亮度對比度設置等;在識別純文字材料時,往往只需要將識別軟件的掃描模式設置為“黑白”模式就可以了,要是將掃描模式設置為“彩色”或“灰度”模式的話,只會增加掃描識別的時間,而且也不會提高文字識別的准確率。要是被識別的目標文稿質量比較差時,我們可以嘗試將掃描模式設置為“灰度”模式,然後用相關的掃描軟件對掃描結果進行一下處理再繼續進行識別,這樣一來文字識別准確率就會大大提高。
在進行分辨率設置時,通常將分辨率設置得越低,掃描儀掃描文本的速度就越快,但掃描出來的文稿效果就越差;相反,將掃描分辨率設置得越高,掃描儀掃描文本的速度就越慢,但掃描出來的文稿效果就越好。不過這一理論並不是千篇一律的,畢竟將掃描分辨率設置得太高的話,文稿紙張上的小斑點都有可能被識別成標點符號,這樣一來文字識別准確率反而會得不到提高。經過筆者多次測試發現,如果目標文稿中的文字字號為1、2、3號的話,那我們只需要將掃描分辨率設置為200dpi就可以了;要是目標文稿中的文字使用的是4號或5號字體的話,那可以將掃描分辨率設置為300dpi;高於5號的文字字體,必須將掃描分辨率設置為400dpi以上,但不能超過掃描儀的光學分辨率。
使用合適的掃描亮度與掃描對比度,可以確保目標文稿中的文字黑白分明,這對提高文字識別准確率非常關鍵;在調整掃描亮度與對比度時,我們應該仔細觀察掃描預覽效果,當發現預覽效果中的文字筆畫較細但並沒有斷開時,就表明此時的亮度和對比度數值是最合適的。如果在識別過程中,發現預覽效果中的文字線條較粗較黑而且筆畫分不清時,就表明此時的亮度數值設置得小了,我們應該嘗試提高一些亮度值來看看;要是發現預覽效果中的文字線條看上去凹凸不平,甚至有斷線或殘缺不全的現象時,那就表明此時的掃描亮度調整得有點高了,我們應嘗試將亮度數值降低一些再看看。
此外,“輸出信息”的參數設置也會對文字的識別准確率帶來一定的影響;在缺省狀態下,“輸出信息”的數值常常會被設置為100%,這種參數設置僅僅適合那些新墨粉打印出來的文字材料或者印刷出來的報紙、書籍等,相反在掃描識別那些文字色彩比較淺的文稿時,最好能夠將“輸出信息”的數值調整得稍微大一些,不然的話掃描出來的圖象看上去很不清晰,而且文字識別的准確率也不會很高;當然“輸出信息”的數值也不能設置得過大,不然會延長掃描識別的時間,而且還會使識別出來的文字筆畫看不清楚。
從識別原稿挖掘
在掃描識別不同類型的原稿時,需要用不同的識別處理方法,才能保證得到比較理想的識別效果。如果原稿為報紙或者半透明文稿的話,那麼在掃描識別之前要是不采取任何措施的話,報紙背面的文字很容易透過紙張表面來混淆目標文字的字形,從而會對文字的正確識別造成不小的障礙。為此在掃描識別這類文稿時,最好在原稿背面蓋上一張黑紙,同時在掃描過程中,將對比度稍微提高一些,這樣就能有效降低背面文字對識別效果的干擾程度了。在掃描識別一些印刷質量較差的文稿時,一定要先進行色調調節操作,以確保掃描結果看上去黑白分明,否則的話掃描圖象中有可能會出現許多黑色斑點,從而嚴重影響文字識別的准確率。當然在對色調參數進行調節時,一定注意觀察掃描識別界面中的圖象預覽效果,並根據預覽效果對色調進行反復調整,才能得到非常理想的識別結果。在掃描識別圖文混排類型的原稿時,應該先確認一下自己選用的掃描識別應用程序能否支持自動圖文分析功能,要是可以支持的話,那我們就應該啟用該功能,這樣掃描識別程序就會自動分析出目標文稿中的文字內容、文本位置等,而文字內容部分只要按照標示順序來進行正常識別就可以了。
從手工識別挖掘
現在許多文稿排版為了追求盡善盡美的視覺效果,常常會使用圖文混排方式,如果我們將原稿簡單地掃描成一幅圖像的話,將會嚴重影響文字的識別准確率。有鑒於此,我們應該根據實際情況,對原稿版面進行手工劃分,讓其版面分為若干個區域;而且應該保證處於同一區域中的文字字號與字體最好相同,盡量沒有圖像、圖形,每一行的文字寬度應該相同,要是發現寬度長短不一的話,最好再進行細分,通常情況下一次最多能掃描識別10個選擇區域。此外根據實際情況,我們還需要對多個選擇區域設置好識別順序。大家千萬不能嫌這樣的操作比較煩,這可是有效提高文字識別准確率的理想途徑之一。
From:http://tw.wingwit.com/Article/Software/201309/1574.html