close

本文章異動

【2011/06/17】第一版 

【2017/12/12】第二版更新 (本版更新處用藍色字體表示)

 

前言

Open Source 的 OCR 軟體.. 詳細介紹看官網

http://code.google.com/p/tesseract-ocr/

直接進行測試..

 

安裝方式

在 Windows 上有現成的 binary

http://code.google.com/p/tesseract-ocr/downloads/list

抓   tesseract-ocr-setup-3.00.exe 進行安裝

https://github.com/tesseract-ocr/tesseract

這個地方進去有多種作業系統平台的 binary 檔

(目前最新版本為 3.05.01 或採 4.0 alpha 版,以下測試採 4.0 alpha 來與之前測試過的比較看看差異)

Downloads 頁面  - 下載  4.0 alpha 版本 

https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

4.0 alpha 版已經有 安裝程式了, 裡面居然還可以直接選語言資料, 那就將中文給選上

 

然後再抓最新版的 exe tesseract-3.00.1.exe.zip, 把原有 3.00 的 exe  換成這版最新的  3.00.1

再抓取正體中文的語言資料檔

chi_tra.traineddata.gz      Chinese (Traditional) language data for Tesseract (3.00 and up)

放到 tessdata 目錄下

這樣就安裝完成了

 

實際運作

實際進行操作,先準備一個文字圖形檔為 tif 格式(8bits,以及黑白兩色的我試過都可以支援)

 tesseract3.00.1.exe TEST1.TIF result -l chi_tra

-l 是指定語言

這樣就會產生 result.txt

以下片這篇文字檔進行測試..

TEST1.JPG

花了:56秒的時間 ( Intel T5600 2G RAM, Intel SSD , WIN7 x86)

辨識效果也不盡理想

4.0 alpha 版可以從選單 console 直接到該目錄..


參數一樣下法即可 執行檔為 testseract 

(新版本 4.0 alpha 從上面這個圖片截圖存成 tif 辨識結果如下)

花了 12.8秒 (Intel i7-4720HQ ,16G RAM,SSD,WIN10 x64)

備註:timethis 是微軟的一個 計時工具方便用來統計程式執行時間 下載位置如右:(http://microsoft-tool-web-package-timethis-exe.updatestar.com/en)

任夭堂表示 ’ 明年將上市的新一代家用 遊戲主機 眠主 U 將不支援 DVD 輿籃光影片
的播放 口 另一方面 ’ 根據任夭堂發布的規格 ’ 新主機將會撘載特別設計的 45 奈
米 IBM 處理器輿特製的 AM]) 繪 ’ 而且據訧速度會比索尼的 PS3 輿微軟的
Xb0X 360 快 50% 口 .
任夭堂 在上遇的 E3 美國 電玩大展輿分析師進行答拽時表示 ’ 他們認
為很多 人已經有可以播放 DVD 輿籃光影片 的裝置 ’ 而在新遊戲主機 中建立這個功
能所需的專利技術相關成本過高 ’ 因此不會加入這個功能 ’ 但會支援 1080D 高
畫 質播放 口 ,
日 前任夭堂的 !醺N家用遊戲主機也沒有支援 DVD 輿籃光影片 播放 , 但可以 串流
Netf1íX 影音 =' !]Wi屾惠,主機的兩個競爭對手一一微軟的 Xb0X 360 輿索尼的 PS3一一也都
支援 Netf1íX 影音 串流 ’ 而 Xb0X 360 支援 DVD播放 , PS3 則 同時支援 DVD 輿藍
光影片 播放 = 以

4.0 alpha 結果如下:

任 天 堂 表 示 , 明 年 將 上 市 的 新 一 代 家 用 遊 戲 主 機 聰 iU 將 不 支 揮 DYD 與 藍 光 影 月
的 擂 效 。 另 一 方 面 , 根 據 任 天 堂 發 布 的 規 格 , 新 主 機 將 會 搭 載 特 別 設 計 的 45 奈

人 IBM 處 理 器 舉 特 製 的 AMD 繪 圍 處 理 器 , 而 且 擊 說 速 度 會 比 索 尸 的 PS3 舉 微 軟 的
Xbox 360 快 50%。。

任 天 堂 總 載 岩 田 聰 在 上 週 的 E3 美 國 電 玩 大 展 輝 分 抓 師 進 行 答 詢 時 表 示 , 他 們 認
為 很 多 人 已 經 有 可 以 撐 效 DWD 與 菜 光 影 月 的 裝 置 , 而 在 新 遊 戲 主 機 中 建 立 這 個 功
熊 所 霜 的 專 利 技 術 相 關 成 本 過 高 , 因 此 不 會 加 入 這 個 功 能 , 但 會 支 援 1080D 高
畫 質 播 效 。。

目 莊 任 天 堂 的 駟 1 家 用 遊 戲 主 機 也 沒 有 支 援 DWD 與 藤 光 影 月 撐 效 , 但 可 以 串 演
Netflix 影 財 。 聊 1 主 機 的 入 個 競 爭 對 手 ﹣﹣ 微 軟 的 XDox 360 與 索 尸 的 PS3﹣﹣ 也 都
支 援 Netflix 影 責 串 流 , 而 ADOX 360 支 援 DVD 撐 效 ,PS3 則 同 時 支 援 DVD 與 藍
光 影 月 撐 效 。。

 

再把文字放大點.. 把一些底線之類的去掉看看

TEST1.JPG

也是花了近 49秒

 

任夭堂表示 , 明 年將上市的新一代家用 遊戲主機 Wii U 將不支援 DVD 片
的播放 。 另一方面 ’ 根據任夭堂發布的規格 ’ 新主機將會撘載特別設言十的 45 奈米
IBM 處理器輿特製的 AMD 器 ’ 而且據訧速度會比索尼的 PS3 與微軟的 Xb0X
36(] 快 5(]% 。 .
任夭堂總裁岩田聰在上週的 E3 美國電玩大展與分析師進行答言甸時表示 , 他們認
為很多人已經有可以播放 DVD 片 的裝置 , 而在新遊戲主機中建立這個功
能所需的專利技術相關成本過高 ’ 因此不會加入這個功能 ’ 但會支援 1(]8(]p 高畫
質播放 。 以
 

4.0 alpha 結果如下(花了 9秒左右... 效果沒比較好):

4.0 alpha

任 夭 室 表 示 , 明 年 將 上 市 的 新 一 代 家 用 遊 戲 主 機 酚 1iU 將 不 支 援 DVD 與 藍 光 影 月 ﹍
的 擒 效 。 另 一 方 面 , 根 據 任 天 垣 發 布 的 規 格 , 新 主 機 將 會 撫 載 特 別 設 計 的 5 奈 玄
IBM 號 理 筌 與 特 製 的 AMD 繪 圓 處 理 哉 ﹁ 而 且 據 說 連 度 會 比 索 尼 的 PS3 與 微 軟 的 Xbox
980 快 50%。。

任 天 垣 總 載 岩 田 聰 在 上 週 的 3 美 國 電 玩 大 展 與 分 析 師 進 行 答 詢 時 表 示 , 他 們 認
為 很 多 人 已 經 有 可 以 擂 效 DVD 舉 藍 光 影 月 的 裝 置 , 而 在 新 遊 戲 主 機 中 建 立 這 個 功
胤 所 霞 的 專 利 技 術 相 關 成 本 過 高 , 因 此 不 會 加 入 這 個 功 能 , 但 會 支 援 1080p 高 畫
質 播 效 。﹣

效果有比較好一些...

4.0 alpha 版從新用 word 檔重新截圖再試試

這次花了21 秒
 

4.0 alpha

任 天 堂 表 社 , 明 年 將 上 市 的 新 一 代 家 用 遊 戲 主 機 Wii1 U 將 不 支 揮 DVD 與 藍 光 影 月
的 擂 放 。 另 一 方 面 , 根 據 任 天 堂 發 布 的 規 格 , 新 主 機 將 會 搭 載 特 別 設 計 的 45 佑
米 [BM 處 理 器 與 特 製 的 AMD 繪 圖 處 理 器 , 而 且 據 說 速 度 會 比 索 尼 的 PS3 與 微 軟 的
AbOxX 360 怏 50%。

任 天 堂 總 裁 岩 田 聰 在 上 週 的 E3 美 國 電玩大展與分析師進行答_詢時表示 , 他 們 認
為 很 多 人 已 經 有 可 以 擒 放 DVD 與 藍 光 影 月 的 裝 置 , 而 在 新 遊 戲 主 機 中 建 立 這 個 功
能 所 電 的 專 利 技 術 相 關 成 本 過 高 , 因 此 不 會 加 入 這 個 功 能 , 但 會 支 援 1U8UD 高
畫 質 播 效 。

目 剉 任 天 堂 的 Wii 家 用 遊 戲 主 機 也 沒 有 支 援 DVD 軌 藍 光 影 月 擒 放 , 但 可 以 串 流
Netf1ix 影 音 。Wii 主 機 的 兩 個 競 爭 對 手 ﹣﹣ 微 軟 的 AbOx 360 軌 索 尼 的 PS3﹣﹣ 也 都
支 援 Netf|ix 影 音 串 流 , 而 ADOX 360 支 援 DVD 擒 效 ,PS3 則 同 時 支 援 DVD 與 藍
光 影 月 擒 放 。

 

我想應該英文會比較好吧..

拿英文試試

Test2.jpg

辨識結果 (速度果然差很多.. 1 秒就出來了)

 

Core Developersu
The core developer on the project is Ray Smith (theraysmith). ~
Thomas Breuel (tmbdev) and Ilya Mezhirov (mezhirov) work on the
OCRopus project, for which Tesseract is one of the pluggable OCR
engines; OCRopus also provides layout analysis and statistical language
modeling. .
|\/lost of the work on Tesseract is sponsored by Google. ~
|\/Iigrationu

 

 

效果算還不錯..

看來這套適合用在英文..  中文的辨識效果跟速度上..不是很令滿意..

4.0 alpha 心得.. 效果有些許進步..不錯還是有不少錯誤.. 還是有進步空間

arrow
arrow
    文章標籤
    Tesseract OCR Google Code
    全站熱搜
    創作者介紹
    創作者 火焰小賓 的頭像
    火焰小賓

    我的筆記

    火焰小賓 發表在 痞客邦 留言(13) 人氣()