本文章異動
【2011/06/17】第一版
【2017/12/12】第二版更新 (本版更新處用藍色字體表示)
前言
Open Source 的 OCR 軟體.. 詳細介紹看官網
http://code.google.com/p/tesseract-ocr/
直接進行測試..
安裝方式
在 Windows 上有現成的 binary
到
http://code.google.com/p/tesseract-ocr/downloads/list
抓 tesseract-ocr-setup-3.00.exe 進行安裝
https://github.com/tesseract-ocr/tesseract
這個地方進去有多種作業系統平台的 binary 檔
(目前最新版本為 3.05.01 或採 4.0 alpha 版,以下測試採 4.0 alpha 來與之前測試過的比較看看差異)
Downloads 頁面 - 下載 4.0 alpha 版本
https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows
4.0 alpha 版已經有 安裝程式了, 裡面居然還可以直接選語言資料, 那就將中文給選上
然後再抓最新版的 exe tesseract-3.00.1.exe.zip, 把原有 3.00 的 exe 換成這版最新的 3.00.1
再抓取正體中文的語言資料檔
chi_tra.traineddata.gz Chinese (Traditional) language data for Tesseract (3.00 and up)
放到 tessdata 目錄下
這樣就安裝完成了
實際運作
實際進行操作,先準備一個文字圖形檔為 tif 格式(8bits,以及黑白兩色的我試過都可以支援)
tesseract3.00.1.exe TEST1.TIF result -l chi_tra
-l 是指定語言
這樣就會產生 result.txt
以下片這篇文字檔進行測試..
花了:56秒的時間 ( Intel T5600 2G RAM, Intel SSD , WIN7 x86)
辨識效果也不盡理想
4.0 alpha 版可以從選單 console 直接到該目錄..
參數一樣下法即可 執行檔為 testseract
(新版本 4.0 alpha 從上面這個圖片截圖存成 tif 辨識結果如下)
花了 12.8秒 (Intel i7-4720HQ ,16G RAM,SSD,WIN10 x64)
備註:timethis 是微軟的一個 計時工具方便用來統計程式執行時間 下載位置如右:(http://microsoft-tool-web-package-timethis-exe.updatestar.com/en)
| 任夭堂表示 ’ 明年將上市的新一代家用 遊戲主機 眠主 U 將不支援 DVD 輿籃光影片 的播放 口 另一方面 ’ 根據任夭堂發布的規格 ’ 新主機將會撘載特別設計的 45 奈 米 IBM 處理器輿特製的 AM]) 繪 ’ 而且據訧速度會比索尼的 PS3 輿微軟的 Xb0X 360 快 50% 口 . 任夭堂 在上遇的 E3 美國 電玩大展輿分析師進行答拽時表示 ’ 他們認 為很多 人已經有可以播放 DVD 輿籃光影片 的裝置 ’ 而在新遊戲主機 中建立這個功 能所需的專利技術相關成本過高 ’ 因此不會加入這個功能 ’ 但會支援 1080D 高 畫 質播放 口 , 日 前任夭堂的 !醺N家用遊戲主機也沒有支援 DVD 輿籃光影片 播放 , 但可以 串流 Netf1íX 影音 =' !]Wi屾惠,主機的兩個競爭對手一一微軟的 Xb0X 360 輿索尼的 PS3一一也都 支援 Netf1íX 影音 串流 ’ 而 Xb0X 360 支援 DVD播放 , PS3 則 同時支援 DVD 輿藍 光影片 播放 = 以 |
4.0 alpha 結果如下:
|
任 天 堂 表 示 , 明 年 將 上 市 的 新 一 代 家 用 遊 戲 主 機 聰 iU 將 不 支 揮 DYD 與 藍 光 影 月 人 IBM 處 理 器 舉 特 製 的 AMD 繪 圍 處 理 器 , 而 且 擊 說 速 度 會 比 索 尸 的 PS3 舉 微 軟 的 ﹣ 任 天 堂 總 載 岩 田 聰 在 上 週 的 E3 美 國 電 玩 大 展 輝 分 抓 師 進 行 答 詢 時 表 示 , 他 們 認 目 莊 任 天 堂 的 駟 1 家 用 遊 戲 主 機 也 沒 有 支 援 DWD 與 藤 光 影 月 撐 效 , 但 可 以 串 演 |
再把文字放大點.. 把一些底線之類的去掉看看
也是花了近 49秒
| 任夭堂表示 , 明 年將上市的新一代家用 遊戲主機 Wii U 將不支援 DVD 片 的播放 。 另一方面 ’ 根據任夭堂發布的規格 ’ 新主機將會撘載特別設言十的 45 奈米 IBM 處理器輿特製的 AMD 器 ’ 而且據訧速度會比索尼的 PS3 與微軟的 Xb0X 36(] 快 5(]% 。 . 任夭堂總裁岩田聰在上週的 E3 美國電玩大展與分析師進行答言甸時表示 , 他們認 為很多人已經有可以播放 DVD 片 的裝置 , 而在新遊戲主機中建立這個功 能所需的專利技術相關成本過高 ’ 因此不會加入這個功能 ’ 但會支援 1(]8(]p 高畫 質播放 。 以 |
4.0 alpha 結果如下(花了 9秒左右... 效果沒比較好):
|
任 夭 室 表 示 , 明 年 將 上 市 的 新 一 代 家 用 遊 戲 主 機 酚 1iU 將 不 支 援 DVD 與 藍 光 影 月 ﹍ 任 天 垣 總 載 岩 田 聰 在 上 週 的 3 美 國 電 玩 大 展 與 分 析 師 進 行 答 詢 時 表 示 , 他 們 認 |
效果有比較好一些...
4.0 alpha 版從新用 word 檔重新截圖再試試
這次花了21 秒
|
任 天 堂 表 社 , 明 年 將 上 市 的 新 一 代 家 用 遊 戲 主 機 Wii1 U 將 不 支 揮 DVD 與 藍 光 影 月 任 天 堂 總 裁 岩 田 聰 在 上 週 的 E3 美 國 電玩大展與分析師進行答_詢時表示 , 他 們 認 目 剉 任 天 堂 的 Wii 家 用 遊 戲 主 機 也 沒 有 支 援 DVD 軌 藍 光 影 月 擒 放 , 但 可 以 串 流 |
我想應該英文會比較好吧..
拿英文試試
辨識結果 (速度果然差很多.. 1 秒就出來了)
|
Core Developersu |
效果算還不錯..
看來這套適合用在英文.. 中文的辨識效果跟速度上..不是很令滿意..
4.0 alpha 心得.. 效果有些許進步..不錯還是有不少錯誤.. 還是有進步空間

然後再抓最新版的 exe tesseract-3.00.1.exe.zip 這個抓完要幹嘛呢?? 還有先準備一個文字圖形檔為 ttf 格式 準備完之後要幹嘛呢?
1.安裝版本是3.00 , 你先裝完完整的 3.00 以後, 再抓那個 3.00.1 的 exe 直接把 3.00 的 exe 覆蓋掉阿. 2.文字圖形檔的 tif 檔當然是要給這套 OCR 軟體來做辨識功能
感謝你的回應~ 我還有兩個問題 先準備一個文字圖形檔為 ttf 格式 準備完之後要放進tesseract資料夾裡嗎? 還是要做什麼嗎?? 我打完tesseract phototest.tif result -l eng 之後它出現 image file phototest.tif cannot be opened 請問這是圖檔還是什麼的問題嗎?? phototest.tif是下載完tesseract-ocr-setup-3.00.exe之後 它本身就有的tif檔了
1.是的. 我是把 tif 拷到 tesseract 目錄下測試的 2.phototest.tif 我沒試過, 我明天早上再試試看, 不過您有試著打開那個 tif 檔看過嗎?
感謝你的回應 我一直卡在image file phototest.tif cannot be opened這裡 phototest.tif 是它本身就有的範例 裡面有一些寫好的文字 所以用它來測試應該是沒問題
我看了一下Source FILE* fp = fopen(argv[1], "rb"); if (fp == NULL) { tprintf(_("Image file %s cannot be opened!\n"), argv[1]); fclose(fp); exit(1); } 很單純的 fopen 開檔失敗.. 您檔名前面再補上路徑吧
您好 我有用相對路徑和絕對路徑試過 相對路徑我一直用不出來 我是打.\doc\phototest.tif 不知道這樣對不對 絕對路徑因為路徑上有program file 所以他檔名只會讀到program而已
我能執行了 原來問題出在我要先切到tesseract-OCR的目錄裡 之後執行命令就可以了 感謝你的幫助~
不好意思又來打擾~ 我想請問要看source的話 是下載這個八tesseract-3.00.tar.gz 可是下載完的檔案那麼多 要怎麼知道我要的資訊在哪呢
1.裡面有 vc2008 的 project 檔 2.請善用 "搜尋" 3.加強自己的能力 加油吧~ ^__^
您好~我又遇到無法解決的問題了== 就是我用vs2008編譯會出問題 她寫錯誤 fatal error LNK1104: 無法開啟檔案 '..\vs2008\lib\leptonlibd.lib' 這檔案是要自己載還是說需要改什麼東西嗎???
再強調一下 .. "善用搜尋" 問 google 大神 "leptonlibd" 可以得到 http://code.google.com/p/leptonica/ 另外就是缺了 lib 你也不知道原因..您可能要再看一些 c++ 相關的書籍. 充實一下自己的基本技能
我打了執行命令 tesseract.exe phototest.tif result -1 eng 但結果卻跳出下面的錯誤,請問原因是? read_variables_file: Can't open 1 read_variables_file: Can't open eng Tesseract Open Source OCR Engine with Lepthonica Number of found pages: 1. Cannot create output file result.txt 似乎找不到英文traineddata 試過打全名eng.traineddata 仍然找不到QQ 感謝!
-l(L的小寫, language 的意思) 不是 -1 (一)
請原諒我上面的腦殘 不過我仍然無法產生 result.txt file Cannot create output file result.txt 他會跳出tesseract.exe已停止運作 感謝
再試試吧 ^___^
請問 我執行後會出現 error openning data file 之後一堆路徑 然後沒辦法執行怎麼辦
會不會是您的圖檔格式錯誤? 請問你是用什麼圖檔輸入?
我用的是 tif黨的圖片 我在另一台測試 卻是OK的 我也重新安裝tesseract過很多次了 也沒辦法成功的執行
不知道tesseract在XP 跟 win7 介面上有沒有差別 我是在win7上成功的
有可能xp上沒法支援
請問,我使用您的中文範例,在目前的版本3.02版上,也將 chi_tra 的語言資料檔放到 tessdata 目錄下,但中文辨識出來的結果卻慘人忍睹,請問是為什麼呢? Thanks.
好久沒回來痞客邦..抱歉隔那個久才回文.. 用新版本試試看吧..整個連語言檔都能一起安裝避免很多錯誤