tesseract ocr 圖像辨識安裝
因為爬網頁的需求,需要取得驗證碼,所以就有了圖像辨識的需求,因為平常都用 windows, 所以以下的安裝以 windows 為範例
安裝
- 連到 https://github.com/UB-Mannheim/tesseract/wiki
- 下載
tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe
- 安裝完後需要把安裝路徑加入到 path 裡面,例如
C:\Program Files (x86)\Tesseract-OCR
- 添加
TESSDATA_PREFIX
環境變數,內容為C:\Program Files (x86)\Tesseract-OCR\tessdata
- 開啟 console, 輸入
tesseract --version
驗證是否有成功安裝
簡單使用教學
tesseract.exe test.png out.txt