tesseract ocr 圖像辨識安裝

因為爬網頁的需求,需要取得驗證碼,所以就有了圖像辨識的需求,因為平常都用 windows, 所以以下的安裝以 windows 為範例

安裝

  1. 連到 https://github.com/UB-Mannheim/tesseract/wiki
  2. 下載 tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe
  3. 安裝完後需要把安裝路徑加入到 path 裡面,例如 C:\Program Files (x86)\Tesseract-OCR
  4. 添加 TESSDATA_PREFIX 環境變數,內容為 C:\Program Files (x86)\Tesseract-OCR\tessdata
  5. 開啟 console, 輸入 tesseract --version 驗證是否有成功安裝

簡單使用教學

tesseract.exe test.png out.txt

Reference:
https://github.com/tesseract-ocr/tesseract/wiki