Tesseract OCR バージョン5.0.0をインストールする(Windows10)

Tesseract OCR バージョン5.0.0をインストールする(Windows10)

Tesseractとは、オープンソースのコードを持つ光学式文字認識エンジンです。もともとは、1980年代にコンピューターと電子計測機器の製造、販売を行っているアメリカ合衆国の有名企業であるヒューレット・パッカードによってプロプライエタリソフトウェアとして開発されたものです。2005年にオープンソースとしてリリースされ、2006年からGoogleが開発を後援しています。なお、Tesseract OCRの主な用途は、写真から領収書を認識することでした。

Tesseractは、最も人気のある定性的OCR(Optical Character Recognition/Reader、光学的文字認識)ライブラリです。

OCRは文字検索と画像認識に人工知能を用いてます。

■PC環境

・Windows10

■ダウンロード

Tesseract OCRをダウンロードする際は、こちらから(https://github.com/UB-Mannheim/tesseract/wiki)のページにアクセスします。

アクセスすると、「The latest installers can be downloaded here:(最新のインストーラはここからダウンロードできます:)」と書かれてた箇所がありますので、その下に2つのリンクが表示されています。今回は「tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe (64 bit) resp.」と表示されたリンクをクリックします。

クリックすると、インストーラのダウンロードが開始されます。しばらくすると、Webブラウザで指定されているファイルの保存場所に「tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe」というファイルがダウンロードされます。

■インストール

「tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe」というファイルがダウンロードされましたので、このファイルをダブルクリックで起動させます。

起動させると、「ユーザーアカウント制御」というウインドウが表示され、「この不明な発行元からのアプリがデバイスに変更を加えることを許可しますか」と質問されますので、「はい」ボタンをクリックします。

クリックすると、「Tesseract-OCR v5.0.0-alpha.20200328」というウインドウが表示されます。「Setup will guide you through the installation of Tesseract-OCR.(セットアッププログラムの指示に従って、Tesseract-OCRをインストールします。)」と書かれていますので、「Next」ボタンをクリックします。

クリックすると、ウインドウ内に「License Agreement(使用許諾契約書)」と表示されます。表示されている使用許諾契約書をGoogle翻訳などで確認し、「I Argee(同意します)」ボタンをクリックします。

クリックすると、ウインドウ内に「Choose Users(ユーザーの選択)」と表示されます。「Tesseract-OCRを自分だけにインストールするか、このコンピュータのすべてのユーザーにインストールするかを選択します。(Select whether you want to install Tesseract-OCR for yourself only or for all users of this computer.)」と書かれていますので、「Install for anyone using this computer(このコンピュータを使用するすべてのユーザーにインストールする)」か「O Install just for me(自分専用にインストールする)」のいずれかを選択します。

今回は、「Install for anyone using this computer(このコンピュータを使用するすべてのユーザーにインストールする)」を選択し、「Next」ボタンをクリックします。

クリックすると、ウインドウ内に「Choose Components(コンポーネントを選択)」と表示されます。「Choose which features of Tesseract-OCR you want to install.(インストールするTesseract-OCRの機能を選択します。)」と書かれていますので、機能を選択しますが、デフォルトで選択されている機能”以外”で「Additional script data (download) (追加のスクリプトデータ (ダウンロード))」と書かれた項目の左側にある「+」のボタンをクリックします。

クリックすると、プルダウンメニューが表示されますので、メニューの中から「Japanese script」と「Japanese vertical script」の右側にあるチェックボックスにチェックを入れます。

チェックを入れた後に「Additional language data (download)(追加言語データ (ダウンロード))」と書かれた項目の左側にある「+」ボタンをクリックします。

クリックすると先程と同じようにプルダウンメニューが表示されますので、このメニューから「Japanese」、「Japanese」、「Japanese(vertical)」の右側にあるチェックボックスにチェックを入れます。

これでTesseract OCRで日本語が対応可能となります。

チェックを入れた後は、確認を行い、「Next」ボタンをクリックします。

クリックすると、ウインドウ内に「Choose Install Location(インストール場所の選択)」と表示されます。「Choose the folder in which to install Tesseract-OCR.(Tesseract-OCRをインストールするフォルダを選択します。)」と書かれていますので、インストールするフォルダを選択しますが、デフォルトのままでも問題はありませんので、「Next」ボタンをクリックします。変更を行う場合は、「Browse..」ボタンをクリックして、インストールするフォルダを設定します。

クリックすると、ウインドウ内に「Choose Start Menu Folder(メニューフォルダを選択)」と表示されます。「Choose a Start Menu folder for the Tesseract-OCR shortcuts.(Tesseract-OCRショートカットのスタートメニューフォルダを選択します。)」と書かれていますので、スタートメニューフォルダを選択しますが、デフォルトのままでも問題はありませんので、「Install(インストール)ボタン」をクリックします。

クリックすると、インストールが開始されます。

インストールが開始されてしばらくすると、ウインドウ内に「Installation Complete(インストールの完了)」と表示されます。「Setup was completed successfully.(セットアップは正常に完了しました。)」と書かれていますので、これでセットアップは完了となります。

完了後、「Next」ボタンをクリックします。

クリックすると、ウインドウ内に「Completing Tesseract-OCR Setup(
Tesseract-OCR設定の完了)」と表示されます。コンピュータにインストールが完了されましたので、「Finish」ボタンをクリックし、セットアップのウインドウを終了させます。

コメント

タイトルとURLをコピーしました