============================================================ Mac OS X (10.7.5) への tesseract-ocr のインストール ============================================================ Date: 2012/10/21 Written by YAMAMOTO Naoki MacBook Pro (CPU:Intel Core 2 Duo 2.26GHz, Memory:4GB) Mac OS X 10.7.5 Lion tesseract-ocr とはGoogleがオーナーになっているイメージデータの文字認識エンジンです。 英語だけではなく日本語を含む世界30カ国以上の言語に対応しています。 http://code.google.com/p/tesseract-ocr/ □GNU autotools がインストールされていない場合は先にインストールします。 ☆autoconf $ curl http://ftp.gnu.org/gnu/autoconf/autoconf-2.63.tar.gz | tar zxf - $ cd autoconf-2.63 $ ./configure $ make $ sudo make install $ which autoconf /usr/local/bin/autoconf ☆automake $ curl http://ftp.gnu.org/gnu/automake/automake-1.12.tar.gz | tar zxf - $ cd automake-1.12 $ ./configure $ make $ sudo make install $ which automake /usr/local/bin/automake ☆libtool # Mac OS X 附属の libtool と衝突するので glibtool という名前でインストールします。 $ curl http://ftp.gnu.org/gnu/libtool/libtool-2.4.2.tar.gz | tar zxf - $ cd libtool-2.4.2 $ ./configure --program-prefix=g $ make $ sudo make install $ sudo ln -s /usr/local/bin/glibtoolize /usr/local/bin/libtoolize □画像ライブラリのインストール tiff, jpeg, png, gif ☆libtiff 一緒にLZW圧縮もインストールします。 $ curl http://dl.maptools.org/dl/libtiff/tiff-3.8.2.tar.gz | tar zxf - $ curl http://dl.maptools.org/dl/libtiff/old/libtiff-lzw-compression-kit-1.5.tar.gz | tar zxf - $ cp ./libtiff-lzw-compression-kit-1.5/tif_lzw.c ./tiff-3.8.2/libtiff/. $ cd tiff-3.8.2 $ ./configure $ make $ sudo make install ☆libjpeg $ curl http://www.ijg.org/files/jpegsrc.v8d.tar.gz | tar zxf - $ cd jpeg-8d $ ./configure $ make $ sudo make install ☆libpng http://prdownloads.sourceforge.net/libpng/libpng-1.5.13.tar.gz をダウンロードして展開 $ cd libpng-1.5.13/ $ ./configure $ make $ sudo make install ☆libgif http://downloads.sourceforge.net/giflib/giflib-4.1.6.tar.bz2 をダウンロードして展開 $ cd giflib-4.1.6 $ ./configure $ make $ sudo make install □Leptonica が必要なので先にインストールします。 ☆Leptonica $ curl http://www.leptonica.org/source/leptonica-1.69.tar.gz | tar zxf - $ cd leptonica-1.69 $ LIBLEPT_HEADERSDIR=/usr/local/include ./configure $ make $ sudo make install デフォルトでは /usr/local にインストールされます。 □tesseract-ocr のインストール $ curl http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz | tar zxf - $ cd tesseract-3.01 $ ./autogen.sh $ ./configure $ make $ sudo make install $ which tesseract /usr/local/bin/tesseract □言語データ(日本語) のインストール http://tesseract-ocr.googlecode.com/files/jpn.traineddata.gz をダウンロードして展開 sudo cp jpn.traineddata /usr/local/share/tessdata/. □言語データ(英語) のインストール http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz をダウンロードして展開 sudo cp eng.traineddata /usr/local/share/tessdata/. その他必要とする言語データをインストールします。 □プログラムの実行 $ tesseract ./tesseract-3.01/phototest.tif result -l eng $ cat result.txt This is a lot of 12 point text to test the ocr code and see if it works on all types of file format. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. 使用方法: tesseract イメージファイル名 結果テキストファイル -l 言語 [その他オプション] 日本語の認識を行う場合は日本語テキストが含まれるPDFファイルを プレビュー.app で開いて任意のイメージで保存します。 下記サンプルでは jpg にしてあります。 $ tesseract testtext.jpg result -l jpn result.txt に解析したテキストが保存されます。