============================================================
Mac OS X (10.7.5) への tesseract-ocr のインストール
============================================================
Date: 2012/10/21
Written by YAMAMOTO Naoki

MacBook Pro (CPU:Intel Core 2 Duo 2.26GHz, Memory:4GB)
Mac OS X 10.7.5 Lion

tesseract-ocr とはGoogleがオーナーになっているイメージデータの文字認識エンジンです。
英語だけではなく日本語を含む世界30カ国以上の言語に対応しています。

http://code.google.com/p/tesseract-ocr/

□GNU autotools がインストールされていない場合は先にインストールします。

☆autoconf
$ curl http://ftp.gnu.org/gnu/autoconf/autoconf-2.63.tar.gz | tar zxf -
$ cd autoconf-2.63
$ ./configure
$ make
$ sudo make install
$ which autoconf
/usr/local/bin/autoconf

☆automake
$ curl http://ftp.gnu.org/gnu/automake/automake-1.12.tar.gz | tar zxf -
$ cd automake-1.12
$ ./configure
$ make
$ sudo make install
$ which automake
/usr/local/bin/automake

☆libtool
# Mac OS X 附属の libtool と衝突するので glibtool という名前でインストールします。

$ curl http://ftp.gnu.org/gnu/libtool/libtool-2.4.2.tar.gz | tar zxf -
$ cd libtool-2.4.2
$ ./configure --program-prefix=g
$ make
$ sudo make install
$ sudo ln -s /usr/local/bin/glibtoolize /usr/local/bin/libtoolize

□画像ライブラリのインストール
tiff, jpeg, png, gif

☆libtiff
 一緒にLZW圧縮もインストールします。
$ curl http://dl.maptools.org/dl/libtiff/tiff-3.8.2.tar.gz | tar zxf -
$ curl http://dl.maptools.org/dl/libtiff/old/libtiff-lzw-compression-kit-1.5.tar.gz | tar zxf -
$ cp ./libtiff-lzw-compression-kit-1.5/tif_lzw.c ./tiff-3.8.2/libtiff/.
$ cd tiff-3.8.2
$ ./configure
$ make
$ sudo make install

☆libjpeg
$ curl http://www.ijg.org/files/jpegsrc.v8d.tar.gz | tar zxf -
$ cd jpeg-8d
$ ./configure
$ make
$ sudo make install

☆libpng
http://prdownloads.sourceforge.net/libpng/libpng-1.5.13.tar.gz をダウンロードして展開
$ cd libpng-1.5.13/
$ ./configure
$ make
$ sudo make install

☆libgif
http://downloads.sourceforge.net/giflib/giflib-4.1.6.tar.bz2 をダウンロードして展開
$ cd giflib-4.1.6
$ ./configure
$ make
$ sudo make install

□Leptonica が必要なので先にインストールします。

☆Leptonica
$ curl http://www.leptonica.org/source/leptonica-1.69.tar.gz | tar zxf -
$ cd leptonica-1.69
$ LIBLEPT_HEADERSDIR=/usr/local/include ./configure
$ make
$ sudo make install

デフォルトでは /usr/local にインストールされます。

□tesseract-ocr のインストール
$ curl http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz | tar zxf -
$ cd tesseract-3.01
$ ./autogen.sh
$ ./configure
$ make
$ sudo make install
$ which tesseract
/usr/local/bin/tesseract

□言語データ(日本語) のインストール
http://tesseract-ocr.googlecode.com/files/jpn.traineddata.gz をダウンロードして展開
sudo cp jpn.traineddata /usr/local/share/tessdata/.

□言語データ(英語) のインストール
http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz をダウンロードして展開
sudo cp eng.traineddata /usr/local/share/tessdata/.

その他必要とする言語データをインストールします。

□プログラムの実行
$ tesseract ./tesseract-3.01/phototest.tif result -l eng

$ cat result.txt 
This is a lot of 12 point text to test the
ocr code and see if it works on all types
of file format.
The quick brown dog jumped over the
lazy fox. The quick brown dog jumped
over the lazy fox. The quick brown dog
jumped over the lazy fox. The quick
brown dog jumped over the lazy fox.

使用方法: tesseract イメージファイル名 結果テキストファイル -l 言語 [その他オプション]

日本語の認識を行う場合は日本語テキストが含まれるPDFファイルを プレビュー.app で開いて任意のイメージで保存します。
下記サンプルでは jpg にしてあります。

$ tesseract testtext.jpg result -l jpn

result.txt に解析したテキストが保存されます。