SolarisにXpdfをインストール
- 2009.03.23
 - Solaris
 
PDFファイルからテストを抽出するpdftotextコマンドを利用したいので、Xpdfをインストールした。
■Xpdfのソースをダウンロードする
http://www.foolabs.com/xpdf/download.html
ftp://ftp.foolabs.com/pub/xpdf
ダウンロードするファイル
freetype-2.3.1.tar.bz2 (xpdfで必要)
t1lib-5.1.0.tar.gz (xpdfで必要)
xpdf-3.02.tar.gz
xpdf-japanese-2004-jul-27.tar.gz (日本語対応のため必要)
■freetypeをインストールする
$ bunzip2 freetype-2.3.1.tar.bz2 $ tar xvf freetype-2.3.1.tar $ cd freetype-2.3.1 $ cat README (リードミーに目を通しておく) $ cat docs/INSTALL (インストールの方法に目を通しておく) $ cat docs/UPGRADE.UNIX (情報に目を通しておく)
docs/UPGRADE.UNIX に書いてあったコマンドを試してみた。
$ freetype-config --prefix /usr/sfw
Solaris 10 は、以下の場所にインストールされていることが分かったので、freetypeはインストールしなかった。
/usr/sfw/bin/freetype-config
/usr/sfw/lib/libfreetype.so
/usr/sfw/include/freetype2/freetype/
■t1libをインストールする
$ tar zxvf t1lib-5.1.0.tar.gz 
$ cd t1lib-5.1.0
$ ./configure
Configure finished!
        Do:  'make'               to compile the t1lib-package.
        Do:  'make without_doc'   to compile if you do not have LaTeX.
        Do:  'make install'       to install the t1lib-package.
$ make without_doc  (LaTexは使っていないのでwithout_docを指定した)
# make install 
/usr/local/lib/libt1.so などのライブラリがインストールされた。
/usr/local/share/t1lib/t1lib.config 設定
/usr/local/share/t1lib/doc/t1lib_doc.pdf ドキュメント
■xpdfをインストールする
$ tar zxvf xpdf-3.02.tar.gz $ cd xpdf-3.02 $ cat INSTALL (インストール情報を読んでおく) $ ./configure --help (書き方を調べておく) $ ./configure --with-gzip \ --with-t1-library=/usr/local/lib \ --with-t1-includes=/usr/local/include/ \ --with-freetype2-library=/usr/sfw/lib \ --with-freetype2-includes=/usr/sfw/include/freetype2 $ make # make install
/usr/local/bin/xpdf
/usr/local/bin/pdftotext
/usr/local/bin/pdfimages 等がインストールされた。
■日本語対応させる
$ tar zxvf xpdf-japanese-2004-jul-27.tar.gz $ cat README (目を通しておく) # mkdir -p /usr/local/share/xpdf/japanese # cd /usr/local/src/xpdf-japanese/ # cp -R *.unicodeMap /usr/local/share/xpdf/japanese/ # cp -R *.cidToUnicode /usr/local/share/xpdf/japanese/ # cp -R CMap /usr/local/share/xpdf/japanese/ # cat add-to-xpdfrc (内容を確認しておく) # cat add-to-xpdfrc >> /usr/local/etc/xpdfrc (xpdfrcへ追加する)
■pdftotextコマンドでPDFからテキストを抽出する
PDFファイルからテキストを抽出する。
$ pdftotext -enc Shift-JIS test.pdf
test.txt というファイルが同じディレクトリに作成される。(はず)
エラーメッセージが表示された。
Error: Unknown character collection 'Adobe-Japan1' Error: Couldn't find '90ms-RKSJ-H' CMap file for 'Adobe-Japan1' collection Error: Unknown CMap '90ms-RKSJ-H' for character collection 'Adobe-Japan1' Error: Unknown character collection 'Adobe-Japan1' Error: Couldn't find '90ms-RKSJ-H' CMap file for 'Adobe-Japan1' collection Error: Unknown CMap '90ms-RKSJ-H' for character collection 'Adobe-Japan1' Error: Unknown font tag 'F001' Error (1176): No font in show Error (1186): No font in show
pdftotext -h でヘルプを見ると、設定ファイルの指定方法が書いてあったので試した。
$ pdftotext -cfg /usr/local/etc/xpdfrc -enc Shift-JIS test.pdf $ pdftotext -cfg /usr/local/etc/xpdfrc -enc EUC-JP test.pdf $ pdftotext -cfg /usr/local/etc/xpdfrc -enc UTF-8 test.pdf
Shift_JIS ではなく、Shift-JIS で指定する。指定方法は、/usr/local/etc/xpdfrc を見れば分かる。
■参考ページ
- 
            前の記事
			  		    	        
	        Mac OS X トラブルシュート 2009.03.20
 - 
            次の記事
			  		    	        
	        Solaris10 + Apache1.3 + PHP5.2 + Oracle10g 2009.06.18