高圧縮PDF技術

高圧縮PDF技術
Compact PDF Techonology
長谷川 史裕*
伊藤 仁志*
宮澤 利夫*
関口 優*
Fumihiro HASEGAWA
Hitoshi ITOH
Toshio MIYAZAWA
Yu SEKIGUCHI
要
旨
カラー文書画像を視認性の低下を抑えながら高度に圧縮する.まず処理対象のカラー文書画像
に文書領域識別処理を行い,文字だけの画像(以下,文字画像)と文字以外の画像(以下,背景
画像)に分離する.文字画像は減色を行い,可逆圧縮する.背景画像は解像度を落として非可逆
圧縮する.両者を重ね合わせ表示の表現が可能なPDFフォーマットでひとつのファイルにまとめ
る.生成されたPDFファイルは無料配布されているビューワーで閲覧可能である.文字と文字以
外に適した圧縮手法を別々に施すことにより,従来の単一の圧縮手法に比べて高度な圧縮が可能
となった.
ABSTRACT
Compact PDF technology enables color document images to be highly compressed without severe
deterioration of images. First, an original color document image is separated into two text only images and
non-text only images using the document segmentation process. Color reduction is achieved for text
only images and compressed using a lossless method. Resolution of non-text only images is reduced and
compressed with a lossy method. Both compressed images are overlapped in the PDF format, which
allows images to be overlapped. A free viewer can display the produced PDF file. We achieved a higher
compression rate by applying two different adequate compression methods for text only images and nontext only images than by applying one compression method.
* ソフトウェア研究開発本部 画像アプライアンス研究所
Image Appliance Lab., Software R&D Group
Ricoh Technical Report No.30
93
DECEMBER, 2004
高圧縮PDFでは,この考え方を大きく分けて以下の3つの
1.背景と目的
ステップに分離して,実現している(Fig.1参照).
近年,カラープリンタの普及や高解像度スキャナの登場,
[分離過程]:対象とする画像を文字画像と背景画像に分離
個人端末の高性能化によって,デジタル化されるオフィス文
する.背景画像には文字以外の写真などが分
書は従来の白黒濃淡画像からフルカラー画像に移行しつつあ
類される.今後,背景と言う場合,対象画像
る.フルカラー画像では,フルカラーの写真や図の挿入,色
の文字以外の部分を示すものとする.
文字による表現の強調など白黒画像では表現できなかった多
[圧縮過程]:文字画像と背景画像をそれぞれに適した圧縮
彩な文章表現が可能となる.
技術で圧縮する.
しかし,多くの利点があるものの,一方でファイルサイ
[統合過程]:圧縮された文字画像と背景画像を一つのファ
ズの増大が問題となる.というのは,オフィス文書がデジタ
イル上で統合して高圧縮PDFとする.
ル化される主な用途は,その蓄積,共有,配信であり,ファ
イルサイズが大きいほど,そのコストも増大するからである.
そのため,一般的にフルカラー画像の画質を可能な限り維持
文字
画像
したまま,ファイルサイズの削減を行う画像圧縮が望まれる.
デジタルカメラなどの画像を保存するために用いられる
圧縮
対象
画像
一般的な圧縮方式としてJPEGがある.JPEGは人間の視覚的
統合
特徴を生かした圧縮方式であり,写真などの階調が緩やかに
背景
画像
変化する画像に対して有効である.しかし,文字のように階
高圧縮
PDF
圧縮
調が急激に変化するような画像に対してJPEGによる圧縮を
Fig.1
行うと画質劣化が激しく,文字の視認性が低下する.オフィ
Procedure for Compact PDF.
ス文書は文字が多く含まれるためJPEGで圧縮すると文字の
下記各節では,ステップ毎の概要を説明する.
視認性が低下してしまう.
そこで高圧縮PDFでは,「文字の視認性が高く」かつ
2-1
「ファイルサイズが小さい」フルカラー画像を実現する.そ
分離過程
のために,画像の様々な特性を使って,文字と文字以外を分
分離過程では,対象画像を文字画像と背景画像とに分離
離し,文字と文字以外に適した圧縮技術を用いる.本報告で
する(Fig.2参照).この分離によって文字画像と背景画像
は,高圧縮PDFの特徴を説明した後に,高圧縮PDFの有効性
に対して,それぞれに適した圧縮技術を用いることができる.
を実験的に示す.
逆に言うと,この過程で誤分離が発生すると,圧縮過程の
ファイルサイズ面での利点を失うだけでなく,圧縮技術に適
さない領域には画質面での悪影響が出てしまう.そのため,
2.技術の特徴
分離技術は高圧縮PDFの要素技術の中で最も重要な技術と言
え,現在も盛んに研究が行われている3), 4).
高圧縮PDFの考え方は,領域特性に応じて複数の圧縮技
術を適用するもので,この考え方の一例として,1990年に発
1), 2)
ソ フ ト ウ ェ ア 研 究 開 発 本 部 で は , OCR 製 品 ( Ridoc
.
Document System5) や文書画像処理ツールキット「リコード
そこでは,フルカラー・ファクシミリ画像をフルカラー画像
キュメントSDKシリーズ」6) の開発で多くの経験と技術を蓄
に適した圧縮技術を適用する領域,白黒濃淡画像に適した圧
積してきた.特に文字の分離を目的とした領域識別技術を保
縮技術を適用する領域に分離し,それぞれをファクシミリで
有しており,そのノウハウを十分生かすことで高圧縮PDFを
送信後,受信側でそれらを一枚のフルカラー・ファクシミリ
実現することが可能となった.
表された「カラーファクシミリの構造化」などがある
画像に統合している.
Ricoh Technical Report No.30
94
DECEMBER, 2004
Fig.3
Fig.2
2-2
An example of page segmentation.
Fig.4
圧縮過程
2-2-2
圧縮過程では,分離過程で分離された文字画像と背景画
Image defect and recovery process.
An example of subtracted colors.
背景画像の圧縮
背景画像では,ダウンサンプリングとJPEGによる圧縮を
行う.
像に対して,それぞれの特性に適した処理を施し,文字画像
と背景画像のファイルサイズを削減しつつ,視認性の高い画
ダウンサンプリングとは,複数のピクセルの色を統合し
像を生成する.
て,サイズが小さい画像を生成する処理をいう.この処理を
背景画像に適用しても視認性はあまり損なわれない.これに
2-2-1
文字画像の圧縮
対して文字画像では,この処理を行うと影響が大きいため
文字画像では,文字画像の特性に応じたファイルサイズ
行っていない.
削減処理を行う.一つは文字の単色性を活かした減色処理,
JPEGは写真などを圧縮するのに適用しており,背景画像
もう一つは文字に適した圧縮技術の適用である.
から文字が取り除かれているため,さらなる高圧縮が可能と
オフィス文書は通常,黒文字を主体とした数種類の色の
なる.
文字で構成されることがほとんどである.また,文字の色は
2-3
単色で一文字が複数の色で書かれることは,ほとんどない.
統合過程
しかし,画像をプリンタで印刷することによって,画像
統合過程では,分離過程,圧縮過程で分離,圧縮した文
内の色はシアン,マジェンタ,イエロー,ブラックの4色の
字画像と背景画像を一つの画像ファイル上で統合する.画像
ドットで表現され,ドットのズレなどの問題が発生する.ま
の統合には,画像を重ね合わせて表示できる画像フォーマッ
た,プリンタで印刷された原稿をスキャナで読み込むという
トなら何でも可能である.例えば,PDF以外にはJPM8) など
アナログデータからデジタルデータへの変換などの問題もあ
がある.
高圧縮PDFでは,PDF形式で統合を行っている.PDF9) は
る.その結果,文字の単色性は失われ,文字の色数が多くな
官公庁などを中心にオフィスで広く使われている汎用フォー
りファイルサイズが増加してしまう(Fig.3参照).
マットであり,無料配布されている専用リーダーをインス
そこで高圧縮PDFでは,劣化した色情報から劣化前の色
トールすればOSの種類を問わずPDF文書を閲覧可能である.
を推定し,色数をN色まで減色する.この減色効果によって
ファイルサイズを,画像をそのまま圧縮する場合に比べて格
段に小さくすることができる.
3.実験と結果
次に上記処理で得られたN色を用いて,文字の単色化を行
この章では,実験とその結果について示す.実験には9つ
い全体としてN色の多値画像を作成する.そして,色数の限
7)
定された多値画像に適したFLATE圧縮 と呼ばれる方式を
の画像を用い,高圧縮PDFの有効性を画質とファイルサイズ
用いて圧縮を行う(Fig.4参照).
の面から評価する.
Ricoh Technical Report No.30
95
DECEMBER, 2004
3-1
うことで行った.ただし,順位は品質が同等ならば,同一順
実験データと比較対象
位もありとした.
実験に用いたのは,300dpiのフルカラー,ファイルサイズ
評価結果をTable2,Table3に示した.Table2,Table3はそ
が25.5MByteとなる9つの画像である.画像の内容は,雑誌
れぞれ,標準PDFと高圧縮PDF,JPEGと高圧縮PDFを比較し
記事が4枚,カタログが2枚,地図が1枚,新聞記事が1枚,事
て,順位が高かった人数を示している.同等は順位がどちら
務書類が1枚である.
も同じだった場合である.また,画像の一部をFig.6~Fig.8
比較対象としてAdobe Acrobat5.0を用いて圧縮された画像
に示す.
(以下,標準PDF)とJPEGによって圧縮された画像(以下,
JPEG)を用いた.標準PDFは「文字の視認性が高い」画像
原稿名
(No)
の代表として,JPEGは「ファイルサイズの小さい」画像の
代表として比較対象に選んだ.ただし,標準PDFはAdobe
雑誌A(1)
雑誌B(2)
雑誌C(3)
雑誌D(4)
カタログA(5)
カタログB(6)
地図(7)
新聞記事(8)
事務書類(9)
Acrobat5.0 Distillerのデフォルト・ジョブ・オプションを
[CJKScreen]で圧縮した場合,JPEGは高い圧縮率を指定した
(1~99まで選べる圧縮率をファイルサイズが最も小さくな
る99に指定した)場合である.
3-2
Table 2
Image Quality(PDF vs. Compact PDF).
標準
PDF
9
4
1
8
5
4
6
9
8
文字
同等
0
5
5
1
4
4
1
0
1
高圧縮
PDF
0
0
3
0
0
1
2
0
0
標準
PDF
4
6
2
3
4
9
9
8
8
背景
同等
5
3
7
4
5
0
0
1
1
高圧縮
PDF
0
0
0
2
0
0
0
0
0
ファイルサイズの比較
Table 3
ファイルサイズの比較結果をTable1に示す.
Table 1
File size(KByte).
原稿名(No)
オリジナル
標準
PDF
JPEG
高圧縮PDF
雑誌A(1)
雑誌B(2)
雑誌C(3)
雑誌D(4)
カタログA(5)
カタログB(6)
地図(7)
新聞記事(8)
事務書類(9)
25,500
25,500
25,500
25,500
25,500
25,500
25,500
25,500
25,500
3,412
1,220
3,412
1,536
7,338
937
12,302
1,356
721
222
253
228
327
275
294
310
290
237
209
275
227
309
249
235
488
372
181
Image Quality(JPEG vs. Compact PDF).
原稿名
(No)
JPEG
文字
同等
雑誌A(1)
雑誌B(2)
雑誌C(3)
雑誌D(4)
カタログA(5)
カタログB(6)
地図(7)
新聞記事(8)
事務書類(9)
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
高圧縮
PDF
9
9
9
9
9
9
9
7
9
JPEG
背景
同等
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
高圧縮
PDF
9
9
9
9
9
9
9
9
7
標準PDFと高圧縮PDFを比較した場合,雑誌やカタログな
どの原稿に関しては半数近くの人が標準PDFと高圧縮PDFの
標準PDFと高圧縮PDFを比較した場合,高圧縮PDFの方が
画質が同等と答えており,高圧縮PDFがファイルサイズの大
明らかにファイルサイズが小さいことがわかる.
きな標準PDF並みの画質を実現できていることがわかる.ま
次にJPEGと高圧縮PDFを比較した場合,高圧縮PDFが高
た,標準PDFの方が画質が良いと答えた人も,文字を背景と
い圧縮率を指定したJPEGと同等以下のファイルサイズに
して分離してしまった部分に注目した評価であり,高圧縮
なっていることがわかる.
PDFとの差は僅差であると答えていた.
この結果から,高圧縮PDFが「ファイルサイズが小さ
ファイルサイズがほぼ同等のJPEGと高圧縮PDFを比較し
い」画像を実現できることがわかる.
3-3
た場合,ほとんどの原稿で高圧縮PDFの方が画質が良いとい
う結果になった.
画質の比較
この結果から,高圧縮PDFが「文字の視認性が高い」画
画質の比較は定量的な評価が困難なため,主観的な評価
像を実現できることがわかる.
を行った.評価は,9人の被験者に標準PDFとJPEG,高圧縮
PDFを文字と背景の2つの項目で比較し,順位をつけてもら
Ricoh Technical Report No.30
96
DECEMBER, 2004
7)
総合評価
3-3
P.Deutsch : DEFLATE Compressed Data Format Specification
version 1.3,RFC1951,(1996).
ファイルサイズと画質の評価から,高圧縮PDFは「文字
8)
の視認性が高い」かつ「ファイルサイズが小さい」画像を実
Information
Technology-JPEG2000
Image
Coding
Standard-
Part6:Compound Image File Format,ISO/IEC FDIS 15444-6.
現できていることがわかる(Fig5参照).
9)
アドビシステムズ:PDFリファレンス,(株)ピアソン・エデュ
ケーション,(2001).
注1) Adobe Acrobat5.0はadobe社の製品です。
http://www.adobe.co.jp/
Fig.5
Performance.
4.まとめ
フルカラーのオフィス文書画像を「文字の視認性が高
Fig.6
PDF sample.
Fig.7
JPEG sample.
い」,「ファイルサイズが小さい」画像にする圧縮技術の開
発に関して,高圧縮PDFを開発し,実験的に有効性を示した.
今後は,高圧縮PDFのコア技術である文字画像と背景画
像の分離技術について,さらなる精度向上を目指す.また,
一部機器ではすでに実装されているように,高圧縮PDFに
OCR結果のテキストを貼り付けることで,検索を可能にす
るなどの機能面からの差別化を図る予定である.
参考文献
1)
NTT:Color extension for Group 4 facsimile,CCITT Com
VIII-80,(1990).
2)
松木 真:カラーファクシミリへの文書構造化,1993年電子情
報通信学会春季大会予稿,D418,(1993).
3)
堀田 裕弘,など:均等色空間に基づくカラー画像の領域分
割,信学論 (D-II),vol.J74-D-II,no.10,pp.1370-1378,(1991).
4)
高橋 圭子,など:ISODATAクラスタリング法を用いたカラー
画像の領域分割,信学論(D-II),vol.J82-D-II,no.4,pp.751-762,
(1999).
5)
Ridoc Document System:http://ext.ricoh.co.jp/ridoc_ds/rds/.
6)
文書画像処理ツールキット「リコードキュメント SDKシリー
Fig.8
Compact PDF sample.
ズ」:http://ext.ricoh.co.jp/document-sdk/.
Ricoh Technical Report No.30
97
DECEMBER, 2004