PDFファイルは一般的には完成した文書を長期保存用途や印刷用途で保存するときに使用するので、それ以上編集を加えない前提で作ることが多いです。
しかし仕事などでPDFを使うことが増えた現在、PDFファイルをMicrosoft Office®のWordなどに変換して使う必要に迫られるときがよくあります。
そのため、PDF作成ソフトもPDFをWord等に変換する機能が付いているものが多くなりました。
ここではPDFファイルをWord等に変換してみます。
AcrobatでPDFをMicrosoft Officeのドキュメントに変換する
Adobe® Acrobat®でPDFファイルをWordやExcelなどのMicrosoft Officeのドキュメントに変換できます。
単純にWordファイルとして書き出す手順
ここでは例としてMacの「Pages」で作った文書から書き出したPDFファイルをWordに変換してみます。
1.ワープロソフトで作った文書をAcrobatで開く
PDFファイルをAcrobatで開きます。
2.「PDFを書き出し」の機能へ進む
「ツール」をクリックして機能一覧を表示し、「PDFを書き出し」をクリックし、「PDFを書き出し」の操作画面を表示します。
3.PDFを変換して書き出す
「PDFを任意の形式に書き出し」の画面でファイル書き出しの操作をします。
書き出したいファイルの種類、形式を選択します。
ここでは一般的なWordファイルに変換したいので「Microsoft Word」を選び、「Word 文書」を選択します。
歯車のマークをクリックすると、PDFの注釈を含めるかどうかなど書き出し方の設定が可能です。
「書き出し」をクリックし、変換したファイルを保存します。
4.変換したWordファイルを開く
書き出されたdocx形式のファイルをWordで開いて使います。
※今回はWordが手元にないのでMacの「Pages」でdocxファイルを開いてみます。
ある程度まともに変換されています。
あとは編集するなり部品を使うなり、必要な作業に使います。
文字が生きているPDF/X-1a、PDF/X-4をWordに変換する場合
文字が生きている以下のようなPDF/X-1a、またはPDF/X-4のPDFファイルをWordに変換してみます。
初期設定で書き出せば問題ない
文字が生きているPDF/XのPDFファイルをWordに変換するなら、一般的なPDFファイルを単純にWordファイルに変換するときと同じように初期設定で書き出せばたいていは問題ありません。
念のため設定を確認してみます。
「ツール」の中の「PDFを書き出し」に進み、「PDFを任意の形式に書き出し」の画面で「Microsoft Word」の「Word文書」を選び、右横にある歯車のマークをクリックし、「DOCXとして保存の設定」のダイアログを表示します。
「DOCXとして保存の設定」のダイアログで上図のように初期設定になっていることを確認し、「OK」をクリックして閉じます。
「書き出し」をクリックしてWordファイルを書き出します。
書き出したWordファイルを見てみる
文字が生きているPDF/X-1a、PDF/X-4をそれぞれWordに変換すると以下のようになりました。
※今回は手元にWordがないため、書き出したdocxファイルをMacの「Pages」で開いています。
レイアウトは多少崩れますが、手直しするなり部品を使うなりして利用できます。
文字をアウトライン化したPDF/XをWordに変換する場合
文字をアウトライン化してあるPDF/X-1aなどをWordに変換したい場合もあるでしょう。
この場合も初期設定でWordに変換すればたいてい問題ありません。
「DOCXとして保存の設定」のダイアログで、初期設定では「必要に応じてテキスト認識」にチェックが入っています。
文字をアウトライン化してあるPDF/X-1aを初期設定でWordファイルに変換して書き出すと以下のようになりました。
※今回は手元にWordがないため、書き出したdocxファイルをMacの「Pages」で開いています。
レイアウトはかなり崩れましたが、アウトライン化されていた文字が文字認識の機能でテキストデータ化されており、文字や画像を部品として使うことはできます。
1枚の画像をWordファイルに変換する場合
スキャン画像など1枚の画像をWordファイルに変換したい場合もあるでしょう。
その場合も初期設定でWordを書き出せばたいてい問題ありません。
例として以下のような1枚のTIFF画像をWordファイルに変換してみます。
1.画像データをAcrobatで開く
TIFF画像をPDFで開きます。
そのとき、以下のダイアログが表示されます。この段階では何も処理を行いたくないので「いいえ」を選びます。
2.初期設定でWordに変換して書き出す
1枚の画像をWordに変換する場合も「DOCXとして保存の設定」のダイアログを初期設定の状態にし、Wordファイルを書き出します。
以下は書き出した結果の例です。
※今回は手元にWordがないため、書き出したdocxファイルをMacの「Pages」で開いています。
ヒグマの「ヒ」がなくなっているなど少し変わってしまったところはありますが、テキスト認識や写真を部品として分離する処理などが行われており、レイアウトを調整したりテキストや画像を部品として使ったりできるようになりました。
書き出し可能なその他の形式
「PDFを書き出し」からWord以外に以下のような形式でファイルを書き出せます。
- Microsoft Excel ブック
- XML スプレッドシート 2003
Microsoft PowerPoint
- PowerPoint プレゼンテーション
画像
- JPEG
- JPEG2000
- TIFF
- PNG
HTML Web ページ
- 単一 HTML ページ
- 複数 HTML ページ
その他の形式
- リッチテキスト形式
- EPS(Encapsulated PostScript)
- PostScript
- テキスト(アクセシブル)
- テキスト(プレーン)
- XML 1.0
Wondershare PDFelementsでPDFをMicrosoft Officeのドキュメントに変換する
Wondershare PDFelementsでPDFをWordなどのMicrosoft Officeドキュメントに変換できます。
Wondershare PDFelementsは買い切りタイプのものもありAcrobatよりも低価格なので、Acrobatのオフセット印刷向けやカラーマネジメントの高度な機能群は必要ない場合は、PDFelementsは手頃です。
PDFelements
PDFelementsでPDFをWordに変換する手順の例
ここでは例としてMacの「Pages」で作って文書から書き出したPDFをWordに変換してみます。
1.PDFelementsでPDFを開く
PDFファイルをPDFelementsで開きます。
2.Wordで書き出し
メニューから[ファイル>エクスポート>Word]と進むか、表示したドキュメントの右上にある「PDFからWordへ」のボタンをクリックします。
ファイル保存の画面でdocxファイルを保存します。
3.書き出したWordファイルを確認
PDFからWordに変換して書き出したdocxファイルを開いてみます。
※今回は手元にWordがないため、書き出したdocxファイルをMacの「Pages」で開いています。
ある程度まともに変換できています。
文字が生きているPDF/XをWordに変換した場合
PDFelementsで文字が生きているPDF/X-1aやPDF/X-4をWordに変換すると、以下のようになりました。
※今回は手元にWordがないため、書き出したdocxファイルをMacの「Pages」で開いています。
レイアウトは少し崩れますが、レイアウトを操作したりテキストや画像を部品として使ったりできます。
色の正確な処理は困難
Wondershare PDFelementsではカラーマネジメントに関する詳細な設定はできないため、CMYKのデータの色を正確に扱うことは困難です。
ただし、異常な色になるわけではなくある程度まともな色のデータとして開いたり書き出したりはできるので、正確でなくてもある程度まともな色になれば差し支えない用途ならCMYKのデータなども扱えます。
文字をアウトライン化したPDF/XのWord変換は困難。OCRを使うのが良い
PDFelementsで文字がアウトライン化されたPDF/X-1aを開き、Wordに書き出すと以下のようになりました。
※今回は手元にWordがないため、書き出したdocxファイルをMacの「Pages」で開いています。
レイアウトはかなり崩れ、文字はテキストデータではなく図の一種のような状態で書き出されます。
文字がアウトライン化されたPDF/Xのテキストを使いたい場合はOCR機能で
文字がアウトライン化されたPDF/XのPDFファイルのテキストを使いたいだけなら、単純にOCR機能を使うと良いでしょう。
Wondershare PDFelementsのOCR機能の使い方については以下の記事をご参照ください。
参考記事
その他、PDFelementsで変換できる形式
PDFelementsからはWordの他、Excel、Powerpoint、ePub、テキスト、リッチテキスト、HTML、画像、などへ変換する機能があります。
以上、PDFファイルをWord等に変換する方法をみてみました。