PDFからテーブルを抽出する アクションは、対象のPDFファイルから表形式のデータをデータテーブル形式で取得するアクションです。
PDF内のテキストを文字列(テキスト形式)として取得したい場合は、「PDFからテキストを抽出」アクション、画像のデータを取得したい場合は「PDFから画像を抽出」アクションを使用しましょう。
PDFにテキストがデータとして保存されている必要があるため、ExcelやWordをPDFファイルとして出力した場合は使用できますが、紙の書類等をスキャンしてPDFファイル化した場合は使用できない点に注意しましょう。
PDFファイル内の表形式データを抽出するため、OCRと異なり、確実にPDF内のデータを取得できる点は非常に便利なアクションとなります。
もし、紙の書類等をスキャンしたPDFファイルのデータを取得したい場合は、「OCRを使ってテキストを抽出」アクションを使用して読み取るか、有償のOCRサービスを使用しましょう。
アクションの使い方
追加方法
アクションの「PDF」グループより、「PDF からテーブルを抽出する」アクションを選択し、ドラッグアンドドロップ もしくは ダブルクリックすることでフローに追加できます。
パラメータ
アクションを追加した際に、パラメータを設定します。
各パラメータと詳細について以下で説明します。
PDF ファイル
テキストを取得したいPDFファイルのパスを設定します。
ファイルパスは直接入力、ファイルの選択、変数から選択できます。
抽出するページ
テキストを取得する対象のページを設定します。
- すべて
対象とするPDFファイルの全ページからテキストデータを抽出します。
- 単一
指定した1ページからテキストデータを抽出します。
抽出するページを「単一」に設定すると、"単一ページ番号"の項目が表示され、直接入力もしくは変数にて抽出する対象のページを設定できます。
- 範囲
指定した複数のページからテキストデータを抽出します。
抽出するページを「範囲」に設定すると、"開始ページ番号"と"終了ページ番号"の項目が表示され、直接入力もしくは変数にて抽出する対象のページを設定できます。
詳細
パスワード
PDFファイルにパスワードが設定されている場合は、本項目で対象とするPDFファイルのパスワードを設定することで処理を行うことができます。
パスワードはダイレクトパスワードと変数から選択できます。
ダイレクトパスワードとした場合は上記の様に黒塗りとなり、暗号化されます。
暗号化された値は、フローを共有した際に使用できない点に注意しましょう。
ページの余白を超えるテーブルをマージする
オンとしている場合、PDF内の表の途中にページ区切りがあっても結合して出力します。
最初の行に列名を含める
オンとしている場合、最初の1行目を列名として取得します。
オフとした場合は1行目もテーブルに含まれ、列名はColumn1、Column2 として取得されます。
列名をオン、オフとした場合の取得結果は以下。
生成された変数
アクション実行時に設定した名前の変数が生成されます。
デフォルトの名前
%ExtractedPDFTables%
取得結果イメージ
データ型
DataTable型
変数の用途
対象とするPDFファイルの指定の範囲から表形式のデータを取得し格納されます。
基本的にはデフォルトの名前のまま使用して問題ないですが、複数の情報をフローで取得する場合は判別がし辛くなるので、分かりやすい名前を付けておきましょう。
発生する可能性があるエラー
ファイルが存在しません
PDFファイルに指定したファイルが存在しない場合に発生するエラーです。
設定したファイルパスやファイル名に誤りがないか、指定したファイルが存在するかを確認してみましょう。
無効なパスワード
PDFファイルのパスワードが解除できない場合に発生するエラーです。
パスワードの項目に設定している値が正しいか確認してみましょう。
引数は整数値である必要があります
ページ番号に設定した値が整数値でない場合に発生するエラーです。
ページ番号に平仮名やアルファベットといった文字が入力されていないか確認してみましょう。
Power Automate for desktop アクション一覧
Power Automate for desktopのアクション一覧と使い方を以下でまとめています。
是非参考としてみて下さい。
Power Automate for desktopのアクションをグループごとにまとめています。 目次から目的のアクショングループを選択して参照ください。 各アクションの使用方法については、アクション ...
続きを見る