Dify×OCRで画像をテキスト化するワークフロー構築実践
2025-11-27

個人止まりのAI活用
組織内でAIを活用する個人は増えていますが、チームや部署単位での具体的な活用方法がわからず、業務でAIを使いこなせていないという課題をよく耳にします。
また、個別にAIアカウントを契約している社員の場合、社内情報を共有できないため、業務効率化の範囲が限定的になってしまうケースも見られます。
AIツールは定型的な作業やルールに基づいて求められた要件を満たす業務の代行が得意です。
例えば、人が毎日チェックしている文書データや画像ファイルも、OCR技術を活用することで、AIツールがその業務の一部を代行することが可能です。
組織での利活用の第一歩として選ばれやすいツールに、エージェンティックAI構築プラットフォームのDifyがあります。無料アカウントだけで必要な検証まで進められ、エンジニア以外でも開発〜運用までできる点が評価されています。
いわゆるノーコードで直感的に操作できるため、他のAIと同様に使いこなしていく価値のあるツールと言えるのではないでしょうか。
この記事では、AIツールを社内に導入したいけど、「どこから始めればよいか分からない」という方向けに、Difyでできることの一例と、設定方法について具体的な流れをまとめます。
Dify(ディフィ)とは
Difyは、プログラミング不要でAIチャットボットやAIワークフローを作れるAI構築プラットフォームです。
画面上でブロックを並べて必要な設定を施し、繋げていく操作を繰り返すだけで「社内マニュアルを用いて回答するボット」や「議事録を作成するツール」、そして今回紹介する「画像を読み取って文字起こしするツール」などを簡単に作成できます。
GMO即レスAIでは、誰でも比較的簡単にAIアプリが作れるDifyの導入とその運用支援を行っております。
便利なものを作って終わるだけでなく、現場で使い続けられるAIアプリとして定着させるための伴走型支援が強みです。
GMO即レスAIがご紹介するDifyの具体的な活用方法をまとめた導入事例をダウンロードしてみませんか?業務効率化に成功した事例を多数ご紹介しており、最適なAI活用のヒントになれば幸いです。
▶︎Difyで業務効率化する際のポイントを解説したお役立ち資料
アカウント登録
まずは実際に触って試してみましょう。無料アカウントで十分に検証できます。
■アカウント作成
-
Dify公式サイトで無料登録
https://cloud.dify.ai/signin -
Googleアカウントまたはメールアドレスでログイン
-
アプリタイプ、名前、説明などを入力する
これだけで開発環境の準備は完了します。
画像OCRアプリ作成
取引先から送られる文書の画像データがテキスト化されていない場合(FAXのPDF化データや、紙資料のスキャン画像など)に、人が目で見て手入力する作業を誰しも経験したことがあるのではないでしょうか。
手を動かす作業では入力ミスは避けられませんし、作業者だけでなく確認者にとっても見落としや指摘の手間が発生します。
■アプリの作成手順
「最初から作成」から「ワークフロー」を選択しアプリのアイコンと名前、説明を任意のものを入力して「作成する」を選ぶ。

ここでは名前と説明に画像が読み取れるアプリだということを書いておきましょう。
■開始ブロックの設定
開始ブロックで入力フィールドの設定を変更します。

「+」をクリックしてフィールドタイプを「単一ファイル」に指定します。
変数名は「image」など任意のものを設定します。同じくラベル名にも同じ変数が入ります。
サポートされたファイルタイプを「画像」で指定します。「他のファイルタイプ」から.pdfを指定することもできます。
アップロードされたファイルタイプでは「ローカルアップロード」を選択したら「保存」します。

これでこのツールを使う際に、ファイルをドラッグ&ドロップできる窓口が完成しています。
■LLMブロックの調整
開始ブロックで画像を読み込む設定ができたので、次に読み込んだデータをLLMに渡すブロックを編集します。

「AIモデル」はテスト実行でABテストを繰り返してみて、精度を確かめて最適な言語モデルが何か確認しながら決定していきましょう。
画像を認識するためには「Vision(視覚)機能」を持ったモデルが必要です。
例:chatgpt-5.1、claude-sonnet-4-5、Gemini 3 proなど。
今回は無料枠内で利用できるgpt-4o-miniを指定しています。
SYSTEMプロンプトではAIからどんな出力をして欲しいのか、プロンプトを調整します。
以下プロンプト例
アップロードされた画像を読み取って、以下2つを出力してください。
1. 画像内の文字をすべてテキスト化する。
2. その内容の要点を簡潔に要約する。
出力形式:
—
【要約】
(ここに要約文)
【文字起こし】
(ここに読み取ったテキスト全文)

「ビジョン」を有効にして先ほど開始ブロックで設定した変数を入力します。
今回は{x}imageと入力します。変数は候補から選択できるため、簡単に指定できます。
■出力ブロックを設定

オーケストレーション内で「+」をクリックして出力ブロックを作成し、名前を編集したらブロック内の「+」をクリックして、出力変数で{x}text Stringを指定します。
ここでも変数の候補が出てきてくれるので簡単です。このブロックがないと、処理は行われても結果が表示されません。
■テスト検証と公開
テスト実行ができるので、挙動に問題がないか検証してみましょう。

検証は成功です。
今回、架空の企業のプライバシーポリシーが記載された書類のスクリーンショット画像を読み込ませたところ、問題なく要約・テキストが出力されています。
検証結果に問題がなければ公開です。現場の方々に使ってもらうことで、所属チームや部署で取り組みたい課題ややりたいことを、幅広い視点からさらに見えてくることもあります。
まとめ:OCRはDifyで比較的簡単に作れる
この記事では、Difyの無料アカウントを使って構築できるAI OCRツールを作るまでの流れを紹介しました。
今回はプライバシーポリシーを読み込ませる限定的な利用でしたが、プロンプトを少し書き換えるだけで、下記のような業務に応用し業務の省力化に繋げられそうです。
読み込ませる画像やデータの活用例:
-
請求書・領収書
「発行日」「合計金額」「登録番号」だけを抽出してCSV形式に変換 -
契約書類・注文書
スキャンしたPDFから特約事項だけを抜き出し、リスクチェックの一次スクリーニング
-
複数枚の名刺
スマホで撮影した名刺画像を読み込み、氏名・会社名・メアドをリスト化 -
ECサイトに転載するカタログの商品情報
紙のカタログしかない商品スペックを読み取り、ECサイト用の紹介文を自動生成 -
PDFファイルの表データ
画像化してしまっている表を読み取り、Excelで扱えるMarkdown形式の表に復元
**※**機密情報が含まれる重要な書類は、パブリッククラウド環境ではなく、ローカル環境やVPS環境下、あるいはセキュアな企業向けプランでの利用にとどめ、お取り扱いに十分ご注意ください
なお、GMO即レスAIではDifyの無料枠ではカバーすることができないような、専用クラウド環境下でセキュアに安心してAIツールを導入されたい場合のご相談も承れます。
所属部署の業務削減に貢献できたら、次のさらなる効率化の取り組みや具体的な課題解決に向けて、ぜひ一度GMO即レスAIへご相談ください。
今回紹介したAI×OCRツールでは、ワークフローのブロックを増設して、保管先の指定や連携ツールを用いて共有フォルダへデータを自動で移動させるなど、限りなく手動での操作を減らすこともできます。そうすることで、紙媒体を人の目で見ながら手入力していた運用を効率化できます。
AI導入はツールを入れて終わりではなく、実際に活用される習慣と仕組みを作り、現場の負担をどう減らすかという運用設計が重要です。
GMO即レスAIでは、GMOペパボが全サービスの現場で業務削減してきたノウハウを基に、御社の解決したい課題や目的に合わせてご相談を承ります。