GMO即レスAIでは、誰でも簡単にAIエージェントアプリが作れるDifyの導入支援を行っております。

今回はマルチモーダルに対応したLLMやAIアプリ、Difyでの構築方法を解説します。

マルチモーダルAIとは

ChatGPTやClaude、Soraなど、複数のAIモデルを利用した経験がある方や、AIでテキストだけでなく画像や音声を生成した経験がある方は、マルチモーダルを聞いたことがあるかもしれません。

マルチモーダルAIとは、テキスト、画像、PDFのデータを読み取ってグラフデータに置き換えたり分析した内容をテキストで出力や、テキストと画像をアップロードして動画を生成する等の処理が可能です。

マルチモーダルの逆はシングルモーダルです。たとえば、「文章を要約して」とテキストの指示で、要約されたテキストが出力されるのは一つのモダリティだけの処理となります。

マルチモーダルなLLM

代表的なマルチモーダルに対応しているLLMをご紹介します。

ChatGPT

OpenAI社が提供している、ChatGPT-4oのモデルでテキスト、画像、音声、動画のデータを同時に処理が可能です。とくに、テキストでの指示で画像を生成する精度が向上しており、画像内のテキストも日本語で生成される精度が高くなりました。無料版でも利用でき、幅広い活用が可能です。

Gemini

Google社が提供するAIモデルで、ドキュメントや画像、コード生成を得意とするマルチモーダル対応モデルです。Googleの検索機能からのリサーチや、ほかにもGoogle Workspaceで提供されるスライドやドキュメント、スプレッドシート等との連携で多様なタスクを遂行してくれます。

Claude

Anthropic社が提供するモデルで、Claude3からテキストと画像を理解できるマルチモーダルに対応しています。画像を含むPDFデータ等の視覚情報の処理に強いのが特徴です。

ただし、2025年7月現在は、Claude単体では音声や動画データの処理機能は備わっておりません。

Flamingo

Flamingoは、Google DeepMindが開発したマルチモーダルAIモデルで、画像や動画の視覚情報とテキストを統合的に処理できる点が特徴です。とくに優れているのは、「Few-Shot学習」への対応です。わずかな例（プロンプト）を与えるだけで、画像や動画を「理解」し、自然言語で応答・説明することできます。現在はOpenFlamingoとしてオープンソース版も登場し、研究用途やプロトタイピングにも利用されています。

Kosmos-2

Kosmos‑2は、Microsoftが開発したマルチモーダルAIです。最大の特徴はグラウンディング能力です。従来の視覚言語モデルは画像全体を理解するだけでした。Kosmos‑2では画像中の特定の領域（物体や場所）に対応するテキストを、バウンディングボックス（画像や映像の中の物体を囲んだ部分領域）座標をトークン化しながらリンクする独自の手法が使われています。この手法より、たとえばユーザーが「この帽子を指して説明して」とすると、Kosmos‑2は該当エリアを認識しバウンディングボックスで応答しながら「青い帽子をかぶった人が…」とテキストで説明が可能です。

マルチモーダルなAIアプリの例

マルチモーダルに対応しているAIアプリが複数あります。以降で紹介するDifyでマルチモーダルアプリを実装する方法でも使用するアプリもあります。Difyで実装する際に、ツールとして利用の可能です。

音声
音声を処理して文字起こし・要約、議事録作成、音声と音声の会話
代表的なAIアプリ：Whisper

画像
テキストやドキュメントのデータを処理してレポートの作成、テキスト情報から画像の生代表的なAIアプリ：Stable Diffusion、DALL-E 3

動画
動画の音声や画像から情報を解析して要約や翻訳、テキストから動画の生成
代表的なAIアプ：Gemini（youtube動画要約）、ZhipuAI

Difyでマルチモーダルアプリを実装する方法

音声に対応しているLLMモデルを使った音声議事録化botの実装方法をご紹介します。
Difyで実装する場合、2パターンあります。状況によって使い分けてください。

パターン①：Speach To Text（Whisper）とChatGPTの組み合わせで文字起こしと要約を実施する方法
DifyでChatGPTのモデルを利用する場合、音声と動画に対応してないので、文字起こしの部分はSpeach To Text（Whisper）をツールノードに、要約の部分をChatGPTをLLMノードに設定します。

パターン②：Geminiで文字起こしと要約を実施する方法
DifyでGeminiを利用する場合、音声と動画どちらにも対応しているので、文字起こしと要約までLLMノードで設定できます。

1.Difyのワークフローアプリを選択

Difyのスタジオで「最初から作成」をクリックし、アプリタイプでワークフローを選択します。アプリの名前と説明はわかりやすく、「文字起こし簡易アプリ」と入力します。

2. 開始ノードの設定

今回、音声ファイルから文字を起こしたいので、ファイルのアップロードを開始ノードに設定します。

変数名はaudio_fileで設定

3. ツールノードの設定

①のパターンの場合
ツールでSpeach to Textを設定します。文字起こしを担う部分です。モデルの部分はwhisperを選択します。

②のパターンの場合
ツール設定はせずに次のLLMノードの設定を行います。

4. LLMノードでGeminiもしくはGPT-4oとプロンプトを設定

①のパターンの場合
ツールノードでSpeach to textを設定しているので、LLMの設定で「コンテキスト」にSpeach To Text/text 設定し、システムプロンプトで文字起こしの要約、出力の指示文を記載します。

コンテキスト設定した際は、システムプロンプトに変数を追加します。変数は、Speach To Text/text を加えます。/ を入力すると変数が選択できます。

②のパターンの場合
ツールノードは設定せず、Geminiをノードのモデルで選択します。
コンテキストに開始ノードで設定したaudio_fileを設定し、システムプロンプトにコンテキストを含む文字起こしと要約の指示文を記載します。ビジョンでaudio_fileを指定します。

5. 回答（終了）ノードを設定

テキスト出力させたいので、変数にtextを設定します。

6.動作検証

音声ファイルをアップロードし実行開始します。うまく出力されない場合、LLMのコンテキストの設定や変数が正しく設定されているか確認します。

文字起こし文と要約文が生成できました。今回は、LLMのシステムプロンプトで、文字起こしのテキストと要約データを出力する指示を設定したので、しっかり要約文まで生成されました。

注意：Difyで作成したアプリにアップロードするデータの容量は制限があります。各種APIやDifyのドキュメントを確認しましょう。

マルチモーダルAIエージェントの活用例

最後にマルチモーダルAIエージェントの活用事例をまとめてみました。

マルチモーダルに対応したLLMやマルチモーダルAIアプリを組み合わせ、多様な業務領域に対応するAIエージェントが構築できます。

業務領域	シナリオ（設計）	入力モーダル	出力モーダル	使用技術
会議支援	音声で収録された会議をリアルタイムで文字起こし・要約・アクション抽出	音声	テキスト（要約、ToDo）	ASR（音声認識）＋LLM（GPT-4o、Claude他）
顧客サポート	ユーザーが送信したスクリーンショットをもとにエラーの原因と対処法を提案	画像＋テキスト	テキスト（チャット応答）	Vision-LLM（GPT-4V、Gemini）
営業支援	顧客から届いた資料（PDF＋グラフ）を要約してCRMに自動登録	PDF（テキスト＋画像）	テキスト＋システム連携（API）	Claude 3 + Zapier / API連携
マーケティング	SNS投稿画像とテキストから感情傾向を分析し、週次レポートを生成	画像＋テキスト	テキスト（レポート）	LLM＋画像感情分析API
教育支援	生徒がアップロードした板書や図を解釈して補足解説	画像（板書、図）	テキスト＋音声（読み上げ）	Vision-LLM＋TTS（音声合成）
法務支援	契約書PDF＋スキャン画像を読み取り、リスク箇所を抽出・報告	PDF（テキスト＋画像）	テキスト（指摘内容）	Vision-LLM＋OCR
社内ナレッジ活用	動画マニュアルを読み取り、従業員の質問に対して要点で回答	動画＋テキスト質問	テキスト（QA応答）	Video解析＋RAG＋LLM
外国語対応支援	外国語の書類・画像・音声を自動翻訳・要約し、社内に共有	画像＋音声＋テキスト	テキスト（翻訳＋要約）	OCR＋ASR＋LLM翻訳モデル

まとめ

マルチモーダルなAIアプリやLLMを活用してDifyでAIエージェントを構築する方法についてご紹介しました。

最後までお読みいただきありがとうございました！

Difyで構築するマルチモーダルAIエージェント：テキスト・画像・音声・動画