AI基礎

マルチモーダル

テキスト・画像・音声・動画など複数形式を統合的に扱うAIの能力。

マルチモーダルとは?

マルチモーダルは、テキストだけでなく画像・音声・動画など複数の形式(モダリティ)を統合的に理解・生成できるAIの能力です。
GeminiやGPT-4以降のモデルが対応しています。

たとえば画像を見せて質問したり、図表を含む文書を理解したりできます。
検索でも、画像で検索して文章で答えるといった横断的な体験(AIモード等)を可能にします。

マルチモーダルの使い方・実践方法

マルチモーダルがSEOに与える示唆は次のとおりです。

マルチモーダルで押さえるべきポイント

マルチモーダルAIの普及で、画像や図表もAIに理解され、回答に活用されるようになります。
alt属性や周辺テキストで画像の意味を正しく伝え、オリジナルの図解を用意することが、テキスト以外でもAIに引用される機会を広げます。

マルチモーダルを実践するなら

Saguru なら、月額270円から、SEOキーワード調査・上位サイト分析・自サイトSEO診断のすべてが使えます。
「マルチモーダル」を理解した上で、すぐに実践に移せます。

登録なしで1日5回まで無料 / メール登録で1日30回 / ベーシック月額270円 / 自サイトをSEO診断

マルチモーダルについてよくある質問

マルチモーダルとは?
テキスト・画像・音声・動画など複数形式を統合的に扱うAIの能力です。
SEOへの影響は?
画像・動画もAIの理解対象になり、視覚コンテンツの最適化の重要性が増します。
何を準備すべき?
alt属性の整備、オリジナル図解、画像周辺の文脈テキストの充実が有効です。