生成AIにおける「マルチモーダルモデル（Multimodal Model）」に関する以下の… | AWS Certified AI Practitioner（AIF-C01）

生成AIの基礎誤り発見

生成AIにおける「マルチモーダルモデル（Multimodal Model）」に関する以下の記述のうち、誤っているものはどれですか？

A.マルチモーダルモデルとは、テキスト・画像・音声など複数の種類のデータ（モダリティ）を入力または出力として扱えるモデルを指す。

✓ この記述は正しい。マルチモーダルモデルは異なるデータ形式を統合的に扱う能力を持ち、より豊かな入出力が可能です。

B.GPT-4Vは画像とテキストを組み合わせた入力を処理できるマルチモーダルモデルの一例である。

✓ この記述は正しい。GPT-4Vはテキストと画像を入力として受け付けるOpenAIのマルチモーダルモデルです。

C.マルチモーダルモデルはテキスト単一モデルと比較して必ず精度が高く、あらゆるNLPタスクでテキスト専用モデルを上回ることが保証されている。← 正解

✓ 正解です。この記述が誤りで、正しくはマルチモーダルモデルが全てのNLPタスクでテキスト専用モデルを上回ることは保証されていません。タスクによってはテキスト専用モデルの方が優れる場合もあります。

D.Amazon Bedrockでは、Claude 3などのマルチモーダル対応モデルを利用して、画像を含むプロンプトを処理するAPIを呼び出すことができる。

✓ この記述は正しい。Amazon BedrockではClaude 3などを通じて画像とテキストを組み合わせたマルチモーダル推論が可能です。

この問題のポイント

この記述が誤りで、正しくはマルチモーダルモデルが全てのNLPタスクでテキスト専用モデルを上回ることは保証されていません。タスクによってはテキスト専用モデルの方が優れる場合もあります。

「生成AIの基礎」の他の問題

G検定（深層学習・ジェネラリスト検定）

日本ディープラーニング協会（JDLA）が主催するAI・深層学習の基礎資格。AIの概念・機械学習・ディープラーニング・生成AIの基礎を問う。2025-2026年に受験者急増中。