生成AI詳細定義問題

マルチモーダルAIモデル(例:GPT-4V)の「マルチモーダル」が意味するのはどれか?

A.複数言語のテキストを処理できること
✗ 多言語対応は重要な機能だがマルチモーダルの定義ではない。
B.テキスト・画像・音声など複数の入出力形式を扱えること← 正解
✓ 正解。マルチモーダルはテキスト・画像・音声・動画など異なるモダリティを統合して入出力できること。
C.複数のGPUで並列処理できること
✗ 並列処理は技術的実装の話でモダリティとは別の概念。
D.複数のAPIバージョンをサポートすること
✗ APIバージョン管理はバージョニングの話でモダリティとは無関係。

AI-900:Microsoft Azure AI Fundamentals の問題一覧