Azure AIサービス総合比較

Azure AI Speech(Speech Services)の「音声認識(Speech-to-Text)」と「音声合成(Text-to-Speech)」の違いについて、正しい説明はどれか?

A.音声認識は音声ファイルをテキストに変換し、音声合成はテキストを音声ファイルに変換する← 正解
✓ 正解です。音声認識(STT)は音声→テキスト変換で、音声合成(TTS)はテキスト→音声変換という正逆のプロセスです。
B.音声合成は音声ファイルをテキストに変換し、音声認識はテキストを音声ファイルに変換する
✗ 説明が完全に逆転しています。音声合成がテキスト変換、音声認識が音声変換というのは誤りです。
C.両者は同じプロセスで、音声入出力の方向が異なるだけである
✗ 同じプロセスではなく、完全に逆のプロセスです。単なる方向の違いではなく、処理の本質が異なります。
D.音声認識は機械学習モデルを使用し、音声合成はルールベースの処理を使用している
✗ 誤りです。現代の音声合成も機械学習(ニューラルTTS)を活用しており、ルールベースに限定されていません。

この問題のポイント

音声認識(STT)は音声→テキスト変換で、音声合成(TTS)はテキスト→音声変換という正逆のプロセスです。

AI-900:Microsoft Azure AI Fundamentals の問題一覧