データの基礎定義問題

ある製造工場がQC検査ラインで以下4種類のデータを収集しています。「半構造化データ」に分類されるのはどれか?

A.検査員IDと検査日時と合否フラグを含む固定スキーマのCSVファイル
✗ 固定スキーマのCSVは「構造化データ」。列数・意味が常に一定で事前にスキーマが定義されている。
B.検査中に記録された音声コメント(WAVファイル)
✗ 音声ファイルはバイナリデータであり「非構造化データ」。自己記述的なスキーマを持たない。
C.各製品の検査結果をJSON形式で記録したファイル(製品ごとにキー数が異なる)← 正解
✓ 正解。JSON形式で製品ごとにキーの数が異なる場合、完全な固定スキーマがなく「半構造化データ」。タグ・キーは存在するが事前に定義されたリレーショナルスキーマがない。
D.製品の外観写真(JPEGファイル)
✗ 画像ファイルは「非構造化データ」。内部の画素データは自己記述的な構造を持たない。

DP-900:Microsoft Azure Data Fundamentals の問題一覧