データの基礎応用

データエンジニアが「オンプレミスの営業管理DB(正規化済み・トランザクション性重視)」から「Azureのデータウェアハウス(複雑な分析クエリ対応)」への切り替えを検討しています。元DBの「社員テーブル・営業成績テーブル・顧客テーブル」を非正規化して1つのディメンション結合テーブルにまとめることにしました。このアプローチが招く最大のリスクはどれか?

A.データサイズが非正規化により増加し、ストレージコストが3〜5倍になる可能性がある
✗ 非正規化はストレージサイズを増加させますが、分析用DWでは許容範囲であり「最大のリスク」ではありません。
B.営業成績が同一社員で複数行存在する場合、社員情報が行ごとに重複し、更新時に不整合が生じる可能性がある← 正解
✓ 正解です。同一社員の複数営業成績行で社員情報が重複し、名前変更時に部分更新しか反映されないアノマリが発生します。
C.複雑な分析クエリの実行時間が逆に悪化する
✗ 非正規化は分析クエリの結合コストを削減し、むしろ性能向上が期待されます。
D.Azureサービスが正規化データしか受け付けないため、ロードに失敗する
✗ Azureのデータウェアハウスは正規化・非正規化いずれのデータも受け付けます。

この問題のポイント

同一社員の複数営業成績行で社員情報が重複し、名前変更時に部分更新しか反映されないアノマリが発生します。

DP-900:Microsoft Azure Data Fundamentals の問題一覧