データの基礎応用

小売企業が「注文データ(毎日1GB)をAzure Data LakeにELT方式で毎日深夜0時にロードし、Azure Synapse Analyticsで変換処理を実行」するパイプラインを運用しています。ある日、ソースシステムの不具合により「重複した注文レコード(同一注文ID、顧客ID、タイムスタンプが完全一致)が500件含まれた状態」でロードされてしまいました。どのような影響が最も懸念されるか?

A.Data Lake層(生データ層)に重複が混在した状態で保持されるが、Synapse側で変換時に除外ロジックを追加すれば、レポートには影響しない
✗ ELT方式では既にロード済みのData Lakeデータに対して遡及的に変換ロジック適用は困難で、抽出段階からの修正が必要です。
B.既に過去のSynapse変換結果にマージされている場合、重複データの遡及削除が困難になり、月別・年別のKPI値が誤った状態で保持される← 正解
✓ 正解です。重複を含む状態で既に集計・マージされた場合、過去のKPI値が誤ったままになり、遡及修正に大きな労力が必要になります。
C.Synapse のMPP(大規模並列処理)エンジンが重複を自動検出し、エラーで変換処理が停止する
✗ Synapseは完全一致の重複を自動検出・エラー停止する機構を持たず、クエリは実行されます。
D.重複分の500件だけストレージコストが余分に発生するが、データの正確性には影響しない
✗ 重複データは報告数値、KPI計算に直接影響し、ストレージコストだけの問題ではありません。

この問題のポイント

重複を含む状態で既に集計・マージされた場合、過去のKPI値が誤ったままになり、遡及修正に大きな労力が必要になります。

DP-900:Microsoft Azure Data Fundamentals の問題一覧