小売企業が「注文データ（毎日1GB）をAzure Data LakeにELT方式で毎日深夜… | DP-900：Microsoft Azure Data Fundamentals

データの基礎応用

小売企業が「注文データ（毎日1GB）をAzure Data LakeにELT方式で毎日深夜0時にロードし、Azure Synapse Analyticsで変換処理を実行」するパイプラインを運用しています。ある日、ソースシステムの不具合により「重複した注文レコード（同一注文ID、顧客ID、タイムスタンプが完全一致）が500件含まれた状態」でロードされてしまいました。どのような影響が最も懸念されるか？

A.Data Lake層（生データ層）に重複が混在した状態で保持されるが、Synapse側で変換時に除外ロジックを追加すれば、レポートには影響しない

✗ ELT方式では既にロード済みのData Lakeデータに対して遡及的に変換ロジック適用は困難で、抽出段階からの修正が必要です。

B.既に過去のSynapse変換結果にマージされている場合、重複データの遡及削除が困難になり、月別・年別のKPI値が誤った状態で保持される← 正解

✓ 正解です。重複を含む状態で既に集計・マージされた場合、過去のKPI値が誤ったままになり、遡及修正に大きな労力が必要になります。

C.Synapse のMPP（大規模並列処理）エンジンが重複を自動検出し、エラーで変換処理が停止する

✗ Synapseは完全一致の重複を自動検出・エラー停止する機構を持たず、クエリは実行されます。

D.重複分の500件だけストレージコストが余分に発生するが、データの正確性には影響しない

✗ 重複データは報告数値、KPI計算に直接影響し、ストレージコストだけの問題ではありません。

この問題のポイント

重複を含む状態で既に集計・マージされた場合、過去のKPI値が誤ったままになり、遡及修正に大きな労力が必要になります。

⚠ この問題の誤りを報告

← 前の問題練習を始める次の問題 →