データの基礎応用
小売企業が「注文データ(毎日1GB)をAzure Data LakeにELT方式で毎日深夜0時にロードし、Azure Synapse Analyticsで変換処理を実行」するパイプラインを運用しています。ある日、ソースシステムの不具合により「重複した注文レコード(同一注文ID、顧客ID、タイムスタンプが完全一致)が500件含まれた状態」でロードされてしまいました。どのような影響が最も懸念されるか?
A.Data Lake層(生データ層)に重複が混在した状態で保持されるが、Synapse側で変換時に除外ロジックを追加すれば、レポートには影響しない
✗ ELT方式では既にロード済みのData Lakeデータに対して遡及的に変換ロジック適用は困難で、抽出段階からの修正が必要です。
B.既に過去のSynapse変換結果にマージされている場合、重複データの遡及削除が困難になり、月別・年別のKPI値が誤った状態で保持される← 正解
✓ 正解です。重複を含む状態で既に集計・マージされた場合、過去のKPI値が誤ったままになり、遡及修正に大きな労力が必要になります。
C.Synapse のMPP(大規模並列処理)エンジンが重複を自動検出し、エラーで変換処理が停止する
✗ Synapseは完全一致の重複を自動検出・エラー停止する機構を持たず、クエリは実行されます。
D.重複分の500件だけストレージコストが余分に発生するが、データの正確性には影響しない
✗ 重複データは報告数値、KPI計算に直接影響し、ストレージコストだけの問題ではありません。
この問題のポイント
重複を含む状態で既に集計・マージされた場合、過去のKPI値が誤ったままになり、遡及修正に大きな労力が必要になります。
「データの基礎」の他の問題
ある製造工場がQC検査ラインで以下4種類のデータを収集しています。「半構造化データ」に分類されるのはどれか?ある銀行が2つのシステムを運用しています。①ATM出金処理(毎秒数千件・ACID保証必須・即時応答)と②全支店の月次収益…あるECサイトが「注文を受けた瞬間に在庫を引き当て、15秒以内に在庫不足アラートを送信する」要件を持っています。最も適し…データパイプラインの設計で「生データのままAzure Synapse Analyticsへロードし、Synapseの大規…ネット銀行が「A口座から1万円引き落とし」と「B口座に1万円入金」を同一トランザクション内で実行中にシステム障害が発生し…注文管理テーブルに「注文ID・顧客名・顧客住所・商品名・商品単価・数量」が1テーブルに入っており、同一顧客が別注文をする…
IT・クラウド の関連資格
AWS Certified Cloud Practitioner(CLF-C02)
AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。
AWS Certified Solutions Architect - Associate(SAA-C03)
AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。
AZ-900:Microsoft Azure Fundamentals
クラウドとAzureの基礎を問うMicrosoft認定資格。クラウドの概念、Azureの主要サービス、セキュリティ・コンプライアンス・料金を扱う。