Azureデータ分析応用

ある企業がAzure Data FactoryとAzure Stream Analyticsを組み合わせて使用しています。Data Factoryは毎日午前1時に過去24時間分のバッチデータをクラウドストレージにダンプします。一方、Stream Analyticsは同じストレージをソースとして、1時間ごとの集計結果を出力しています。今月から、Data Factoryのダンプジョブが午前3時に遅延するようになりました。この遅延が生じた場合、Stream Analyticsの出力にはどのような影響が起こるか?

A.午前3時以降のStream Analyticsの集計結果が元のデータなしで計算され、NULLまたは不完全な結果が出力される
✗ Stream Analyticsはソースにデータがない場合も既存データで集計を続けます。NULLが埋まることはありません。
B.Stream Analyticsは遅延したデータを自動的に検出し、それが到着するまで出力をバッファリングして待機する
✗ Stream Analyticsはバッチ処理ではなく、ストリーム処理です。到着までの無期限待機は設計上行いません。
C.遅延したデータはStream Analyticsのウィンドウを越えているため、スキップされて出力結果に反映されない可能性がある← 正解
✓ 正解です。Stream Analyticsのウィンドウサイズ(デフォルト数分~数時間)を超えた遅延データは、既に確定した集計ウィンドウの外にあるため、通常スキップされます。
D.Data Factoryの遅延がStream Analyticsにリアルタイムで通知され、パイプライン実行が自動的に一時停止される
✗ Data FactoryとStream Analyticsは自動的な遅延通知連携を持ちません。独立したサービスです。

この問題のポイント

Stream Analyticsのウィンドウサイズ(デフォルト数分~数時間)を超えた遅延データは、既に確定した集計ウィンドウの外にあるため、通常スキップされます。

DP-900:Microsoft Azure Data Fundamentals の問題一覧