実戦シナリオ定義問題

あるグローバルECサイトがデータパイプラインを設計します。「毎日深夜にオンプレミスのSAP ERPシステムから売上データをAzureに転送(バッチ)」「ADLS Gen2に蓄積されたデータをAzure Databricksで機械学習用に前処理」「学習済みモデルをAzure Machine Learningに登録・デプロイ」という3段階のパイプラインのオーケストレーションに最適なサービスはどれか?

A.Azure Stream Analytics(3段階すべてをリアルタイムで処理)
✗ Stream AnalyticsはリアルタイムストリームSQL処理用。バッチのERP転送・ML前処理のオーケストレーションには使わない。
B.Azure Data Factory(パイプライン・依存関係・スケジュールを管理)← 正解
✓ 正解。Azure Data FactoryはSAP ERPを含む200以上のコネクターを持ち、ADFパイプラインのアクティビティとしてDatabricksジョブ・Azure MLパイプラインを呼び出せる。依存関係(SAPからの転送が成功したら前処理を開始)・スケジューリング(深夜バッチ)を管理できる。
C.Power BI(レポートでデータ確認後、手動でトリガー)
✗ Power BIはデータ可視化ツールであり、ETLパイプラインのオーケストレーションは行わない。
D.Azure Event Hubs(イベントドリブンに各ステップをトリガー)
✗ Event HubsはイベントIngestionサービスであり、複雑なパイプラインのステップ間の依存関係・スケジューリングのオーケストレーション機能を持たない。

DP-900:Microsoft Azure Data Fundamentals の問題一覧