難問・アンチパターン定義問題

「Azure Data Factoryのコスト最適化のため、すべてのETLパイプラインをAzure IR(Integration Runtime)ではなくSelf-hosted IR(SHIR)で実行する」という提案の問題点はどれか?

A.SHIRはAzure IRより常に高速なのでコストは最適化されない
✗ SHIRが常に高速とは限らない。Azure IR(Azureマネージド)はAzure内のリソース間でより効率的に動作する。
B.SHIRはオンプレミス接続専用エージェントであり、Azure内リソース間の移動にSHIRを使うと不要なコストと管理負担が生じる← 正解
✓ 正解。Self-hosted IRはオンプレミス・プライベートネットワーク内のデータソースへのアクセス専用のエージェント。Azure内のリソース(ADLS Gen2→Synapse等)間のデータ移動に SHIRを使うと、オンプレミスマシンを経由する不要なデータ転送が発生し、コスト・速度・管理負担がすべて悪化する。Azure内のリソース間はAzure IRを使うべき。
C.SHIRはデータ変換(Mapping Data Flow)をサポートしておりコスト最適化に有効
✗ Mapping Data FlowはAzure IR(Spark クラスター)上で実行され、SHIRではサポートされない。
D.SHIRはWindowsマシンにのみインストールでき、Linuxでは使えない
✗ SHIRはWindowsとLinux(Ubuntu)の両方でサポートされている(Linux版はSSH経由等で制限はあるが対応)。

DP-900:Microsoft Azure Data Fundamentals の問題一覧