Azure AutoML で分類モデルの訓練を実行したところ、訓練前のデータ検証ステップで… | AI-900：Microsoft Azure AI Fundamentals

Azure ML応用

Azure AutoML で分類モデルの訓練を実行したところ、訓練前のデータ検証ステップで「特定のカテゴリ特徴量に、訓練セットには出現せず、テストセットには出現する値が含まれている」という警告が出た。この状況でモデルが本番環境で遭遇した場合、最も起きやすい現象はどれか？

A.モデルはその未知カテゴリ値を自動的に訓練データ内の最頻出カテゴリに置換し、正常に処理される

✗ AutoML の標準動作では自動置換は行われません。未知値への対応は明示的な処理が必要です。

B.モデルはその未知カテゴリ値に対して信頼度スコア（確信度）を極めて低く算出し、信頼性のある予測ができなくなる

✗ 未知カテゴリ値への対処は実装依存ですが、単に確信度が低下するだけでなく、例外エラーやデフォルト処理に落ちて予測品質が著しく低下するケースが最も一般的です。

C.モデルの推論パイプラインが例外エラーを発生させるか、または未知カテゴリをデフォルトクラスと解釈してしまい、予測品質が著しく低下する← 正解

✓ 正解です。処理パイプラインの設定によって例外またはデフォルト処理が起こり、いずれにしろ予測品質が著しく低下します。これが本番環境で最も起きやすい現象です。

D.未知カテゴリ値の出現数がごく少数であれば無視され、大数であればモデルが自動的に再訓練される

✗ AutoML は本番環境で自動再訓練されません。明示的に再訓練を設定する必要があります。

この問題のポイント

処理パイプラインの設定によって例外またはデフォルト処理が起こり、いずれにしろ予測品質が著しく低下します。これが本番環境で最も起きやすい現象です。

「Azure ML」の他の問題

AWS Certified Cloud Practitioner（CLF-C02）

AWSクラウドの入門資格。クラウドの概念・AWSのコアサービス・セキュリティ・料金モデルを問う。

AWS Certified Solutions Architect - Associate（SAA-C03）

AWSでのシステム設計能力を問うアソシエイト資格。高可用性・セキュリティ・コスト最適化の設計が中心。

DP-900：Microsoft Azure Data Fundamentals

Azureのデータサービスの基礎を問うMicrosoft認定資格。リレーショナル/非リレーショナルデータ、分析ワークロード、コアのデータ概念を扱う。