解説:機械学習

G検定 機械学習

このページでは G検定の「機械学習の概要」分野(シラバス項目 7〜10)を解説します。教師あり学習・教師なし学習・強化学習の 3 種類と、モデルの選択・評価方法を学びます。

教師あり学習(Supervised Learning)

入力データと正解ラベル(答え)のペアを大量に学習し、新しいデータに対して予測を行う手法です。回帰(連続値予測)と分類の 2 タスクが中心です。

線形回帰・単回帰分析

連続値を予測する最も基本的な手法。価格予測・売上予測など。重回帰分析もこの仲間です。

ロジスティック回帰

2 クラス分類に使う確率モデル。スパム判定・病気診断など。出力は 0〜1 の確率値です。

決定木

条件分岐でデータを分類。解釈しやすい。顧客分析・信用スコアに活用される直感的な手法です。

ランダムフォレスト

複数の決定木を組み合わせたアンサンブル学習。異常検知・画像分類で精度が高い手法です。

SVM(サポートベクターマシン)

データ間のマージンを最大化して分類する手法。テキスト分類・顔認識に活用されてきました。

勾配ブースティング

弱分類器を順番に学習して精度を高める手法。XGBoost・LightGBM 等が Kaggle で人気です。

教師なし学習(Unsupervised Learning)

正解ラベルなしでデータのパターンや構造を自動的に発見する手法です。クラスタリングと次元削減が代表的なタスクです。

k-means 法

データを k 個のクラスターに分類する代表的なクラスタリング手法。シンプルで高速ですが、初期値依存があります。

主成分分析(PCA)

高次元データを低次元に圧縮して可視化・分析しやすくする次元削減手法。固有値分解が基礎です。

t-SNE

高次元データを 2 次元・3 次元に可視化する次元削減手法。クラスタを視覚化するのに優れています。

LDA(潜在的ディリクレ配分法)

テキストからトピックを自動抽出するトピックモデル。文書集合の隠れたテーマを推定します。

SVD(特異値分解)

行列を分解して隠れた構造を発見する手法。レコメンドシステム・次元削減に活用されます。

デンドログラム

階層型クラスタリングの結果を樹形図で表現したもの。データ間の類似関係を視覚的に把握できます。

強化学習(Reinforcement Learning)

エージェントが環境と相互作用しながら「報酬を最大化」するように行動を学習する手法です。AlphaGo やゲーム AI に使われています。

エージェント・環境

エージェントは環境の中で行動する学習主体。状態・行動・報酬の 3 要素で環境とやり取りします。

マルコフ決定過程(MDP)

強化学習の数学的な枠組み。現在の状態のみで次の状態が決まる「マルコフ性」を前提とします。

Q 学習

行動価値関数(Q 値)を学習する代表的な強化学習アルゴリズム。DQN のベースになる手法です。

SARSA

Q 学習に似た手法。実際に選んだ次の行動の Q 値を使って更新する On-Policy 型アルゴリズム。

REINFORCE

方策勾配法の基本的なアルゴリズム。方策(行動選択ルール)を直接最適化する手法です。

Actor-Critic・UCB

Actor-Critic は方策(Actor)と価値推定(Critic)を組合せた手法。UCB は探索と活用のバランスを取るバンディット手法。

モデルの選択・評価

機械学習モデルを正しく評価することは非常に重要です。学習データで高い精度が出ても、未知のデータで失敗する「過学習(Overfitting)」が起きないように評価します。

k-分割交差検証

データを k 分割して学習・検証を繰り返す手法。過学習を防ぎ、汎化性能を測るために使います。

RMSE・MAE

回帰モデルの予測誤差指標。RMSE は平均二乗平方根誤差、MAE は平均絶対誤差。値が小さいほど良いモデル。

精度(Accuracy)

全予測のうち正解した割合。クラス不均衡なデータでは過大評価になりやすい点に注意が必要です。

適合率・再現率・F1

適合率(Precision)は「陽性予測」の正解率、再現率(Recall)は「実際の陽性」の検出率、F1 はその調和平均。

AUC・ROC 曲線

分類モデルの性能を可視化・定量化する指標。1 に近いほど優秀。閾値を変えて評価する手法です。

混同行列の 4 要素

真陽性・真陰性・偽陽性・偽陰性。すべての評価指標の基礎となる 4 つの結果分類です。

オッカムの剃刀

同じ精度なら単純なモデルを選ぶべきという原則。過学習を防ぐためのモデル選択の指針です。

AIC・BIC

モデルの複雑さと精度のバランスを評価する情報量基準。モデル比較の定量的な指標です。

この分野の出題ポイント

機械学習分野で押さえておきたい 5 つのポイントです。

3 種類の学習方式を識別できるように:教師あり・教師なし・強化学習の違いと、代表的アルゴリズム(SVM、k-means、Q 学習など)を答えられるようにします。
過学習・未学習の対策を理解:過学習対策(正則化・ドロップアウト・交差検証)と未学習対策(モデル複雑化・特徴量追加)をセットで覚えます。
混同行列と評価指標を計算できるように:精度・適合率・再現率・F1 の計算は頻出。混同行列から手計算で求められるよう練習しましょう。
教師なし学習の代表手法:k-means、PCA、t-SNE の特徴と使い分けを覚えます。次元削減とクラスタリングの違いも整理。
強化学習の基本用語:エージェント・環境・状態・行動・報酬・Q 値・方策・マルコフ性。要素間の関係を図で整理すると理解しやすくなります。

次のステップへ

機械学習の基礎を押さえたら、深層学習の解説に進みましょう。

タイトルとURLをコピーしました