このページでは「AIに必要な数学・統計知識」(シラバス項目37)を解説します。G検定では計算問題よりも概念理解が中心ですが、基本的な用語はしっかり覚えましょう。
📊 確率・統計の基礎
| 用語 | 説明 |
| 確率分布 | ある事象が起こる確率を関数で表したもの |
| 正規分布(ガウス分布) | 左右対称のベル型の分布。多くの自然現象に現れる |
| ベルヌーイ分布 | コイン投げのように2値(0か1)の確率分布 |
| ポアソン分布 | 単位時間・単位面積あたりの事象の発生回数の分布 |
| 平均(期待値) | データの中心を表す代表値 |
| 分散・標準偏差 | データのばらつきを表す指標。標準偏差は分散の平方根 |
| 相関係数 | 2変数の線形関係の強さを-1〜1で表す指標 |
| 最尤推定 | 観測データが得られる確率を最大化するパラメータを推定する手法 |
| 最小二乗法 | 予測値と実測値の差の2乗和を最小化してパラメータを推定する |
| 仮説検定 | データから統計的な仮説の正否を判断する手法 |
🔢 線形代数の基礎
| 用語 | 説明 |
| スカラー・ベクトル・行列・テンソル | 数値データの次元の異なる表現。AIでは主にテンソルを使用 |
| 行列の積(内積) | ニューラルネットワークの計算の基本演算 |
| 固有値・固有ベクトル | 行列の変換の特性を表す。PCAなどに活用 |
| 特異値分解(SVD) | 行列を3つの行列の積に分解する。次元削減・推薦システムに使用 |
| マハラノビス距離 | データ分布のばらつきを考慮した距離指標。異常検知に活用 |
| ユークリッド距離 | 2点間の直線距離。機械学習で最も基本的な距離指標 |
📈 情報理論・グラフ理論
| 用語 | 説明 |
| エントロピー | 情報の不確実さ・乱雑さを表す指標。値が大きいほど不確実 |
| 交差エントロピー | 2つの確率分布の差を測る。分類問題の損失関数として使用 |
| KLダイバージェンス | 確率分布間の差異を測る非対称な指標 |
| グラフ理論 | ノードとエッジで構成されるネットワーク構造の数学。知識グラフなどに活用 |
| 移動平均 | 時系列データを平滑化する手法 |
| ベイズの定理 | 事前確率と尤度から事後確率を求める定理。機械学習の基礎 |
📝 この分野の出題ポイント
- ✅ 正規分布・ベルヌーイ分布・ポアソン分布の特徴を説明できるようにする
- ✅ 平均・分散・標準偏差・相関係数の意味を理解する
- ✅ エントロピー・交差エントロピー・KLダイバージェンスの違いを整理する
- ✅ 最尤推定とベイズ推定の概念を理解する
- ✅ 計算問題よりも「何のために使うか」という概念理解を重視する
📐 線形代数の基礎
機械学習では、データをベクトルや行列として表現して計算します。線形代数はその土台となる分野です。G検定では深い計算よりも概念の理解が求められます。
| 用語 | 説明 |
| スカラー | 単一の数値。温度や長さなど大きさのみを持つ量 |
| ベクトル | 大きさと方向を持つ量。データの特徴量を表すのに使う |
| 行列 | 数値を縦横に並べた表。画像データやデータセットを表現できる |
| 行列の積 | ニューラルネットワークの計算(重み×入力)に使われる基本演算 |
| 固有値・固有ベクトル | 主成分分析(PCA)などの次元削減に使われる概念 |
| 転置行列 | 行と列を入れ替えた行列。機械学習の計算でよく登場する |
🎯 G検定でよく出る数学的概念
G検定では計算よりも「この手法が何をしているか」を問う問題が多く出題されます。以下の概念は特に頻出です。
- 勾配降下法(gradient descent):損失関数を最小化するためにパラメータを少しずつ更新する手法。学習率(learning rate)の設定が重要
- 過学習と正則化:モデルが訓練データに過度に適合してしまう現象が過学習。L1・L2正則化(Lasso・Ridge)で抑制できる
- 交差検証(クロスバリデーション):データをK個に分割して評価を繰り返す手法。モデルの汎化性能を測るために使う
- ベイズ推定:事前確率と尤度から事後確率を求める推定手法。スパムフィルタなどに応用される
- 情報理論(エントロピー):情報の不確かさを表す指標。決定木の分岐基準(情報利得)に使われる
✅ まとめ:試験対策のポイント
G検定の数学・統計分野は、難しい計算を解くよりも「なぜその手法を使うのか」という概念理解が重視されます。各用語の意味と使われる場面をセットで覚えておきましょう。特に正規分布・最尤推定・勾配降下法・過学習はほぼ毎回出題される頻出テーマです。
