解説:数学・統計
G検定 数学・統計
このページでは「AI に必要な数学・統計知識」(シラバス項目 37)を解説します。G検定では計算問題よりも概念理解が中心ですが、基本的な用語はしっかり覚える必要があります。各手法が「何のために使うか」をセットで押さえましょう。
確率・統計の基礎
機械学習・AI の根幹となる確率分布と統計指標です。G検定では計算より「何を表すか」「どんな場面で使うか」が問われます。
確率分布
ある事象が起こる確率を関数で表したもの。離散型と連続型の 2 種類があります。
正規分布(ガウス分布)
左右対称のベル型の分布。多くの自然現象に現れ、機械学習でも頻繁に仮定される基本分布です。
ベルヌーイ分布
コイン投げのように 2 値(0 か 1)の確率分布。二値分類問題の基礎理論として登場します。
ポアソン分布
単位時間・単位面積あたりの事象の発生回数の分布。レアイベントの解析に使われます。
平均(期待値)
データの中心を表す代表値。母平均と標本平均の区別が統計学では重要です。
分散・標準偏差
データのばらつきを表す指標。標準偏差は分散の平方根で、ばらつきを元のスケールで表します。
相関係数
2 変数の線形関係の強さを -1〜1 で表す指標。0 に近いほど無相関、±1 に近いほど強い線形関係。
最尤推定・最小二乗法
最尤推定は観測データの確率を最大化、最小二乗法は誤差の二乗和を最小化してパラメータを推定します。
仮説検定
データから統計的な仮説の正否を判断する手法。帰無仮説と対立仮説、有意水準の概念が基本です。
線形代数の基礎
機械学習では、データをベクトルや行列として表現して計算します。線形代数はその土台となる分野です。深い計算よりも概念の理解が求められます。
スカラー・ベクトル・行列・テンソル
スカラー(数値)→ ベクトル(1 次元配列)→ 行列(2 次元配列)→ テンソル(多次元配列)。AI ではテンソルを使用。
行列の積(内積)
ニューラルネットワークの計算の基本演算。重み×入力で出力を計算する仕組みの核心です。
固有値・固有ベクトル
行列の変換の特性を表す。PCA(主成分分析)など次元削減に活用される基本概念です。
特異値分解(SVD)
行列を 3 つの行列の積に分解する。次元削減・推薦システムに使用される強力な分解手法です。
マハラノビス距離
データ分布のばらつきを考慮した距離指標。異常検知に活用されます。共分散行列を使って計算。
ユークリッド距離
2 点間の直線距離。機械学習で最も基本的な距離指標。k-means や kNN で使われます。
転置行列
行と列を入れ替えた行列。機械学習・深層学習の計算式に頻繁に登場する基本演算です。
情報理論・グラフ理論
情報量の概念(エントロピー)と、知識グラフ等で使われるグラフ理論。深層学習の損失関数や AI の知識表現で登場します。
エントロピー
情報の不確実さ・乱雑さを表す指標。値が大きいほど不確実。決定木の情報利得計算にも使われます。
交差エントロピー
2 つの確率分布の差を測る。分類問題の損失関数として深層学習で標準的に使用されます。
KL ダイバージェンス
確率分布間の差異を測る非対称な指標。VAE などの生成モデルの理論基盤です。
グラフ理論
ノードとエッジで構成されるネットワーク構造の数学。知識グラフ・GNN(Graph Neural Network)に活用。
移動平均
時系列データを平滑化する手法。トレンドの可視化や前処理として頻繁に使われます。
ベイズの定理
事前確率と尤度から事後確率を求める定理。機械学習・ナイーブベイズ分類器の基礎です。
G検定でよく出る数学的概念
G検定では計算よりも「この手法が何をしているか」を問う問題が多く出題されます。以下の概念は特に頻出です。
勾配降下法
損失関数を最小化するためにパラメータを少しずつ更新する手法。学習率(learning rate)の設定が重要。
過学習と正則化
モデルが訓練データに過度に適合してしまう現象が過学習。L1・L2 正則化(Lasso・Ridge)で抑制できます。
交差検証(クロスバリデーション)
データを K 個に分割して評価を繰り返す手法。モデルの汎化性能を測るために使います。
ベイズ推定
事前確率と尤度から事後確率を求める推定手法。スパムフィルタなどに応用されます。
情報理論(エントロピー)
情報の不確かさを表す指標。決定木の分岐基準(情報利得)に使われます。
この分野の出題ポイント
数学・統計分野で押さえておきたい 5 つのポイントです。
次のステップへ
数学・統計の基礎を押さえたら、自然言語処理の解説に進みましょう。
