解説:数学・統計

G検定 数学・統計

このページでは「AI に必要な数学・統計知識」(シラバス項目 37)を解説します。G検定では計算問題よりも概念理解が中心ですが、基本的な用語はしっかり覚える必要があります。各手法が「何のために使うか」をセットで押さえましょう。

確率・統計の基礎

機械学習・AI の根幹となる確率分布と統計指標です。G検定では計算より「何を表すか」「どんな場面で使うか」が問われます。

確率分布

ある事象が起こる確率を関数で表したもの。離散型と連続型の 2 種類があります。

正規分布(ガウス分布)

左右対称のベル型の分布。多くの自然現象に現れ、機械学習でも頻繁に仮定される基本分布です。

ベルヌーイ分布

コイン投げのように 2 値(0 か 1)の確率分布。二値分類問題の基礎理論として登場します。

ポアソン分布

単位時間・単位面積あたりの事象の発生回数の分布。レアイベントの解析に使われます。

平均(期待値)

データの中心を表す代表値。母平均と標本平均の区別が統計学では重要です。

分散・標準偏差

データのばらつきを表す指標。標準偏差は分散の平方根で、ばらつきを元のスケールで表します。

相関係数

2 変数の線形関係の強さを -1〜1 で表す指標。0 に近いほど無相関、±1 に近いほど強い線形関係。

最尤推定・最小二乗法

最尤推定は観測データの確率を最大化、最小二乗法は誤差の二乗和を最小化してパラメータを推定します。

仮説検定

データから統計的な仮説の正否を判断する手法。帰無仮説と対立仮説、有意水準の概念が基本です。

線形代数の基礎

機械学習では、データをベクトルや行列として表現して計算します。線形代数はその土台となる分野です。深い計算よりも概念の理解が求められます。

スカラー・ベクトル・行列・テンソル

スカラー(数値)→ ベクトル(1 次元配列)→ 行列(2 次元配列)→ テンソル(多次元配列)。AI ではテンソルを使用。

行列の積(内積)

ニューラルネットワークの計算の基本演算。重み×入力で出力を計算する仕組みの核心です。

固有値・固有ベクトル

行列の変換の特性を表す。PCA(主成分分析)など次元削減に活用される基本概念です。

特異値分解(SVD)

行列を 3 つの行列の積に分解する。次元削減・推薦システムに使用される強力な分解手法です。

マハラノビス距離

データ分布のばらつきを考慮した距離指標。異常検知に活用されます。共分散行列を使って計算。

ユークリッド距離

2 点間の直線距離。機械学習で最も基本的な距離指標。k-means や kNN で使われます。

転置行列

行と列を入れ替えた行列。機械学習・深層学習の計算式に頻繁に登場する基本演算です。

情報理論・グラフ理論

情報量の概念(エントロピー)と、知識グラフ等で使われるグラフ理論。深層学習の損失関数や AI の知識表現で登場します。

エントロピー

情報の不確実さ・乱雑さを表す指標。値が大きいほど不確実。決定木の情報利得計算にも使われます。

交差エントロピー

2 つの確率分布の差を測る。分類問題の損失関数として深層学習で標準的に使用されます。

KL ダイバージェンス

確率分布間の差異を測る非対称な指標。VAE などの生成モデルの理論基盤です。

グラフ理論

ノードとエッジで構成されるネットワーク構造の数学。知識グラフ・GNN(Graph Neural Network)に活用。

移動平均

時系列データを平滑化する手法。トレンドの可視化や前処理として頻繁に使われます。

ベイズの定理

事前確率と尤度から事後確率を求める定理。機械学習・ナイーブベイズ分類器の基礎です。

G検定でよく出る数学的概念

G検定では計算よりも「この手法が何をしているか」を問う問題が多く出題されます。以下の概念は特に頻出です。

勾配降下法

損失関数を最小化するためにパラメータを少しずつ更新する手法。学習率(learning rate)の設定が重要。

過学習と正則化

モデルが訓練データに過度に適合してしまう現象が過学習。L1・L2 正則化(Lasso・Ridge)で抑制できます。

交差検証(クロスバリデーション)

データを K 個に分割して評価を繰り返す手法。モデルの汎化性能を測るために使います。

ベイズ推定

事前確率と尤度から事後確率を求める推定手法。スパムフィルタなどに応用されます。

情報理論(エントロピー)

情報の不確かさを表す指標。決定木の分岐基準(情報利得)に使われます。

この分野の出題ポイント

数学・統計分野で押さえておきたい 5 つのポイントです。

主要な確率分布の特徴を説明できるように:正規分布・ベルヌーイ分布・ポアソン分布の使い分け(連続・二値・離散)と典型的な利用場面を整理します。
基本統計量の意味を理解:平均・分散・標準偏差・相関係数の関係性と、それぞれが何を表しているかを正確に押さえます。
エントロピー系の違いを整理:エントロピー、交差エントロピー、KL ダイバージェンスの違いと、それぞれが使われる場面(決定木・分類・VAE)をセットで覚えます。
最尤推定とベイズ推定:最尤推定は尤度を最大化、ベイズ推定は事前確率を使った事後分布の推定。それぞれの考え方の違いを押さえます。
計算より概念理解を重視:G検定では計算問題よりも「何のために使うか」を問う問題が中心です。各手法の使い所をストーリーで覚えると効果的です。

次のステップへ

数学・統計の基礎を押さえたら、自然言語処理の解説に進みましょう。

タイトルとURLをコピーしました