解説:自然言語処理

G検定 自然言語処理

このページでは「自然言語処理(NLP)とディープラーニングの応用例」(シラバス項目 27・30〜34)を解説します。ChatGPT などの生成 AI に直結する最重要分野で、近年の出題で比重が増加しています。

自然言語処理(NLP)とは

自然言語処理(Natural Language Processing: NLP)とは、人間が使う言語(テキスト・音声)をコンピュータで処理・理解・生成する技術です。LLM の登場で実用化が一気に進みました。

word2vec

単語をベクトルで表現する手法。意味的に近い単語は近いベクトルになる。分散表現の基本です。

BERT

Google が開発した双方向 Transformer モデル。文の文脈を深く理解する事前学習モデルです。

GPT-n(GPT-3/4 など)

OpenAI が開発した大規模言語モデル(LLM)。ChatGPT の基盤。生成タスクに強みを持ちます。

LLM(大規模言語モデル)

膨大なテキストデータで学習した超大規模な AI 言語モデル。生成 AI 時代の中核技術です。

ChatGPT

GPT-4 をベースにした OpenAI の対話型 AI アシスタント。RLHF(人間のフィードバックによる強化学習)で精度向上。

Seq2Seq

入力系列から出力系列を生成するモデル。機械翻訳の基本構造で、Encoder-Decoder 型の祖。

形態素解析

文を意味のある最小単位(形態素)に分割する処理。日本語 NLP では特に重要な前処理工程です。

TF-IDF

文書中の単語の重要度を測る指標。文書内の頻度と全文書での希少性をかけ合わせた指標です。

テキスト表現の手法

コンピュータが自然言語を処理するには、文字や単語を数値に変換する必要があります。G検定ではこれらの表現手法の概念が問われます。

Bag of Words(BoW)

文章中の単語の出現頻度を特徴量にする手法。単語の順序は無視するシンプルな表現です。

TF-IDF

単語の重要度を「文書内の出現頻度」と「全文書での希少性」で評価。情報検索でも基本指標です。

word2vec

単語を低次元のベクトルに変換する手法。意味的に近い単語は近いベクトルになります。

BERT

Transformer を用いた事前学習モデル。文脈に応じた単語の意味を捉えられる双方向モデル。

GPT

大規模な言語モデル。テキスト生成が得意で、ChatGPT の基盤技術。片方向(自己回帰)モデル。

データ生成(生成 AI)

2020 年代の AI 革命の中心となる生成 AI 技術。画像・テキスト・動画など、様々な形式のデータを生成できます。

GAN(敵対的生成ネットワーク)

生成器と識別器が競い合いながら学習。リアルな画像を生成できる初期の生成 AI モデル。

Diffusion Model(拡散モデル)

ノイズから画像を生成する最新の手法。Stable Diffusion などの AI 画像生成の基盤技術です。

CycleGAN

ペアのない画像同士のスタイル変換ができる GAN の派生手法。馬 ↔ シマウマ変換が有名な例。

NeRF

2D 画像から 3D シーンを再構成する技術。Neural Radiance Fields の略称です。

転移学習・マルチモーダル・解釈性・軽量化

生成 AI 時代の重要な周辺技術群。学習効率の向上、複数形式の融合、AI の説明可能性、エッジ AI へ向けた軽量化が含まれます。

転移学習・ファインチューニング

大規模モデルの学習済みパラメータを別タスクに転用。Few-shot、One-shot、破壊的忘却、RLHF が関連キーワード。

マルチモーダル

テキスト・画像・音声など複数の形式を組み合わせて処理。CLIP、DALL-E、Text-To-Image、Zero-shot 等。

モデルの解釈性(XAI)

AI の判断根拠を人間が理解できる形で説明する技術。CAM、Grad-CAM、LIME、SHAP が代表手法。

モデルの軽量化

大きなモデルを小さく・速くする技術。量子化・蒸留・プルーニング。エッジ AI 向けに重要。

自然言語処理の主なタスク

NLP はさまざまな実用的タスクに応用されています。G検定ではこれらのタスクが何をするものかを理解しておくことが重要です。

文書分類

メールのスパム判定やニュース記事のカテゴリ分類など、文書をカテゴリに振り分けるタスクです。

感情分析(センチメント分析)

テキストがポジティブ・ネガティブのどちらかを判定するタスク。商品レビューの分析などに活用。

固有表現抽出(NER)

文章中の人名・地名・組織名などを識別するタスク。情報抽出の基本工程です。

機械翻訳

ある言語のテキストを別の言語に翻訳するタスク。Google 翻訳・DeepL 等で使われています。

質問応答(QA)

質問文に対して適切な回答を返すタスク。チャットボットの基盤技術として広く活用されています。

この分野の出題ポイント

自然言語処理分野で押さえておきたい 5 つのポイントです。

LLM・ChatGPT・GPT シリーズの仕組み:大規模言語モデルの基本的な仕組みと特徴を理解しましょう。RLHF(人間のフィードバック)も押さえます。
BERT と GPT の違い:BERT は双方向(マスク予測)、GPT は片方向(自己回帰生成)。それぞれの得意タスクを説明できるようにします。
GAN・Diffusion Model の仕組み:GAN は競争的学習、Diffusion はノイズ除去過程。代表的なモデル名(Stable Diffusion・DALL-E)とセットで覚えます。
転移学習・ファインチューニング:事前学習済みモデルを再利用する考え方と、ドメイン適応・Few-shot・One-shot との関係を整理します。
XAI(説明可能 AI)の重要性:ブラックボックス問題への対応として、LIME・SHAP・Grad-CAM の役割を覚えます。

次のステップへ

自然言語処理の基礎を押さえたら、法律・倫理の解説に進みましょう。

タイトルとURLをコピーしました