ニューラルネットワークの順伝播と誤差逆伝播の仕組み

ニューラルネットワークの基本と「順伝播」のイメージ

🔰 はじめに：なぜ順伝播と誤差逆伝播を学ぶのか？

ニューラルネットワーク（NN）は「入力 → 処理 → 出力」という流れで情報を処理します。
この中で「順伝播（forward propagation）」は、入力から出力を導くステップ。そして「誤差逆伝播（backpropagation）」は、出力の誤差からネットワークを修正していく学習の心臓部です。

この2つを理解すると、NNが「どうやって学ぶのか？」が見えてきます。

🧠 ニューラルネットワークの全体像（ざっくり）

まずは、簡単な3層のネットワークをイメージしてください。

入力層 → 隠れ層 → 出力層

例えば：

入力：画像（28×28ピクセルの784個の数値）
隠れ層：10個のニューロン
出力層：0～9の数字（分類結果）

この構造の中で、各層のニューロンは**「前の層の出力」×「重み」＋「バイアス」**という計算をします。そしてその結果に活性化関数（ReLUなど）をかけて、次の層に渡します。

⚙️ 順伝播とは？

順伝播（forward propagation）は、入力された情報を出力まで伝えていくステップです。

1. 入力を受け取る

例えば、784個の数字（画像のピクセル値）が入力されます。

2. 隠れ層で処理

各ニューロンは、以下の計算を行います。

z = W・x + b
a = 活性化関数(z)

x：前の層からの入力
W：重み（Weight）
b：バイアス（Bias）
z：総入力
a：出力（Activation）

3. 出力層で結果を出す

出力層も同様の計算をし、最終的な出力（例えば「3」の確率が高い）を得ます。

💡 直感的な例で理解しよう

たとえば「手書き文字を3に分類するネットワーク」があるとします。

入力：画像の数値（明るさなど）
隠れ層：それらの特徴（角の形、ループの有無など）を抽出
出力層：「0〜9の中でどれっぽい？」を出す

この流れが順伝播です。
まだ“学習”はしていない状態ですが、入力がどう処理されて出力に変わるかを計算しているわけです。

🧪 活性化関数の役割

順伝播には**活性化関数（activation function）**が欠かせません。
これは「出力に非線形性を加えるスイッチ」です。

よく使われる関数：

ReLU・・・0以下を0、0より大きいならそのまま（速くて強い）
Sigmoid・・・出力を0〜1に圧縮（分類に使われる）
tanh・・・出力を-1〜1に圧縮（中間層に使われる）

✏️ 順伝播のPython風コード（イメージ）

import numpy as np

def relu(x):
    return np.maximum(0, x)

# 入力層784 → 隠れ層10 → 出力層10 の場合
x = np.random.rand(784, 1)         # 入力
W1 = np.random.rand(10, 784)       # 重み1
b1 = np.random.rand(10, 1)         # バイアス1
z1 = W1 @ x + b1
a1 = relu(z1)                      # 隠れ層の出力

W2 = np.random.rand(10, 10)
b2 = np.random.rand(10, 1)
z2 = W2 @ a1 + b2
a2 = softmax(z2)                   # 出力層の確率

🧩 まとめ：順伝播は「入力→出力への計算ルート」

入力 → 各層で重み×入力＋バイアス → 活性化 → 次の層へ
出力層までたどり着いたら「予測」が完成

ここまでが順伝播です。

ニューラルネットワークの順伝播・誤差逆伝播とは？【語句解説】

順伝播（Forward Propagation）とは？

ニューラルネットワークにおける順伝播とは、入力データがネットワークを通じて出力へと伝わる処理の流れを指します。言い換えると、「入力 → 隠れ層 → 出力層」という一方向の計算プロセスのことです。

実生活に例えると…

たとえば、あなたが猫の画像を見て「これは猫だ」と判断するとき、目に映る情報（入力）が脳の中で処理され（隠れ層）、最終的に「猫だ！」と結論を出す（出力）という流れがあります。これが順伝播と同じようなイメージです。

数学的な仕組み

数式で説明すると、以下のような計算が行われます。

入力層から隠れ層への計算：

z = W・x + b
a = 活性化関数(z)

・W：重み

・x：入力データ

・b：バイアス

・a：出力（次の層への入力）

各層を繰り返して、最終的に出力を得る

この出力と、教師データとの誤差が小さいほど、ネットワークの「正解率」が高いということになります。

活性化関数とは？

活性化関数は、ニューラルネットワークにおいて出力に“非線形性”を与える非常に重要な要素です。もし、すべての層が単なる線形変換（加重和だけ）で構成されていた場合、どれだけ層を重ねても最終的には1つの線形関数にまとめられてしまい、複雑なパターンや非線形な関係性を学習することができません。

この問題を解決するために、活性化関数が各層の出力に非線形な変化を加え、ネットワーク全体の表現力を高めています。

よく使われる活性化関数

現代のニューラルネットワークで広く使われている代表的な活性化関数には、以下のようなものがあります。

ReLU（Rectified Linear Unit）

最も一般的に使用されている活性化関数です。0以下の値はすべて0にし、それ以外の値はそのまま出力するという非常にシンプルな仕組みです。計算コストが低く、勾配消失が起きにくいため、深いニューラルネットワークにも適しており、現在では多くのモデルでデフォルトの選択肢となっています。

Sigmoid

昔から使われていた活性化関数で、出力を0から1の範囲に収めるという特徴があります。確率的な出力が必要な場合に使われることもありますが、深いネットワークでは勾配が小さくなって学習が進まなくなる勾配消失問題が発生しやすいため、現在では使用頻度が減っています。

tanh（ハイパボリックタンジェント）

Sigmoidと似た形状ですが、出力が**-1から1の範囲**となる点が異なります。出力の中心がゼロになるため、Sigmoidよりも学習が安定するケースが多くあります。ただし、tanhも深い層では勾配が消失しやすいため、ReLUの方が使われる場面が多くなっています。

誤差関数（損失関数）とは？

順伝播によって出力された結果が、正解データ（教師ラベル）とどれだけズレていたかを計算するのが誤差関数です。

よく使われる誤差関数

二乗誤差：回帰問題で使われる。

E = 0.5 * (出力 – 正解)^2

交差エントロピー誤差：分類問題でよく使われる。特にソフトマックス関数と相性が良い。

この誤差をできる限り小さくするために、重みとバイアスを調整する必要があります。これが次の「誤差逆伝播」の役割です。

誤差逆伝播（Backpropagation）とは？

誤差逆伝播は、文字通り誤差を出力層から入力層へ逆向きに伝えていく処理のことです。

順伝播で得た出力と正解との誤差をもとに、各層の重みをどう調整すれば誤差が小さくなるかを計算します。

イメージで理解する

出力の誤差を求める
その誤差をもとに「どの重みがどれくらい間違いの原因か」を逆にたどって計算
原因となった重みを少しずつ修正

この「誤差の責任の分配」とも言える考え方が誤差逆伝播の核心です。

ここまでのまとめ

順伝播は、入力から出力へデータが流れていくプロセス
活性化関数によって複雑な非線形の学習が可能に
誤差関数は「どれだけ間違っていたか」を計測
誤差逆伝播は、間違いの責任をネットワーク内の重みにさかのぼって修正する仕組み

誤差逆伝播法（Backpropagation）をイメージで理解する

前回までで、順伝播とは何か、なぜ活性化関数を使うのかについて解説しました。今回は、ニューラルネットワークを学習させる上で欠かせない「誤差逆伝播法」について、数学的にではなく直感的・図解的に理解できるように説明します。

◆ 誤差逆伝播って結局なに？

ニューラルネットワークの目的は「誤差（損失）を小さくすること」でした。そのためには、各層の重みやバイアスを微調整する必要があります。

でも、ネットワークの奥の方（第3層、第4層…）の重みって、どのくらい調整すればいいか、どうやってわかるのでしょう？

ここで活躍するのが「誤差逆伝播法（Backpropagation）」です。
これは、一番最後の出力層で出た誤差を、順番に入力側に向かって“さかのぼって”いくことで、「どの重みがどれくらい誤差に貢献したのか」を計算し、それに基づいてパラメータを調整する方法です。

◆ たとえるなら「伝言ゲーム」

誤差逆伝播法は「伝言ゲーム」に似ています。

出力層で「これくらい間違えた！」という誤差が出る。
それを中間層に「君の出力がこれに影響してたよ」と伝える。
中間層はさらに1つ前の層に「私がこうだったから、あなたも関係してた」と伝える。

このようにして、誤差の情報が“逆方向”に各層に伝わっていきます。

◆ 具体的な流れをシンプルに

1. 出力層での誤差を計算

まずは実際の出力（予測値）と正解との誤差を計算します。これが損失関数（例：平均二乗誤差など）です。

2. 出力層から中間層へ誤差を伝える

誤差を、その前の層の「重み × 活性化関数の微分」で伝搬します。

3. 各層の重み・バイアスを調整

伝わってきた誤差情報をもとに、各重みやバイアスを少しだけ修正します。修正量は「学習率（learning rate）」によって決まります。

◆ 微分が重要なワケ

ここで重要になるのが「活性化関数の微分」です。
なぜなら、「このノードがどれくらい誤差に貢献したのか」は、そのノードの出力が、誤差にどれだけ影響を与えたか＝勾配で測るからです。

微分によって、「ちょっと値を変えたら、誤差がどう変わるか？」がわかるんですね。これが「勾配降下法」と連動して学習を進める仕組みです。

◆ 勾配降下法と連携する

誤差逆伝播法は、重みの更新を「勾配（傾き）」に従って行います。

勾配が大きければ、大きく修正
勾配が小さければ、少しだけ修正

この調整を毎回の学習（エポック）で繰り返し、少しずつ精度を高めていくのです。

◆ 誤差逆伝播で学習するサイクル

順伝播で予測を出す
誤差を計算
誤差逆伝播で、誤差を各層に伝える
勾配に従ってパラメータ（重み・バイアス）を修正
これを何千〜何万回も繰り返す

これが、ニューラルネットワークが「学習する」という一連のサイクルです。

◆ 数式なしでも理解できるポイント

「誤差」は後ろ（出力層）から前（入力層）へ伝わっていく
各層では、「自分がどれだけミスに関与したか」を計算
その情報をもとに、重みやバイアスを微調整
最終的に「ミスが起こりにくい重み」が学習されていく

誤差逆伝播の課題と進化〜深層学習のその先へ〜

前回までで、ニューラルネットワークが「順伝播」で予測を行い、「誤差逆伝播」で学習する仕組みについて、できるだけイメージしやすく解説してきました。

今回は、この仕組みが抱える「限界」や、より深いネットワークを支える進化のテクニックについて、初心者向けに噛み砕いて紹介します。

◆ 誤差逆伝播の課題とは？

1. 勾配消失問題

ある程度深いネットワーク（層が多い構造）になると、誤差逆伝播で勾配を伝えていくうちに、だんだんと勾配の値が「極端に小さく」なってしまうことがあります。
これが勾配消失（Vanishing Gradient）問題です。

勾配がほとんど0になってしまうと、重みがうまく更新されず、学習がストップしてしまいます。

特に、活性化関数としてシグモイド関数を使っていた頃に顕著でした。

2. 勾配爆発問題

逆に、勾配が途中で「異常に大きく」なってしまうケースもあります。これが勾配爆発（Exploding Gradient）問題です。
これにより、学習が不安定になったり、重みの値が発散してしまいます。

◆ この問題にどう立ち向かうのか？

🔸 活性化関数の工夫（例：ReLU）

勾配消失を防ぐために、「ReLU（Rectified Linear Unit）」という活性化関数がよく使われます。
ReLUは、0以下の値をバッサリ0にし、それ以外はそのまま出力するシンプルな関数です。

このシンプルさが勾配の流れをスムーズにし、深いネットワークでも学習しやすくします。

🔸 重みの初期化

重みの初期値がうまく設定されていないと、最初から勾配消失や爆発が起こることも。
そこで「Xavier初期化」や「He初期化」など、賢い初期化手法が登場しました。

🔸 バッチ正規化（Batch Normalization）

学習中の各層の出力を「正規化」することで、勾配の流れを安定させ、学習速度を高める手法です。
近年のディープネットワークでは必須とも言えるテクニックです。

🔸 ドロップアウト（Dropout）

学習時に一部のノードをランダムに無効にすることで、特定のノードに頼りすぎる「過学習（オーバーフィッティング）」を防ぐ方法です。

◆ 「ディープ」になっても学習できる理由

誤差逆伝播自体は1980年代に確立していた技術ですが、当時はなかなか実用化されませんでした。その理由がまさに、

計算コストの高さ
勾配消失による学習困難

といった技術的な壁です。

しかし、近年は以下の要素が揃ったことで「深層学習（Deep Learning）」が一気に実用化されました。

GPUによる高速な行列演算
ReLU関数やバッチ正規化といった工夫
大規模データセットの存在
TensorFlowやPyTorchなどのツールの普及

つまり、「誤差逆伝播」という古くからあった仕組みが、新しいテクノロジーによって進化したのです。

◆ 今後の進化：誤差逆伝播の外にある世界

最近では、誤差逆伝播を使わない新たな学習方法にも注目が集まっています。

1. 強化学習（Reinforcement Learning）

ゲームや自動運転などで活躍。報酬をもとに戦略を改善していく手法で、誤差逆伝播とは別の考え方。

2. 進化的アルゴリズム（Evolutionary Algorithm）

生物の進化のように、よいネットワークを「選択・交叉・突然変異」させながら最適解を探していくアプローチ。

3. スパイクニューラルネットワーク（SNN）

脳の神経の発火の仕組みを模した次世代のニューラルネットワーク。誤差逆伝播ではなく、時間的な情報を使う学習法が検討されています。

◆ 最後に：誤差逆伝播は「理解のスタート地点」

誤差逆伝播は、ニューラルネットワークの心臓部であり、「機械学習とは何か？」を学ぶ入り口として最高のテーマです。

この仕組みを知ることで、以下のような深い理解が得られます：

なぜ学習が進むのか？
なぜハイパーパラメータ（学習率など）が重要なのか？
どの層が「賢く」なっていくのか？

AIや機械学習を深く学ぶには避けて通れないこのテーマ、今後さらに応用分野や改善手法に触れていくと、理解が加速していきます。

📘 まとめ：誤差逆伝播とその先へ

誤差逆伝播法（バックプロパゲーション）は、ニューラルネットワークの学習を支える基本的な仕組みです。この手法では、モデルの出力と正解との誤差を計算し、それを出力層から入力層に向かって「逆方向」に伝えていくことで、各重みをどのように更新すべきかを求めます。

しかし、この過程でいくつかの深刻な課題が生じることがあります。その一つが勾配消失問題です。これは、特に深いネットワークにおいて、層をさかのぼるにつれて勾配が極端に小さくなり、重みがほとんど更新されず学習が進まなくなる現象です。逆に、勾配爆発問題も存在し、こちらは勾配が異常に大きくなって学習が不安定になる現象です。

これらの問題を解決するために、さまざまな手法が開発されています。代表的なものには、ReLUなどの活性化関数の工夫、バッチ正規化（Batch Normalization）による出力の安定化、適切な重み初期化の技術、さらにはドロップアウトによる過学習の抑制などがあります。これらの技術を組み合わせることで、誤差逆伝播法の効果を最大化し、より深く複雑なモデルでも効率的な学習が可能となりました。

そして近年では、誤差逆伝播法に依存しない新たな学習手法にも注目が集まっています。たとえば、強化学習ではエージェントが環境との相互作用を通じて学習を進め、進化的アルゴリズムでは自然淘汰の仕組みにヒントを得た探索が行われます。こうした手法は、誤差の明確な定義が難しいタスクや、非微分的な環境において特に有効です。