ニューラルネットワークにおける確率 - 工場統計力学（建設中！）

先日の「ウィーナーのサイバネティックスの確率論的性格」で私は「学習とは、統計的・確率的な過程」と書いたのですが、その時、思い浮かべていたのはニューラルネットワークにおける学習です。そこには２つの手法が存在します。１つは階層型ニューラルネットにおける確率的勾配降下法というものです。もうひとつはボルツマンマシンです。これは双方向ニューラルネットにエネルギーを定義し、そのエネルギーに見合った熱的な挙動を導入したものです。具体的には統計力学で登場するボルツマン分布を導入して、ニューロンの状態をその分布に従わせるものです。
これらのことをまた勉強したくなりました。
特に確率的勾配降下法については、どのようなものであるかについては、ネットや本に書かれているのですが、なぜ、この手法で学習が出来るのか、については説明を見たことがありません。この点が分かるとスッキリします。
ボルツマンマシンについては、連想記憶の機能が実現出来ることが分かっています。そこからデータの次元圧縮の可能性が出てくるのですが、たしか学習させるのに困難があったために、ボルツマンマシンにより制約を課した制限ボルツマンマシンが考え出され、それの学習方法が確立し、そこからディープラーニングに発展していくのだと、私は理解しています。