
先週買った「やってみよう機械学習」読みました。
その上で、もう一度、
巡回セールスマン問題を深層強化学習で解いてみるを読み直しました。
深層強化学習というのは、すべての可能性を網羅するのではなく、
目標を達成できそうな道順をある程度絞り込むもののようです。
横浜から新潟に行くのはあまり意味がなさそうなので、とりあえず、東京か千葉か静岡に行くのが妥当。
であれば、
最初の組み合わせは46通りから、3通りに減ります。
千葉からは、東京か茨木か埼玉。
という絞り込んだ上で、移動距離を計算して少ないものを学習していくのが、強化学習なのかな。
正解とは限らないけど、もっともらしい結果であれば、依頼主に喜んでもらえる。
最良の手筋ではなくても、プロに勝てる囲碁を、って感じ?