ウホウホゴリラッホ

主に勉強したことをまとめていきます。twitter:@pytran3

はじパタ第1章

はじパタ機械学習

はじめてのパターン認識

はじめてのパターン認識の勉強内容をまとめていく。というよりは単元に沿って自分が勉強したことをまとめるといった形をとる。
第1章は「はじめに」というタイトルらしく用語の説明や定性的な話が中心となっている。

特徴ベクトルと教師あり学習

特徴ベクトルとはなんらかの物体・事象・記録などをモデル化していくつかのパラメータ(特徴量)に置き換えたものである。状態をベクトルで表現するのは物理を学んできた身からすると非常に馴染み深い。変換行列を定義することで識別規則を作ることもできる。(非線形なものは表現できないが)
識別規則を作るための体表的な手法が教師あり学習である。この時、未知の入力に対する識別能力を汎化性能と呼ぶ。一般的に運用中の入力のほとんどは学習データに含まれないことを考えると汎化性能の獲得が最大の目標となる。

次元の呪い

適応制御において未知の複雑な関数を学習するために必要なデータが、次元の増加と共に指数関数的に増加することを指摘し、次元の呪いとよんだ。

原点から面との距離と原点から頂点との距離の比は $O\left(\sqrt{n}\right)$ であり、この結果としてデータが外側に集中する。このような状態に陥ると解析に問題が生じる。
例えばk-NNでは最近傍Top-kを元に予測するが過密になった状態ではうまくいかないらしい。その他のアルゴリズムでも学習に必要なデータ数・時間が極端に増加するなどの不利益がある。特徴量の選択は重要な課題である。

参考

次元の呪いに関しては以下がわかりやすかった。実験データもきれい！ qiita.com