ウホウホゴリラッホ

主に勉強したことをまとめていきます。twitter:@pytran3

はじパタ 第3章

ベイズの識別規則

ベイズの定理は大事、だが省略。適当なサイトを参照されたし。

誤り率最小と損失最小

尤度比と事前確率の比が等しい面を識別境界とした場合に誤り率最小となる。ただし、実際には誤り率ではなく損失最小を達成するべきである。各クラスで誤りが発生した場合の損失は違うのでその分重み付けが必要になるからである。
誤り率最小:クラス条件付き確率が最大のクラスと識別する
損失最小:誤り率最小に損失の大きさによる重みづけを加えて識別する

性能評価方法

前節では交差検証法やホールドアウト法などの性能評価について記述したが、今節で性能評価で扱うべき指標について記述する。ほとんどのプロダクトで達成すべきは誤り最小あるいは損失最小であるが、モデルが持つ性能の検証はその二つだけでは表すことができない。考慮すべき点としては以下の点を考えた。

  • ただ一つの状態に対して最小化すべきではなく、似たよう状態(時間的・空間的あるいはその他尺度の近傍)でも高い性能を持つ必要があるため
  • 学習データは全事象のほんの一部でしかないため、過学習を防ぐためにF値やAUCなどを基準とする(要検討、具体的な指標としては不適当な可能性あり)

混合行列

false positive、true positiveなどとかくややこしい。false positiveは偽陽性で陰性のものを不正解することである。(偽の陽性であるということ)
precision、recallがあるがその調和平均であるF値が次節で触れるAUCとともに性能の指標によく用いられる。

ROC特性曲線

誤り率最小と損失最小では特に触れなかったが、識別境界は都合の良いように定義をすることができる。上では損失を定義することで最適な識別境界を定義したが、一般に損失はビジネスの都合や識別器とは関係のない技術上の問題で決まる。そのため様々な閾値に対して安定して高い性能であるかが重要となる。ROC曲線から算出されるAUCがよく使われる指標とする。