コンピュータ画像は画素(ピクセル)の組合せで表現される

Produced by OmniGraffle 7.9.4 2019-02-28 04:50:16 +0000 キャンバス 1 レイヤー 1
  • ピクセル: 色を赤/緑/青の明るさの組合せで表現
  • 各色の明るさを 256段階 (8 bits) で表現: 3バイト/ピクセル
  • 幾つものピクセルを並べて平面画像を表現
  • HD では 192万 (1920x1080) ピクセル. 一眼レフ入門機で 2400万 (6000x4000) ピクセル

全結合層で画像を扱うのは大変なので、画像認識には畳み込み層を使用する. 畳み込みとは…

  • 畳み込みフィルターを移動して画像を走査し出力を得る
    • \(z_{i,j} = \sum_{u}\sum_{w} x_{i^\prime, j^\prime}\cdot w_{u,v}\)
      \(i^\prime = i \times s_h + u\)
      \(j^\prime = j \times s_w + v\)
      \(s_h\): 垂直方向窓移動幅
      \(s_w\): 水平方向窓移動幅
    • 5x5 の画像を 3x3 のフィルターを用い移動幅 1 で走査した場合は以下の様になる.
Produced by OmniGraffle 7.9.4 2019-02-14 04:58:49 +0000 キャンバス 1 レイヤー 1 1 0 1 1 1 2 1 0 2 1 1 0 2 2 1 1 0 0 0 0 0 2 2 1 2 0 1 0 0 -1 1 0 0 1 1 5 1 3 0 1 2 3 4 Image Filter Output

画像認識には領域内の代表値で領域を表現するダウンサンプリングも用いる.

  • 平均プーリング: 領域内の平均値を使用
  • 最大プーリング: 領域内の最大値を使用
    • 4x4 の画像に 2x2 の最大プーリングを使用した場合は以下の様になる.
<!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd"> Produced by OmniGraffle 7.9.4 2019-02-14 05:09:06 +0000 キャンバス 1 レイヤー 1 9 7 8 5 Max pooling 2 8 3 1 9 2 5 7 8 0 4 3 1 2 1 5

以上の様に画像に対しては、小さな領域毎に特徴を抽出してからニューラル・ネットワークを使用する. 生物の画像処理も同様な仕組みとなっている.

画像認識の様に、出力結果が分類である場合、評価には混同行列を用いる. 二値分類の場合の混同行列は以下の様になる.

予測値
真値TP (真陽性)FN (偽陰性)
FP (偽陽性)TN (真陰性)

代表的な指標を以下に示す.

正解率 / accuracy
\[\text{ACC} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}}\]
再現率 / recall, 感度 / sensitivity
\[\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}\]
適合率 / precision
\[\text{PPV} = \frac{\text{TP}}{\text{TP} + \text{FP}}\]
特異性 / specificity
\[\text{TNR} = \frac{\text{TN}}{\text{FP} + \text{TN}}\]
F1値 / F1 score
\[F_1 = \frac{2\text{TP}}{2\text{TP} + \text{FP} + \text{FN}}\]

その他諸々の指標を以下に示す.

error rate
\[\text{ERR} = \frac{\text{FP} + \text{FN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}}\]
negative precision value
\[\text{NPV} = \frac{\text{TN}}{\text{TN} + \text{FN}}\]
false negative rate
\[\text{FNR} = \frac{\text{FN}}{\text{FN} + \text{TP}}\]
false positive rate
\[\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}\]
false discovery rate
\[\text{FDR} = \frac{\text{FP}}{\text{FP} + \text{TP}}\]
false omission rate
\[\text{FOR} = \frac{\text{FN}}{\text{FN} + \text{TN}}\]
prevalence
\[\text{PRE} = \frac{\text{TP} + \text{FN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}}\]
positive likelihood ratio
\[\text{PLR} = \frac{\text{TPR}}{\text{FPR}}\]
negative likelihood ratio
\[\text{NLR} = \frac{\text{FNR}}{\text{TNR}}\]
diagnostic odds ratio
\[\text{DOR} = \frac{\text{PLR}}{\text{NLR}}\]
Matthews correlation coefficient
\[\text{MCC} = \frac{\text{TP}\cdot\text{TN} - \text{FP}\cdot\text{FN}}{\sqrt{(\text{TP} + \text{FP}) (\text{TP}+\text{FN}) (\text{TN} + \text{FP}) (\text{TN} + \text{FN})}}\]
Informedness, Bookmaker Informedness
\[\text{BM} = \text{TPR} + \text{TNR} - 1\]
Markedness
\[\text{MK} = \text{PPV} + \text{NPV} - 1\]
F0.5
\[F_{0.5} = \frac{1.25\text{PPV}\cdot\text{TPR}}{0.25\text{PPV}\cdot\text{TPR}}\]
F2
\[F_2 = \frac{5\text{PPV}\cdot\text{TPR}}{4\text{PPV}\cdot\text{TPR}}\]
discriminant power
\[\text{DP} = \frac{\sqrt{3}}{\pi}(log \frac{TPR}{1-TPR} + log \frac{TNR}{1-TNR})\]
random accuracy
\[\text{RACC} = \frac{(\text{TN}+\text{FP})(\text{TN}+\text{FN})+(\text{FN}+\text{TP})(\text{FP}+\text{TP})}{(\text{TP}+\text{TN}+\text{FP}+\text{FN})^2}\]
kappa
\[\text{kappa} = \frac{\text{ACC}-\text{RACC}}{1-\text{RACC}}\]
Youden index
\[\text{Y} = \text{TPR}-(1-\text{TNR})\]