koji/メガネ男の日誌

日々の学び、活動状況を記録します。仕事のことは少なめ。

「はじめてのパターン認識」を読む 第1章 はじめに

f:id:kj_man666:20200505125428j:plain

はじめてのパターン認識 を1章ずつ読んでまとめたいと思います。

1.1 パターン認識とは

パターン認識の成否を決める鍵

  • 識別に有効な特徴を素早く抽出すること

  • 識別規則の学習

  • 学習データを用いて汎化能力を精度よく推定できること

<用語>

特徴抽出

 識別の手がかりとなる特徴量を測定すること。

特徴ベクトル

 抽出されたたくさんの特徴をベクトルの形にまとめたもの

識別規則

 特徴ベクトルを用いて分類を行うための規則

 入力データが所属する正しいクラスに帰属先を探すための規則

学習データ

 入力データとクラスの対応関係を対にした沢山のデータ

汎化能力

 学習データにはなかった未知の入力データについても正しいクラスを識別する能力

1.2 特徴の型

特徴の型

  • 定性的特徴

 非数値データ

  名義尺度 分類のための名前

   名前、住所 etc...

  順序尺度 順序関係を表す。比較はできるが加減算は出来ない

   5段階評価、大中小、優良可

  • 定量的特徴

 数値データ

  間隔尺度 一定の単位で量られた量。原点はあっても「無」ではない

   テストの成績、摂氏・華氏などの温度、年月

  比例尺度 原点が定まっている量。割り算や比例計算が意味を持つ。原点は「無」である

   身長、体重、年齢、絶対温度

 ダミー変数

  定性的な特徴(ほ乳類かどうか etc...)を数値(ほ乳類の場合 1、そうでない場合 0)で符号化すること。

1.3 特徴ベクトル空間と次元の呪い

特徴ベクトル空間

 10 ✖ 10 のドットで文字を表現する場合、100個のドットがあるので、この画像データは100次元の特徴を持つ空間である、と考える。

次元の呪い

 次元(≒特徴量の種類?)が増えれば増えるほど、必要な学習データの数が指数関数的に増えること。

 先ほどの10 ✖ 10 のドットの場合、1つのドットで16色使える場合、情報量が100の16乗(千兆)になる。

超立方体

n次元の各辺が等しい図形のことらしい。

頂点の数と辺の数は以下のとおり導ける。

4次元の立方体の理解 - 大人になってからの再学習 より

■ 頂点の数は2倍ずつ増える

■ 辺の数は1つ前の次元の「辺の数の2倍と頂点の数」を足した数になる。

もとのカタチを新しい次元に平行移動して(辺の数は2倍増える)、対応する頂点間を結ぶため(辺の数は頂点の数だけ増える)。

f:id:kj_man666:20200505135750j:plain

感想

まだ初めの方のため、用語の定義の話が多いので、まだついていける。

超立方体の頂点の数はともかく、辺の数や面の数を計算しようと思うと、その1個前の次元の情報が必要になってくるため、よくわからなかった。。

以上になります、最後までお読みいただきありがとうございました。