「はじめてのパターン認識」を読む 第1章 はじめに
はじめてのパターン認識 を1章ずつ読んでまとめたいと思います。
1.1 パターン認識とは
パターン認識の成否を決める鍵
識別に有効な特徴を素早く抽出すること
識別規則の学習
学習データを用いて汎化能力を精度よく推定できること
<用語>
特徴抽出
識別の手がかりとなる特徴量を測定すること。
特徴ベクトル
抽出されたたくさんの特徴をベクトルの形にまとめたもの
識別規則
特徴ベクトルを用いて分類を行うための規則
入力データが所属する正しいクラスに帰属先を探すための規則
学習データ
入力データとクラスの対応関係を対にした沢山のデータ
汎化能力
学習データにはなかった未知の入力データについても正しいクラスを識別する能力
1.2 特徴の型
特徴の型
- 定性的特徴
非数値データ
名義尺度 分類のための名前
名前、住所 etc...
順序尺度 順序関係を表す。比較はできるが加減算は出来ない。
5段階評価、大中小、優良可
- 定量的特徴
数値データ
間隔尺度 一定の単位で量られた量。原点はあっても「無」ではない
テストの成績、摂氏・華氏などの温度、年月
比例尺度 原点が定まっている量。割り算や比例計算が意味を持つ。原点は「無」である
身長、体重、年齢、絶対温度
ダミー変数
定性的な特徴(ほ乳類かどうか etc...)を数値(ほ乳類の場合 1、そうでない場合 0)で符号化すること。
1.3 特徴ベクトル空間と次元の呪い
特徴ベクトル空間
10 ✖ 10 のドットで文字を表現する場合、100個のドットがあるので、この画像データは100次元の特徴を持つ空間である、と考える。
次元の呪い
次元(≒特徴量の種類?)が増えれば増えるほど、必要な学習データの数が指数関数的に増えること。
先ほどの10 ✖ 10 のドットの場合、1つのドットで16色使える場合、情報量が100の16乗(千兆)になる。
超立方体
n次元の各辺が等しい図形のことらしい。
頂点の数と辺の数は以下のとおり導ける。
■ 頂点の数は2倍ずつ増える
■ 辺の数は1つ前の次元の「辺の数の2倍と頂点の数」を足した数になる。
もとのカタチを新しい次元に平行移動して(辺の数は2倍増える)、対応する頂点間を結ぶため(辺の数は頂点の数だけ増える)。
感想
まだ初めの方のため、用語の定義の話が多いので、まだついていける。
超立方体の頂点の数はともかく、辺の数や面の数を計算しようと思うと、その1個前の次元の情報が必要になってくるため、よくわからなかった。。
以上になります、最後までお読みいただきありがとうございました。