データ分析(1/2)
データベース
- NoSQL
- 人工知能
- 機械学習
- 既出の値を出すための無数の方法(関数)を策定し、最新データの特徴を関数に入力することで未来予測などを行う。
- 教師あり学習
- 既知の正解を手掛かりとし、正解のわからないデータを予測すること。
- 予測の対象を大別すると「写真から日本人を探し当てる」ような『カテゴリ』と、「明日の売り上げを予想する『実数値』がある。
- 『カテゴリ』では分類の対象数を指して「n値分類」と呼び、注目するデータを『正例』(上の例で、日本人の顔)、それ以外を負例と呼ぶ。
- 機械学習で予測の手掛かりとなるデータを『特徴量』、または『素性(そせい )』と呼ぶ。計算で扱う場合は、『特徴ベクトル』または『素性ベクトル』で表現される。
- 正解の判定と、特徴ベクトル(量)の組み合わせを『学習データ』と呼ぶ。
- 表現能力:学習データのとおり忠実に再現する力のこと。敏感さ・繊細さ。
- 汎化性能:特徴ベクトルの微細な誤差は無視する力のこと。鈍感力。
- 過学習:表現能力が高すぎ、現実的な予測ができなくなること。
- 正則化:過学習にならないよう、関数を調整すること。
- 機械なし学習
… 以降、長すぎて力尽きた…。