IoT検定対策7章 データ分析(1/2)

データ分析(1/2)

データベース

  • NoSQL
    • KVS:AWS DynamoDB、Oacle NoSQL、Redis など
    • ドキュメントデータベース:MongoDB、Azure DocumentDB など
    • グラフデータベース
      • Neo4j、InfiniteGraph など。パナマ文書事件で有名。個のデータを示す「ノード」と属性である「プロパティ」、ノードの関係性を保有する「エッジ」から成る。
    • カラム指向
      • RDBMSの行指向と異なり、データを列単位で取得・操作するデータベース。ビックデータの分析などで有効。SAP HANAなど。
  • 人工知能
  • 機械学習
    • 既出の値を出すための無数の方法(関数)を策定し、最新データの特徴を関数に入力することで未来予測などを行う。
    • 教師あり学習
      • 既知の正解を手掛かりとし、正解のわからないデータを予測すること。
      • 予測の対象を大別すると「写真から日本人を探し当てる」ような『カテゴリ』と、「明日の売り上げを予想する『実数値』がある。
      • 『カテゴリ』では分類の対象数を指して「n値分類」と呼び、注目するデータを『正例』(上の例で、日本人の顔)、それ以外を負例と呼ぶ。
      • 機械学習で予測の手掛かりとなるデータを『特徴量』、または『素性(そせい )』と呼ぶ。計算で扱う場合は、『特徴ベクトル』または『素性ベクトル』で表現される。
      • 正解の判定と、特徴ベクトル(量)の組み合わせを『学習データ』と呼ぶ。
        • 画像判別では、例えば「喜び」と「悲しみ」の顔の正解と、画像の特徴ベクトルを結び付けた学習データを用いる。この機械学習『クラス分類』、この時に導出した関数のことを『分類器』と呼ぶ。
        • 数値判別では、例えばがん発生確率の値と、要因となる喫煙や酒量の特徴ベクトルを結び付けた学習データを用いる。この機械学習『回帰分析』といい、導出した関数を『回帰モデル』『回帰式』と呼ぶ。
    • 表現能力:学習データのとおり忠実に再現する力のこと。敏感さ・繊細さ。
    • 汎化性能:特徴ベクトルの微細な誤差は無視する力のこと。鈍感力。
    • 過学習:表現能力が高すぎ、現実的な予測ができなくなること。
    • 正則化過学習にならないよう、関数を調整すること。
  • 機械なし学習
    • 不特定のデータ集合から、何かしらの特徴を見つけ出す分析方法
    • 似た者同士をまとめ上げるクラスタリングと、クラスター内データの共通項となるパターンを抽出する『相関データ抽出』を使用する。
    • これにより「牛乳とパンを買う人(クラスタ)は、卵も買う(相関関係)」という分析が行える。用例として、スーパーマーケットで売れやすい商品レイアウトの参考にするといった活用が行える。

… 以降、長すぎて力尽きた…。