007_データセットについて

目次

機械学習で必要不可欠!
「データセット」について

前回、機械学習を行う環境を準備しました。

今回からは、機械学習をするために必要なたくさんのデータ「データセット」について確認します!
データセットには、植物の品種のデータセットや人の顔を集めたデータセット、さらに応用として架空のデータも作成出来ます!
今回はscikit-learnのサンプルデータセットを見てみましょう!

scikit-learnのサンプルデータセット

scikit-kearnは、機械学習をやさしく学べるライブラリです。
機械学習のサンプルデータやアルゴリズムが色々入っており、さらに架空のサンプルデータを作り出すことも可能です!
どんなデータセットがあるか見てみましょう!

内容ロード命令
ボストンの住宅価値load_boston()
アヤメの品種load_iris()
糖尿病の進行状況load_diabetes()
手書きの数字データload_digits()
運動能力データload_linnerud()
ワインの種類load_wine()
乳がんの診断結果load_breast_cancer()

アヤメの品種データセット

では、実際に「アヤメの品種」のデータセットを見てみましょう。
ここには「アヤメの様々な特徴量」「どのアヤメの品種なのか」といったデータが入っています。
この「がくや花びらの長さ・幅などのアヤメの特徴量(説明変数)」を使って「アヤメの品種(目的変数)」を予測するという流れで、機械学習に使うことができます!

参考資料:Python3年生機械学習のしくみ

ここまでがデータセットの説明です。
では、これらデータセットを使って実際に機械学習に触れてみましょう!

目次