007_データセットについて

機械学習で必要不可欠！
「データセット」について

前回、機械学習を行う環境を準備しました。

05_Python機械学習をみてみよう！（ここをクリック）

今回からは、機械学習をするために必要なたくさんのデータ「データセット」について確認します！
データセットには、植物の品種のデータセットや人の顔を集めたデータセット、さらに応用として架空のデータも作成出来ます！
今回はscikit-learnのサンプルデータセットを見てみましょう！

scikit-learnのサンプルデータセット

scikit-kearnは、機械学習をやさしく学べるライブラリです。
機械学習のサンプルデータやアルゴリズムが色々入っており、さらに架空のサンプルデータを作り出すことも可能です！
どんなデータセットがあるか見てみましょう！

内容	ロード命令
ボストンの住宅価値	load_boston()
アヤメの品種	load_iris()
糖尿病の進行状況	load_diabetes()
手書きの数字データ	load_digits()
運動能力データ	load_linnerud()
ワインの種類	load_wine()
乳がんの診断結果	load_breast_cancer()

アヤメの品種データセット

では、実際に「アヤメの品種」のデータセットを見てみましょう。
ここには「アヤメの様々な特徴量」や「どのアヤメの品種なのか」といったデータが入っています。
この「がくや花びらの長さ・幅などのアヤメの特徴量（説明変数）」を使って「アヤメの品種（目的変数）」を予測するという流れで、機械学習に使うことができます！

参考資料：Python3年生機械学習のしくみ

ここまでがデータセットの説明です。
では、これらデータセットを使って実際に機械学習に触れてみましょう！

戻る

007_データセットについて

機械学習で必要不可欠！「データセット」について

scikit-learnのサンプルデータセット

アヤメの品種データセット

機械学習で必要不可欠！
「データセット」について