012_サンプルデータを自動生成しよう（塊１）

前回までの学習ではアヤメのデータセットを処理する方法を学んでいました！

011_3D散布図でデータを処理しよう（ここをクリック）

今回からは、架空のサンプルデータを自動生成する方法について学んできましょう！

sklearnを使ったデータセットの自動生成

以前にも少し紹介がありましたが、scikit-learnではデータセットを自動生成することができます。
実際にパラメータを指定することで好きな形の「架空のサンプルデータ」を自動で生成することができるのです！

上の命令文を使って以下のようなデータを生成することができます。

データセットの種類	命令
塊（分類用）	make_blobs(パラメータ)
三日月（分類用）	make_moons(パラメータ)
二重円（分類用）	make_circles(パラメータ)
同心円（分類用）	make_gaussian_quantiles(パラメータ)
回帰用データセット	make_regression(パラメータ)

分類用データセットの自動生成をしよう【塊】

make_blobs()命令で「複数の塊に分かれるデータセット」を自動で生成することができます！
パラメータで
・データの個数
・特徴量
・塊の数
・ばらつきの大きさ　など
を調整することができます。

データセットを自動生成できるというとても便利な機能ですが、毎回ランダムにデータが変わってしまうと、結果を比べたいときにデータが違うので比較ができなかったり、バグを見つける際に時間がかかってしまうなどと、少し困ったことになってしまいます…。
そこで便利なのがrandom_stateです！
これは、ランダム生成の出発点となる「種」を指定でき、何度実行して同じデータが生成されるのです！

以下の変数を用いて実際にコードを書いていきましょう！

変数名	意味
random_state	ランダム生成の種を指定
n_samples	データの個数
n_features	特徴量の数
centers	塊の数
cluster_std	ばらつきの大きさ（標準偏差）

①塊の数が２つのデータを作ろう

ランダムの種＝４
特徴量 = ２
塊の数 = ２
ばらつき = 1
点の数 = ３００
のデータセットを作ってみましょう！

コード

from sklearn.datasets import make_blobs
import pandas as pd

X, y = make_blobs(
    random_state=4, #1
    n_features=2, #2
    centers=2, #3
    cluster_std=1, #4
    n_samples=300) #5

df = pd.DataFrame(X) # 6
df["target"] = y # 7
df.head()

#1 ランダムの種 = 4
#2 特徴量の数 = 2
#3 塊の数 = 2
#4 ばらつき = 1
#5 点の数 = 300

#6 特徴量Xでデータフレームを作成
#7 分類yをtargetの列として追加

参考資料：Python3年生機械学習のしくみ

実行結果

設定した値のデータが生成されました！
では、このデータの特徴量0を横軸に、特徴量1を縦軸に設定し、targetの値で色分けした散布図を表示しましょう！

コード

%matplotlib inline
import matplotlib.pyplot as plt

df0 = df[df["target"]==0] #1
df1 = df[df["target"]==1] #2

plt.figure(figsize=(5, 5))
plt.scatter(df0[0], df0[1], color="c", alpha=0.4) #3
plt.scatter(df1[0], df1[1], color="m", alpha=0.4) #4
plt.grid()
plt.show()

#1~2　分類別にデータフレームを分ける
#3　シアンの散布図
#4　マゼンタの散布図

参考資料：Python3年生機械学習のしくみ

実行結果

これで塊の数が２つのデータの内容を確認することが出来ました！

次回は塊の数を増やして確認してみましょう！

【次回】013_サンプルデータを自動生成しよう（塊２）（ここをクリック）

戻る