機械学習と量子投資：3.pytorchデータセットの作成

pytorch のインストール、pytorch は Python を優先する深層学習フレームワークです。pytorch を使用すると、要因を自動的に組み合わせて戦略を作成することができます。GPU でトレーニングする場合は、N カードのみサポートされていますが、ここでは CPU モードを選択します。https://pytorch.org/、torchvision は画像処理に使用され、torchaudio は使用されないため、インストールしません。

sudo /home/skka3134/folder/bot/bin/python -m pip install torch

2. データセットの設定、Dataset クラスを継承して TimeSeriesDataset を作成します

from torch.utils.data import Dataset

class TimeSeriesDataset(Dataset):
    def __init__(self, X, y):
        self.X = X
        self.y = y

    def __len__(self):
        return len(self.X)

    def __getitem__(self, i):
        return self.X[i], self.y[i]
    
train_dataset = TimeSeriesDataset(X_train, y_train)
test_dataset = TimeSeriesDataset(X_test, y_test)

3. データセットのロード

from torch.utils.data import DataLoader
batch_size = 16    #バッチごとに16個のデータを読み込みます。GPUでトレーニングする場合は、128に増やすことができますか？
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) #shuffle=Trueはデータをシャッフルすることを意味します
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False) #shuffle=Trueはデータをシャッフルしないことを意味します

4. 可視化処理

for _, batch in enumerate(train_loader):
    x_batch, y_batch = batch[0].to(device), batch[1].to(device)
    print(x_batch.shape, y_batch.shape)
    break