机器学习和量化投资：3.pytorch创建数据集

1. 安装 pytorch，pytorch 是一个 python 优先的深度学习框架。使用 pytorch 可以自动去组合因子成策略。GPU 训练的话只有 N 卡支持，这里选择 cpu 模式就行。https://pytorch.org/ ,torchvision 用来处理图像，torchaudio 处理音频用不到所以不安装。

sudo /home/skka3134/folder/bot/bin/python -m pip install torch

2. 设置数据集，从 Dateset 继承类，形成 TimeSeriesDataset

from torch.utils.data import Dataset

class TimeSeriesDataset(Dataset):
    def __init__(self, X, y):
        self.X = X
        self.y = y

    def __len__(self):
        return len(self.X)

    def __getitem__(self, i):
        return self.X[i], self.y[i]
    
train_dataset = TimeSeriesDataset(X_train, y_train)
test_dataset = TimeSeriesDataset(X_test, y_test)

3. 加载数据集

from torch.utils.data import DataLoader
batch_size = 16    #每批读取数据16个，如果用的是GPU训练，可以调大一点，128？
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) #shuffle=True代表打乱数据
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False) #shuffle=True代表不打乱数据

4. 可视化处理

for _, batch in enumerate(train_loader):
    x_batch, y_batch = batch[0].to(device), batch[1].to(device)
    print(x_batch.shape, y_batch.shape)
    break