skka3134

skka3134

email
telegram

机器学习和量化投资:3.pytorch创建数据集

1. 安装 pytorch,pytorch 是一个 python 优先的深度学习框架。使用 pytorch 可以自动去组合因子成策略。GPU 训练的话只有 N 卡支持,这里选择 cpu 模式就行。https://pytorch.org/ ,torchvision 用来处理图像,torchaudio 处理音频用不到所以不安装。

sudo /home/skka3134/folder/bot/bin/python -m pip install torch

image
2. 设置数据集,从 Dateset 继承类,形成 TimeSeriesDataset

from torch.utils.data import Dataset

class TimeSeriesDataset(Dataset):
    def __init__(self, X, y):
        self.X = X
        self.y = y

    def __len__(self):
        return len(self.X)

    def __getitem__(self, i):
        return self.X[i], self.y[i]
    
train_dataset = TimeSeriesDataset(X_train, y_train)
test_dataset = TimeSeriesDataset(X_test, y_test)

3. 加载数据集

from torch.utils.data import DataLoader
batch_size = 16    #每批读取数据16个,如果用的是GPU训练,可以调大一点,128?
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) #shuffle=True代表打乱数据
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False) #shuffle=True代表不打乱数据

4. 可视化处理

for _, batch in enumerate(train_loader):
    x_batch, y_batch = batch[0].to(device), batch[1].to(device)
    print(x_batch.shape, y_batch.shape)
    break
加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。