Pytorch构建二维表格自定义数据集

对于二维表格,我们要进行预测,首先就是数据预处理,如何把处理好的数据变换成 Pytorch 所使用的数据集是首要步骤。

1.构建自定义数据集

torch.utils.data包括了Dataset和DataLoader两个类。torch.utils.data.**Dataset是一个抽象类,不能够直接调用。如果你想自定义数据集的话,就需要继承该类,并实现__len__和__getitem__方法。**前者提供数据的大小,后者通过给定索引获取数据与标签。因为__getitem__一次只能获取一个数据而我们采用的是MiniBatch的方式训练的,所以需要我们通过torch.utils.data.DataLoader来定义一个新的迭代器,实现batch读取。

首先自定义的数据集要继承 torch.utils.data 类,重写两个方法:

  • getitem(self, index) : 根据索引即可返回 训练集 和 测试集数据。
  • _len(self) : 返回 数据集的长度。
# 自定义数据集
import torch
from torch.utils.data import Dataset, DataLoader

class ExampleDataset(Dataset):
    def __init__(self, path):
        # 一个由二维向量组成的数据集
        df = pd.read_csv(path)
        self.data = torch.tensor(df.iloc[:, 1: -1].to_numpy())  
        self.label = torch.tensor(df.iloc[:, -1].to_numpy(dtype=np.float32))
    
    def __getitem__(self,index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)
    pass

类中传入一个路径,该路径是自己的 二维表格:

data = ExampleDataset(r'data\distance.csv')
print(len(data))
print(data[0])

Pytorch构建二维表格自定义数据集_第1张图片

2.加载自定义数据集

使用 torch.utils.data.DataLoader 定义新的迭代器,进而实现遍历读取:

注意:batch_size 设置为2,则每次迭代输出 2 条样本数据。

example_loader = DataLoader(
    dataset=data,
    batch_size=2,    # 批次大小
    shuffle = False,  # False : 数据不被随机打乱
    num_workers = 0,  # 数据载入器使用的进程数目,默认为0
    drop_last=True    # 是否要把最后的批次丢弃
)

print(example_loader)

输出:

<torch.utils.data.dataloader.DataLoader object at 0x0000021AB6162370>

迭代读取:

for i,(X, y) in enumerate(example_loader):
    print("i:",i)
    Data, Label = X, y
    print("data:",Data)
    print("Label:",Label)
    break

输出:

i: 0
data: tensor([[1016.9312, 4782.8571, 4552.9630, 6298.9947,   50.0000,   50.0000,
           88.0000],
        [1338.4247, 4920.1370, 4109.1781, 5943.5616,   50.0000,  100.0000,
           88.0000]], dtype=torch.float64)
Label: tensor([1., 1.])

参考文章:

Datasets & DataLoaders — PyTorch Tutorials 1.11.0+cu102 文档

参考博客

你可能感兴趣的