pytorch 可以直接对 Dataset 对象用 len() 求数据集大小,而 DataLoader 对象也可以用 len(),不过求得的是用这个 loader 在一个 epoch 能有几多 iteration,容易混淆。本文记录几种情况的对比。
from torch.utils.data import Dataset, DataLoader class DS(Dataset): def __init__(self): self.data = list(range(17)) def __len__(self): return len(self.data) def __getitem__(self, index): return self.data[index] dset = DS() loader = DataLoader(dset, batch_size=3) loader2 = DataLoader(dset, batch_size=3, drop_last=True) print(len(dset), len(loader.dataset), len(loader2.dataset)) # 17, 17, 17 print(len(loader)) # 6 print(len(loader2)) # 5