Как использовать различное увеличение данных для подмножеств в PyTorch

Как использовать разное увеличение (преобразования) данных для разных Subset в PyTorch?

Например:

train, test = torch.utils.data.random_split(dataset, [80000, 2000])

train и test будут иметь те же преобразования, что и dataset. Как использовать пользовательские преобразования для этих подмножеств?


person Fábio Perez    schedule 10.08.2018    source источник


Ответы (3)


Мое текущее решение не очень элегантно, но работает:

from copy import copy

train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size])
train_dataset.dataset = copy(full_dataset)

test_dataset.dataset.transform = transforms.Compose([
    transforms.Resize(img_resolution),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

train_dataset.dataset.transform = transforms.Compose([
    transforms.RandomResizedCrop(img_resolution[0]),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

По сути, я определяю новый набор данных (который является копией исходного набора данных) для одного из разбиений, а затем я определяю настраиваемое преобразование для каждого разбиения.

Примечание. train_dataset.dataset.transform работает, поскольку я использую набор данных ImageFolder, который использует атрибут .tranform для выполнения преобразований.

Если кто-нибудь знает лучшее решение, поделитесь с нами!

person Fábio Perez    schedule 10.08.2018
comment
Да, API набора данных PyTorch довольно примитивен. встроенные наборы данных не имеют одинаковых свойств, некоторые преобразования предназначены только для изображения PIL, некоторые - только для массивов, Subset не передает данные обернутому набору данных ... Я надеюсь, что это изменится в будущем, но пока я не думаю есть способ сделать это лучше - person oarfish; 21.11.2018

Я отказался и скопировал собственное подмножество (почти идентичное pytorch). Я сохраняю преобразование в подмножестве (а не в родительском).

class Subset(Dataset):
    r"""
    Subset of a dataset at specified indices.

    Arguments:
        dataset (Dataset): The whole Dataset
        indices (sequence): Indices in the whole set selected for subset
    """
    def __init__(self, dataset, indices, transform):
        self.dataset = dataset
        self.indices = indices
        self.transform = transform

    def __getitem__(self, idx):
        im, labels = self.dataset[self.indices[idx]]
        return self.transform(im), labels

    def __len__(self):
        return len(self.indices)

вам также придется написать свою собственную функцию разделения

person aivision2020    schedule 06.01.2020

Это то, что я использую (взято из здесь):

import torch
from torch.utils.data import Dataset, TensorDataset, random_split
from torchvision import transforms

class DatasetFromSubset(Dataset):
    def __init__(self, subset, transform=None):
        self.subset = subset
        self.transform = transform

    def __getitem__(self, index):
        x, y = self.subset[index]
        if self.transform:
            x = self.transform(x)
        return x, y

    def __len__(self):
        return len(self.subset)

Вот пример:

init_dataset = TensorDataset(
    torch.randn(100, 3, 24, 24),
    torch.randint(0, 10, (100,))
)

lengths = [int(len(init_dataset)*0.8), int(len(init_dataset)*0.2)]
train_subset, test_subset = random_split(init_dataset, lengths)

train_dataset = DatasetFromSubset(
    train_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)
test_dataset = DatasetFromSubset(
    test_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)
person Andreas K.    schedule 06.01.2020