Автоградиент Pytorch вызывает ошибку: ожидалось, что isFloatingType (grads [i] .type (). ScalarType ()) будет истинным, но получило ложное значение при loss.backward ()

Я работаю над реализацией состязательного обучения. Следующий код не работает:

    for i, data in tqdm(enumerate(train_loader), total=len(train_loader), smoothing=0.9):

        pc1, pc2 = data
        pc1 = pc1.to(device).transpose(2, 1).contiguous().float()
        pc2 = pc2.to(device).transpose(2, 1).contiguous().float()

        # train the discriminator
        net_gen.eval()
        net_disc.train()

        i_odds = torch.arange(start=1, end=pc1.shape[2], step=2)
        ...

        # train the flow extractor
        net_gen.train()
        net_disc.eval()

        flow_pred = net_gen(pc1, pc2)
        pc_pred = pc1 + flow_pred

        z_pred = net_disc(pc1[:, :, i_odds], pc_pred[:, :, i_odds])
        loss_flow = - z_pred.mean()

        opt_gen.zero_grad()

        loss_flow.backward()

В последней строке появляется следующая ошибка: Expected isFloatingType(grads[i].type().scalarType()) to be true, but got false.

Что это могло быть? Насколько я мог проверить, модель и все тензоры относятся к типу cuda.Float.

That is the traceback:
Traceback (most recent call last):
  File "/home/zuanazzi/anaconda3/envs/tomtom2/lib/python3.6/pdb.py", line 1667, in main
    pdb._runscript(mainpyfile)
  File "/home/zuanazzi/anaconda3/envs/tomtom2/lib/python3.6/pdb.py", line 1548, in _runscript
    self.run(statement)
  File "/home/zuanazzi/anaconda3/envs/tomtom2/lib/python3.6/bdb.py", line 434, in run
    exec(cmd, globals, locals)
  File "<string>", line 1, in <module>
  File "/home/zuanazzi/PointCloudFlow/flownet3d_pytorch/self_train_adversarial.py", line 452, in <module>
    main()
  File "/home/zuanazzi/PointCloudFlow/flownet3d_pytorch/self_train_adversarial.py", line 445, in main
    train(args, net_flow, net_disc, train_loader, test_loader, boardio, textio)
  File "/home/zuanazzi/PointCloudFlow/flownet3d_pytorch/self_train_adversarial.py", line 309, in train
    train_stats = train_one_epoch(args, net_flow, net_disc, train_loader, opt_flow, opt_disc, writer, epoch)
  File "/home/zuanazzi/PointCloudFlow/flownet3d_pytorch/self_train_adversarial.py", line 227, in train_one_epoch
    loss_flow.backward()
  File "/home/zuanazzi/anaconda3/envs/tomtom2/lib/python3.6/site-packages/torch/tensor.py", line 195, in backward
    torch.autograd.backward(self, gradient, retain_graph, create_graph)
  File "/home/zuanazzi/anaconda3/envs/tomtom2/lib/python3.6/site-packages/torch/autograd/__init__.py", line 99, in backward
    allow_unreachable=True)  # allow_unreachable flag
RuntimeError: Expected isFloatingType(grads[i].type().scalarType()) to be true, but got false.  (Could this error message be improved?  If so, please report an enhancement request to PyTorch.)

Первоначально вопрос задан здесь: https://discuss.pytorch.org/t/expected-isfloatingtype-grads-i-type-scalartype-to-be-true-but-got-false/67840

Изменить: похоже, что архитектуры, основанные на слоях PointNet ++, не могут использоваться в качестве дискриминатора, потому что они не возвращают градиенты. В настоящее время это больше теория, чем утверждение.


person Victor Zuanazzi    schedule 28.01.2020    source источник


Ответы (1)


Как подсказывает ошибка, тип данных loss_flow не является числом с плавающей запятой (вероятно, целочисленным типом).

Вам необходимо убедиться, что выходной сигнал вашего дискриминатора

z_pred = net_disc(pc1[:, :, i_odds], pc_pred[:, :, i_odds])

действительно тензор с плавающей запятой.

person Shai    schedule 28.01.2020
comment
Я тоже так подумал, в режиме отладки проверил (Pdb) z_pred.type() 'torch.cuda.FloatTensor' - person Victor Zuanazzi; 28.01.2020
comment
@VictorZuanazzi вам нужно проверить тип данных z_pred.grad. Неужели ваш дискриминатор не дифференцируемый? - person Shai; 28.01.2020
comment
(коррекция) дискриминатор обучается перед генератором. Я использую для этого архитектуру FlowNet3D, которая, насколько мне известно, отличается. Однако я не могу проверить z_pred.grad, потому что оценки стали доступны после loss_flow.backward (), что именно там, где все ломается. - person Victor Zuanazzi; 28.01.2020