Я использую Q-обучение и хочу знать, могу ли я использовать функцию расчета потерь tf.losses.mean_squared_error, если у меня есть функция вознаграждения, которая может давать отрицательные вознаграждения.
Потому что, если у меня есть, например, в качестве вывода моей сети следующие значения Q: (0,1, 0,2, 1), и я вычисляю, что мои реальные значения Q должны быть (0,1, -5, 1), если я использую функцию mean_squared_error, потеря для второго значения Q станет положительной, я ошибаюсь? Из-за квадратной операции градиентный спуск не будет основан на правильной потере?