Можно ли включить компиляцию XLA при выводе с помощью Tensorflow Serving?
(Я надеюсь, что это просто вопрос недокументированных конфигураций и что я смогу избежать реализации собственного Servable).
Можно ли включить компиляцию XLA при выводе с помощью Tensorflow Serving?
(Я надеюсь, что это просто вопрос недокументированных конфигураций и что я смогу избежать реализации собственного Servable).
@njs,
На самом деле не рекомендуется делать компиляции во время логического вывода. Компиляции во время вывода приведут к нехватке памяти HBM, в результате чего чипы не смогут обслуживать запросы.
Рекомендуемое решение:
Используйте пакетную функцию с допустимыми размерами пакетов, чтобы ограничить количество компиляций во время выполнения.
Выполняйте все компиляции для этих разрешенных размеров пакетов во время загрузки модели, а не во время вывода. Таким образом, ваша модель будет готова к выводу сразу после загрузки, а не будет выполнять компиляцию с высокой задержкой во время вывода.