Перейти к основному содержимому

Метрики производительности модели inference-сервиса

Последнее изменение:

С помощью метрик вы можете оценить производительность модели на разных конфигурациях и подобрать необходимую конфигурацию. Ожидаемые метрики производительности модели отображаются в карточке каждой конфигурации при создании inference-сервиса.

Avg Time to First Token

Среднее время от получения запроса до генерации первого токена в миллисекундах

Avg Request Throughput

Среднее количество обрабатываемых запросов в секунду

Output Token Throughput

Среднее количество сгенерированных токенов в секунду

Request Latency

Среднее время от получения запроса до полного завершения ответа в секундах