Метрики производительности модели inference-сервиса

С помощью метрик вы можете сравнить производительность модели на разных конфигурациях и подобрать необходимую. Метрики отображаются в карточке каждой конфигурации при создании inference-сервиса.

Avg Time to First Token	Среднее время от получения запроса до генерации первого токена в миллисекундах
Avg Request Throughput	Среднее количество обрабатываемых запросов в секунду
Output Token Throughput	Среднее количество сгенерированных токенов в секунду
Request Latency	Среднее время от получения запроса до полного завершения ответа в секундах