Параметры модели inference-сервиса

Вы можете указать параметры модели при создании inference-сервиса. Они определяют, как inference-сервис будет обрабатывать запросы и расходовать вычислительные ресурсы.

Тип данных параметров модели	Формат, в котором хранятся веса модели. Это способ оптимизации модели (квантизация), при котором числа с плавающей точкой (например FP32) преобразуются в формат с меньшей точностью, такой как 8-битные целые числа (INT8). Более компактные форматы уменьшают размер модели, ускоряют генерацию токенов и снижают потребление вычислительных ресурсов. Это позволяет запускать модели на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встраиваемые системы, с минимальной потерей точности
Тип данных для KV-кэша (Key-Value Cache)	Формат хранения промежуточных вычислений модели при генерации токенов. Key-Value Cache — механизм ускорения генерации токенов в LLM на базе архитектуры трансформеров. Более компактные форматы снижают потребление памяти и позволяют обрабатывать более длинные контексты
Максимальная длина контекста	Максимальное количество токенов, которое модель может обработать в рамках одного запроса