Перейти к основному содержимому

Параметры модели inference-сервиса

Последнее изменение:

Вы можете указать параметры модели при создании inference-сервиса. Они определяют, как inference-сервис будет обрабатывать запросы и расходовать вычислительные ресурсы.

Тип данных параметров модели

Формат, в котором хранятся веса модели. Это способ оптимизации модели (квантизация), при котором числа с плавающей точкой (например FP32) преобразуются в формат с меньшей точностью, такой как 8-битные целые числа (INT8). Более компактные форматы уменьшают размер модели, ускоряют генерацию токенов и снижают потребление вычислительных ресурсов. Это позволяет запускать модели на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встраиваемые системы, с минимальной потерей точности

Тип данных для KV-кэша (Key-Value Cache)

Формат хранения промежуточных вычислений модели при генерации токенов. Key-Value Cache — механизм ускорения генерации токенов в LLM на базе архитектуры трансформеров. Более компактные форматы снижают потребление памяти и позволяют обрабатывать более длинные контексты

Максимальная длина контекста

Максимальное количество токенов, которое модель может обработать в рамках одного запроса