Создать inference-сервис
1. Выбрать модель
-
В панели управления в верхнем меню нажмите Продукты и выберите Foundation Models Catalog.
-
В карточке модели нажмите Создать.
-
Введите имя inference-сервиса.
-
Чтобы фильтровать inference-сервисы в списке, добавьте теги. Автоматически добавляется тег с названием модели. Чтобы добавить новый тег, в поле Теги введите тег и нажмите Enter.
-
Опционально: введите описание inference-сервиса. Например, укажите его назначение.
-
Нажмите Продолжить.
2. Настроить инфраструктуру
-
Задайте параметры модели.
1.1. Выберите тип данных параметров модели.
1.2. Выберите тип данных для KV-кэша.
1.3. Выберите максимальную длину контекста.
-
Выберите конфигурацию inference-сервиса. При выборе учитывайте ожидаемые метрики производительности модели.
После создания inference-сервиса конфигурацию изменить нельзя.
-
Нажмите Продолжить.
3. Настроить inference-сервис
-
Настройте количество inference-инстансов.
1.1. Чтобы в сервисе было фиксированное количество инстансов, откройте вкладку Фиксированное и укажите количество инстансов.
1.2. Чтобы в сервисе использовалось автомасштабирование, откройте вкладку С автомасштабированием и установите минимальное и максимальное количество инстансов. Количество инстансов будет меняться автоматически только в указанном диапазоне в зависимости от нагрузки на inference-сервис.
Вы можете изменить количество inference-инстансов после создания inference-сервиса. Подробнее в инструкции Масштабировать inference-сервис.
-
Выберите тип диска для inference-инстанса.
-
Нажмите Продолжить.
4. Подтвердить конфигурацию
-
Проверьте итоговую конфигурацию inference-сервиса.
-
Проверьте цену inference-сервиса.
-
Нажмите Создать Inference-сервис. Создание inference-сервиса может занимать около 15 минут.