Foundation Models Catalog: Быстрый старт

Создайте inference-сервис.
Подключитесь к inference-сервису.

1. Создать inference-сервис

Выберите модель.
Настройте инфраструктуру.
Настройте inference-сервис.
Подтвердите конфигурацию.

1. Выбрать модель

В панели управления в верхнем меню нажмите Продукты и выберите Foundation Models Catalog.
В карточке модели нажмите Создать.
Введите имя inference-сервиса.
Чтобы фильтровать inference-сервисы в списке, добавьте теги. Автоматически добавляется тег с названием модели. Чтобы добавить новый тег, в поле Теги введите тег и нажмите Enter.
Опционально: введите описание inference-сервиса. Например, укажите его назначение.
Нажмите Продолжить.

2. Настроить инфраструктуру

Задайте параметры модели.

1.1. Выберите тип данных параметров модели.

1.2. Выберите тип данных для KV-кэша.

1.3. Выберите максимальную длину контекста.
Выберите конфигурацию inference-сервиса. При выборе учитывайте ожидаемые метрики производительности модели.

После создания inference-сервиса конфигурацию изменить нельзя.
Нажмите Продолжить.

3. Настроить inference-сервис

Настройте количество inference-инстансов.

1.1. Чтобы в сервисе было фиксированное количество инстансов, откройте вкладку Фиксированное и укажите количество инстансов.

1.2. Чтобы в сервисе использовалось автомасштабирование, откройте вкладку С автомасштабированием и установите минимальное и максимальное количество инстансов. Количество инстансов будет меняться автоматически только в указанном диапазоне в зависимости от нагрузки на inference-сервис.

Вы можете изменить количество inference-инстансов после создания inference-сервиса. Подробнее в инструкции Масштабировать inference-сервис.
Выберите тип диска для inference-инстанса.
Нажмите Продолжить.

4. Подтвердить конфигурацию

Проверьте итоговую конфигурацию inference-сервиса.
Проверьте цену inference-сервиса.
Нажмите Создать Inference-сервис. Создание inference-сервиса может занимать около 15 минут.

2. Подключиться к inference-сервису

Чтобы подключиться к inference-сервису, отправьте тестовый запрос через Completions API или Chat API.

Используйте Completions API для генерации текста на основе одного промта — без поддержки диалога или истории сообщений. Например, чтобы продолжить фразу, сгенерировать текст по шаблону или выполнить однократную генерацию.

Используйте Chat API для ведения диалога в режиме чат-бота — с учетом ролей и истории сообщений.

Completions API
Chat API

Откройте CLI.
Отправьте тестовый curl-запрос:

curl <endpoint>/v1/completions \
-H "Authorization: Bearer <api_key>" \
-H "Content-Type: application/json" \
-d '{
"model": "<model>",
"prompt": "<prompt>",
"temperature": 0,
"max_tokens": 7
}'

Укажите:

<endpoint> — эндпоинт inference-сервиса. Эндпоинт можно скопировать в панели управления: в верхнем меню нажмите Продукты → Inference-сервисы → страница inference-сервиса → вкладка Быстрый старт → в блоке Endpoint нажмите ;
<api_key> — API-ключ. Можно скопировать в панели управления: в верхнем меню нажмите Продукты → Inference-сервисы → страница inference-сервиса → вкладка API-ключи → в строке API-ключа нажмите , а затем ;
<model> — название модели. Можно посмотреть в панели управления: в верхнем меню нажмите Продукты → Inference-сервисы → страница inference-сервиса → вкладка Сервис → строка Модель;

<prompt> — промт, например:

Объясни, что такое промт

Вы получите ответ в формате OpenAI API.