Foundation Models Catalog: Быстрый старт
1. Создать inference-сервис
1. Выбрать модель
-
В панели управления в верхнем меню нажмите Продукты и выберите Foundation Models Catalog.
-
В карточке модели нажмите Создать.
-
Введите имя inference-сервиса.
-
Чтобы фильтровать inference-сервисы в списке, добавьте теги. Автоматически добавляется тег с названием модели. Чтобы добавить новый тег, в поле Теги введите тег и нажмите Enter.
-
Опционально: введите описание inference-сервиса. Например, укажите его назначение.
-
Нажмите Продолжить.
2. Настроить инфраструктуру
-
Задайте параметры модели.
1.1. Выберите тип данных параметров модели.
1.2. Выберите тип данных для KV-кэша.
1.3. Выберите максимальную длину контекста.
-
Выберите конфигурацию inference-сервиса. При выборе учитывайте ожидаемые метрики производительности модели.
После создания inference-сервиса конфигурацию изменить нельзя.
-
Нажмите Продолжить.
3. Настроить inference-сервис
-
Настройте количество inference-инстансов.
1.1. Чтобы в сервисе было фиксированное количество инстансов, откройте вкладку Фиксированное и укажите количество инстансов.
1.2. Чтобы в сервисе использовалось автомасштабирование, откройте вкладку С автомасштабированием и установите минимальное и максимальное количество инстансов. Количество инстансов будет меняться автоматически только в указанном диапазоне в зависимости от нагрузки на inference-сервис.
Вы можете изменить количество inference-инстансов после создания inference-сервиса. Подробнее в инструкции Масштабировать inference-сервис.
-
Выберите тип диска для inference-инстанса.
-
Нажмите Продолжить.
4. Подтвердить конфигурацию
-
Проверьте итоговую конфигурацию inference-сервиса.
-
Проверьте цену inference-сервиса.
-
Нажмите Создать Inference-сервис. Создание inference-сервиса может занимать около 15 минут.
2. Подключиться к inference-сервису
Чтобы подключиться к inference-сервису, отправьте тестовый запрос через Completions API или Chat API.
Используйте Completions API для генерации текста на основе одного промта — без поддержки диалога или истории сообщений. Например, чтобы продолжить фразу, сгенерировать текст по шаблону или выполнить однократную генерацию.
Используйте Chat API для ведения диалога в режиме чат-бота — с учетом ролей и истории сообщений.
Completions API
Chat API
-
Откройте CLI.
-
Отправьте тестовый curl-запрос:
curl <endpoint>/v1/completions \
-H "Authorization: Bearer <api_key>" \
-H "Content-Type: application/json" \
-d '{
"model": "<model>",
"prompt": "<prompt>",
"temperature": 0,
"max_tokens": 7
}'
Укажите:
-
<endpoint>— эндпоинт inference-сервиса. Эндпоинт можно скопировать в панели управления: в верхнем меню нажмите Продукты → Inference-сервисы → страница inference-сервиса → вкладка Быстрый старт → в блоке Endpoint нажмите ; -
<api_key>— API-ключ. Можно скопировать в панели управления: в верхнем меню нажмите Продукты → Inference-сервисы → страница inference-сервиса → вкладка API-ключи → в строке API-ключа нажмите , а затем ; -
<model>— название модели. Можно посмотреть в панели управления: в верхнем меню нажмите Продукты → Inference-сервисы → страница inference-сервиса → вкладка Сервис → строка Модель; -
<prompt>— промт, например:Объясни, что такое промт
Вы получите ответ в формате OpenAI API.