Перейти к основному содержимому

Foundation Models Catalog: Быстрый старт

Последнее изменение:
  1. Создайте inference-сервис.
  2. Подключитесь к inference-сервису.

1. Создать inference-сервис

  1. Выберите модель.
  2. Настройте инфраструктуру.
  3. Настройте inference-сервис.
  4. Подтвердите конфигурацию.

1. Выбрать модель

  1. В панели управления в верхнем меню нажмите Продукты и выберите Foundation Models Catalog.

  2. В карточке модели нажмите Создать.

  3. Введите имя inference-сервиса.

  4. Чтобы фильтровать inference-сервисы в списке, добавьте теги. Автоматически добавляется тег с названием модели. Чтобы добавить новый тег, в поле Теги введите тег и нажмите Enter.

  5. Опционально: введите описание inference-сервиса. Например, укажите его назначение.

  6. Нажмите Продолжить.

2. Настроить инфраструктуру

  1. Задайте параметры модели.

    1.1. Выберите тип данных параметров модели.

    1.2. Выберите тип данных для KV-кэша.

    1.3. Выберите максимальную длину контекста.

  2. Выберите конфигурацию inference-сервиса. При выборе учитывайте ожидаемые метрики производительности модели.

    После создания inference-сервиса конфигурацию изменить нельзя.

  3. Нажмите Продолжить.

3. Настроить inference-сервис

  1. Настройте количество inference-инстансов.

    1.1. Чтобы в сервисе было фиксированное количество инстансов, откройте вкладку Фиксированное и укажите количество инстансов.

    1.2. Чтобы в сервисе использовалось автомасштабирование, откройте вкладку С автомасштабированием и установите минимальное и максимальное количество инстансов. Количество инстансов будет меняться автоматически только в указанном диапазоне в зависимости от нагрузки на inference-сервис.

    Вы можете изменить количество inference-инстансов после создания inference-сервиса. Подробнее в инструкции Масштабировать inference-сервис.

  2. Выберите тип диска для inference-инстанса.

  3. Нажмите Продолжить.

4. Подтвердить конфигурацию

  1. Проверьте итоговую конфигурацию inference-сервиса.

  2. Проверьте цену inference-сервиса.

  3. Нажмите Создать Inference-сервис. Создание inference-сервиса может занимать около 15 минут.

2. Подключиться к inference-сервису

Используйте Completions API для генерации текста на основе одного промта — без поддержки диалога или истории сообщений. Например, чтобы продолжить фразу, сгенерировать текст по шаблону или выполнить однократную генерацию.

  1. Откройте CLI.

  2. Отправьте тестовый curl-запрос:

curl https://<inference_service_uuid>.wc.<pool>.inference.selcloud.ru/v1/completions \
-H "Authorization: Bearer <api_key>" \
-H "Content-Type: application/json" \
-d '{
"model": "<model>",
"prompt": "<prompt>",
"temperature": 0,
"max_tokens": 7
}'

Укажите:

  • <inference_service_uuid> — UUID inference-сервиса. Можно скопировать в панели управления: в верхнем меню нажмите ПродуктыInference-сервисы → в меню inference-сервиса выберите Скопировать UUID;

  • <pool> — пул, в котором создан inference-сервис, например ru-7. Можно посмотреть в панели управления: в верхнем меню нажмите ПродуктыInference-сервисы → карточка inference-сервиса;

  • <api_key> — API-ключ. Можно скопировать в панели управления: в верхнем меню нажмите ПродуктыInference-сервисы → страница inference-сервиса → вкладка API-ключи → в строке API-ключа нажмите , а затем ;

  • <model> — название модели. Можно посмотреть в панели управления: в верхнем меню нажмите ПродуктыInference-сервисы → страница inference-сервиса → вкладка Сервис → строка Модель;

  • <prompt> — текстовый запрос к модели (промт), например:

    Объясни, что такое промт

Вы получите ответ в формате OpenAI API.