Общая информация о продукте Foundation Models Catalog

к сведению

Продукт находится на стадии ограниченного тестирования (private preview).

Foundation Models Catalog — это каталог преднастроенных моделей с готовым API. Модели развертываются в виде отдельных inference-сервисов — изолированных сервисов с выделенными ресурсами (GPU, vCPU, RAM, диск).

Для работы с выбранной моделью используется выделенный масштабируемый эндпоинт. Эндпоинты создаваемых inference-сервисов совместимы с OpenAI API.

Принцип работы

Foundation Models Catalog использует ресурсы облачной платформы. Каждая модель развертывается на выделенных ресурсах в виде отдельного inference-сервиса. Inference-сервис создается на базе кластера Managed Kubernetes с GPU.

Конфигурация кластера для inference-сервиса подбирается автоматически в зависимости от параметров, которые вы выберете для модели. В зависимости от подобранной конфигурации отображаются ожидаемые метрики производительности модели:

количество сгенерированных токенов в секунду;
среднее время от получения запроса до генерации первого токена;
среднее время выполнения запроса;
среднее количество одновременно обрабатываемых запросов в секунду.

Inference-сервисы работают только в синхронном режиме — ответ от модели возвращается по частям по мере генерации, как в чат-ботах.

Inference-сервисы автоматически масштабируются — в зависимости от нагрузки количество нод будет автоматически уменьшаться или увеличиваться. В качестве метрики для автомасштабирования используется среднее время нахождения запроса в очереди. Автомасштабирование ограничено лимитами кластера Managed Kubernetes.

Запросы в inference-сервис отправляются по токену доступа. Для каждого inference-сервиса токены индивидуальные. Вы можете управлять токенами.

Управлять токенами

Вы можете управлять токенами доступа к inference-сервису через панель управления. Доступны следующие операции:

создать токен доступа;
удалить токен доступа.

Создать заявку на тестирование

В панели управления в верхнем меню нажмите Продукты и выберите Foundation Models Catalog.
В карточке модели нажмите Создать.
В поле Описание заявки введите:
- контакты технического специалиста — они нужны для уточнения технических деталей тестирования;
- опционально: требования к inference-сервису, например GPU для тестирования модели и ожидаемые метрики производительности модели.
Нажмите Создать заявку. Автоматически сформируется тикет с заявкой на тестирование Foundation Models Catalog.
Дождитесь ответа сотрудника Selectel в тикете.

Стоимость

На время ограниченного тестирования (private preview) оплачиваются только ресурсы облачной платформы по модели оплаты облачной платформы.

Перед созданием заявки на тестирование пополните баланс.

Цены на ресурсы можно посмотреть на selectel.ru.