Описание продукта Foundation Models Catalog
Продукт находится на стадии публичного тестирования (public preview).
Foundation Models Catalog — это каталог преднастроенных ML-моделей с готовым API. Модели развертываются в виде отдельных inference-сервисов — изолированных сервисов с выделенными ресурсами (GPU, vCPU, RAM, диск).
Для работы с продуктом поддерживается модель управления доступом в продуктах Selectel: типы пользователей, роли, проекты и лимиты проекта и квоты.
Решаемые задачи
-
работа с моделями без необходимости самостоятельного развертывания инфраструктуры;
-
подбор готовой инфраструктуры для ожидаемых или изменяющихся нагрузок. Вы можете оценить метрики производительности модели на разных конфигурациях inference-сервиса и подобрать необходимую или настроить автоматическое масштабирование;
-
тестирование и подбор разных моделей под свои проекты. Вы можете развернуть несколько моделей и сравнить, какая лучше справляется с вашими задачами;
-
интеграция моделей в собственные проекты через выделенный эндпоинт.
Принцип работы
Foundation Models Catalog использует ресурсы облачной платформы. Каждая модель развертывается в виде отдельного inference-сервиса на базе кластера Managed Kubernetes с GPU. Веса моделей хранятся в S3 Selectel.

Для отказоустойчивости Foundation Models Catalog inference-сервисы развертываются в кластерах в разных локациях. Все кластеры с inference-сервисами управляются централизованно отдельным кластером через Flux CD. В одном кластере может работать несколько inference-сервисов — каждый изолирован друг от друга и масштабируется независимо.
Каждый inference-сервис использует подходящий inference-сервер в зависимости от типа модели. Например, для больших языковых моделей (LLM) используется inference-сервер vLLM.
Запросы к моделям выполняются через выделенный эндпоинт — публичный API, совместимый с OpenAI API. Inference-сервисы работают только в синхронном режиме — ответ от модели возвращается по частям по мере генерации, как в чат-ботах.
Как работать с Foundation Models Catalog
Вы можете работать с Foundation Models Catalog в панели управления или через API. Чтобы начать работу с Foundation Models Catalog, используйте инструкцию Foundation Models Catalog: Быстрый старт.
При создании inference-сервиса вы можете выбрать его конфигурацию. Список доступных конфигураций зависит от выбранной модели и ее параметров. При выборе конфигурации вы можете посмотреть ожидаемые метрики производительности модели.
После создания inference-сервиса автоматически сформируется выделенный эндпоинт для работы с моделью. Эндпоинт будет доступен в панели управления на странице inference-сервиса. Для взаимодействия с inference-сервисом вы можете использовать curl-запросы и такие инструменты, как Postman, SoapUI, Open WebUI и другие. Вы можете интегрировать inference-сервис в собственные проекты через выделенный эндпоинт.
Доступ к inference-сервису осуществляется через API-ключи. Для каждого inference-сервиса API-ключи индивидуальные. Вы можете управлять API-ключами.
Вы можете масштабировать inference-сервис в зависимости от количества запросов к модели. Чтобы масштабировать inference-сервис, измените количество inference-инстансов — фактически развернутых экземпляров моделей. Подробнее в инструкции Масштабировать inference-сервис.
Доступные модели
Посмотреть актуальный перечень моделей можно в панели управления: в верхнем меню нажмите Продукты → Foundation Models Catalog.
Зоны ответственности
Selectel обеспечивает
-
инфраструктуру для создания inference-сервисов;
-
доступ к моделям через публичный API, совместимый с OpenAI API;
-
возможность масштабирования inference-сервисов;
-
систему мониторинга inference-сервисов в панели управления;
-
безопасность хранения данных в соответствии с требованиями 152-ФЗ;
-
интеграцию с другими сервисами Selectel;
-
техническую поддержку.
Selectel не несет ответственность
-
за интеграцию моделей в ваши проекты;
-
бизнес-логику работы модел ей в ваших проектах.
Стоимость
Foundation Models Catalog оплачивается по модели оплаты pay-as-you-go. С баланса каждый час списываются средства за предыдущий час использования ресурсов облачной платформы. На время публичного тестирования (public preview) количество токенов не учитывается в стоимости. Подробнее в инструкции Модель оплаты и цены Foundation Models Catalog.
Что входит в стоимость
-
неограниченное количество токенов;
-
бесплатное доменное имя для публичного доступа к модели.
Ограничения
В Foundation Models Catalog не поддерживаются:
-
работа с моделями в асинхронном режиме;
-
загрузка в каталог собственных моделей;
-
развертывание моделей из каталога оn-premise, в А-ЦОД, на выделенных серверах и аттестованном облаке.