Описание продукта Foundation Models Catalog

к сведению

Продукт находится на стадии публичного тестирования (public preview).

Foundation Models Catalog — это каталог преднастроенных ML-моделей с готовым API. Модели развертываются в виде изолированных inference-сервисов с выделенными ресурсами (GPU, vCPU, RAM, диск).

Для работы с продуктом поддерживается модель управления доступом в продуктах Selectel: типы пользователей, роли, проекты и лимиты проекта и квоты.

Решаемые задачи

работа с моделями без необходимости самостоятельного развертывания инфраструктуры;
подбор готовой инфраструктуры для ожидаемых или меняющихся нагрузок. Вы можете сравнить метрики производительности модели на разных конфигурациях inference-сервиса и подобрать необходимую, а также настроить автомасштабирование;
тестирование и подбор разных моделей под свои проекты. Вы можете развернуть несколько моделей и сравнить, какая лучше справляется с вашими задачами;
интеграция моделей в собственные проекты через выделенный эндпоинт.

Принцип работы

Foundation Models Catalog использует ресурсы облачной платформы. Каждая модель развертывается в виде изолированного inference-сервиса на базе кластера Managed Kubernetes с GPU. Веса моделей хранятся в S3 Selectel.

Для отказоустойчивости Foundation Models Catalog inference-сервисы развертываются в кластерах в разных локациях. Все кластеры с inference-сервисами управляются централизованно отдельным кластером через Flux CD. В одном кластере может работать несколько inference-сервисов — каждый изолирован друг от друга и масштабируется независимо.

Каждый inference-сервис использует подходящий inference-сервер в зависимости от типа модели. Например, для больших языковых моделей (LLM) используется inference-сервер vLLM.

Запросы к моделям выполняются через выделенный эндпоинт — публичный API, совместимый с OpenAI API. Inference-сервисы работают только в синхронном режиме — ответ от модели возвращается по частям по мере генерации, как в чат-ботах.

Как работать с Foundation Models Catalog

Вы можете работать с Foundation Models Catalog в панели управления или через API. Чтобы начать работу с Foundation Models Catalog, используйте инструкцию Foundation Models Catalog: Быстрый старт.

При создании inference-сервиса вы можете выбрать его конфигурацию. Список доступных конфигураций зависит от выбранной модели и ее параметров. При выборе конфигурации вы можете посмотреть ожидаемые метрики производительности модели.

После создания inference-сервиса автоматически сформируется выделенный эндпоинт для работы с моделью. Эндпоинт будет доступен в панели управления на странице inference-сервиса. Для взаимодействия с inference-сервисом вы можете использовать curl-запросы и такие инструменты, как Postman, SoapUI, Open WebUI и другие. Вы можете интегрировать inference-сервис в собственные проекты через выделенный эндпоинт.

Доступ к inference-сервису осуществляется через API-ключи. Для каждого inference-сервиса API-ключи индивидуальные. Вы можете управлять API-ключами.

Вы можете масштабировать inference-сервис в зависимости от количества запросов к модели. Чтобы масштабировать inference-сервис, измените количество inference-инстансов — развернутых экземпляров моделей. Подробнее в инструкции Масштабировать inference-сервис.

Доступные модели

Посмотреть актуальный перечень моделей можно в панели управления: в верхнем меню нажмите Продукты → Foundation Models Catalog.

Зоны ответственности

Selectel обеспечивает

инфраструктуру для создания inference-сервисов;
доступ к моделям через публичный API, совместимый с OpenAI API;
возможность масштабирования inference-сервисов;
систему мониторинга inference-сервисов в панели управления;
безопасность хранения данных в соответствии с требованиями 152-ФЗ;
интеграцию с другими сервисами Selectel;
техническую поддержку.

Selectel не несет ответственность

за интеграцию моделей в ваши проекты;
бизнес-логику работы моделей в ваших проектах.

Стоимость

Foundation Models Catalog оплачивается по модели оплаты pay-as-you-go. С баланса каждый час списываются средства за предыдущий час использования ресурсов облачной платформы. На время публичного тестирования (public preview) количество токенов не учитывается в стоимости. Подробнее в инструкции Модель оплаты и цены Foundation Models Catalog.

Что входит в стоимость

неограниченное количество токенов;
бесплатное доменное имя для публичного доступа к модели.

Ограничения

В Foundation Models Catalog не поддерживаются:

работа с моделями в асинхронном режиме;
загрузка в каталог собственных моделей;
развертывание моделей из каталога оn-premise, в А-ЦОД, на выделенных серверах и в аттестованном облаке.