Перейти к основному содержимому

Описание продукта Foundation Models Catalog

Последнее изменение:
к сведению

Продукт находится на стадии публичного тестирования (public preview).

Foundation Models Catalog — это каталог преднастроенных ML-моделей с готовым API. Модели развертываются в виде отдельных inference-сервисов — изолированных сервисов с выделенными ресурсами (GPU, vCPU, RAM, диск).

Для работы с продуктом поддерживается модель управления доступом в продуктах Selectel: типы пользователей, роли, проекты и лимиты проекта и квоты.

Решаемые задачи

  • работа с моделями без необходимости самостоятельного развертывания инфраструктуры;

  • подбор готовой инфраструктуры для ожидаемых или изменяющихся нагрузок. Вы можете оценить метрики производительности модели на разных конфигурациях inference-сервиса и подобрать необходимую или настроить автоматическое масштабирование;

  • тестирование и подбор разных моделей под свои проекты. Вы можете развернуть несколько моделей и сравнить, какая лучше справляется с вашими задачами;

  • интеграция моделей в собственные проекты через выделенный эндпоинт.

Принцип работы

Foundation Models Catalog использует ресурсы облачной платформы. Каждая модель развертывается в виде отдельного inference-сервиса на базе кластера Managed Kubernetes с GPU. Веса моделей хранятся в S3 Selectel.

Для отказоустойчивости Foundation Models Catalog inference-сервисы развертываются в кластерах в разных локациях. Все кластеры с inference-сервисами управляются централизованно отдельным кластером через Flux CD. В одном кластере может работать несколько inference-сервисов — каждый изолирован друг от друга и масштабируется независимо.

Каждый inference-сервис использует подходящий inference-сервер в зависимости от типа модели. Например, для больших языковых моделей (LLM) используется inference-сервер vLLM.

Запросы к моделям выполняются через выделенный эндпоинт — публичный API, совместимый с OpenAI API. Inference-сервисы работают только в синхронном режиме — ответ от модели возвращается по частям по мере генерации, как в чат-ботах.

Как работать с Foundation Models Catalog

Вы можете работать с Foundation Models Catalog в панели управления или через API. Чтобы начать работу с Foundation Models Catalog, используйте инструкцию Foundation Models Catalog: Быстрый старт.

При создании inference-сервиса вы можете выбрать его конфигурацию. Список доступных конфигураций зависит от выбранной модели и ее параметров. При выборе конфигурации вы можете посмотреть ожидаемые метрики производительности модели.

После создания inference-сервиса автоматически сформируется выделенный эндпоинт для работы с моделью. Эндпоинт будет доступен в панели управления на странице inference-сервиса. Для взаимодействия с inference-сервисом вы можете использовать curl-запросы и такие инструменты, как Postman, SoapUI, Open WebUI и другие. Вы можете интегрировать inference-сервис в собственные проекты через выделенный эндпоинт.

Доступ к inference-сервису осуществляется через API-ключи. Для каждого inference-сервиса API-ключи индивидуальные. Вы можете управлять API-ключами.

Вы можете масштабировать inference-сервис в зависимости от количества запросов к модели. Чтобы масштабировать inference-сервис, измените количество inference-инстансов — фактически развернутых экземпляров моделей. Подробнее в инструкции Масштабировать inference-сервис.

Доступные модели

Посмотреть актуальный перечень моделей можно в панели управления: в верхнем меню нажмите ПродуктыFoundation Models Catalog.

Зоны ответственности

Selectel обеспечивает

  • инфраструктуру для создания inference-сервисов;

  • доступ к моделям через публичный API, совместимый с OpenAI API;

  • возможность масштабирования inference-сервисов;

  • систему мониторинга inference-сервисов в панели управления;

  • безопасность хранения данных в соответствии с требованиями 152-ФЗ;

  • интеграцию с другими сервисами Selectel;

  • техническую поддержку.

Selectel не несет ответственность

  • за интеграцию моделей в ваши проекты;

  • бизнес-логику работы моделей в ваших проектах.

Стоимость

Foundation Models Catalog оплачивается по модели оплаты pay-as-you-go. С баланса каждый час списываются средства за предыдущий час использования ресурсов облачной платформы. На время публичного тестирования (public preview) количество токенов не учитывается в стоимости. Подробнее в инструкции Модель оплаты и цены Foundation Models Catalog.

Что входит в стоимость

  • неограниченное количество токенов;

  • бесплатное доменное имя для публичного доступа к модели.

Ограничения

В Foundation Models Catalog не поддерживаются: