FAQ по Foundation Models Catalog
Про Foundation Models Catalog
Foundation Models Catalog — это каталог преднастроенных ML-моделей с готовым API. Модели развертываются в виде отдельных inference-сервисов — изолированных сервисов с выделенными ресурсами (GPU, vCPU, RAM, диск).
Для работы с выбранной моделью используется выделенный масштабируемый эндпоинт. Эндпоинты создаваемых inference-сервисов совместимы с OpenAI API.
Foundation Model — это модель искусственного интеллекта, которая обучена на больших объемах исходных данных. На основе обученной модели можно построить решение своих задач.
Про inference-сервисы
Inference-сервис — базовая единица развертывания в Foundation Models Catalog. Это изолированный сервис с выделенными ресурсами (GPU, vCPU, RAM, диск), который предоставляет API для взаимодействия с предварительно обученной моделью.
Конфигурации inference-сервисов подбираются автоматически в зависимости от выбранной модели и заданных параметров модели. При выборе конфигурации вы можете посмотреть ожидаемые метрики производительности модели.
Inference-инстанс — это фактически развернутый экземпляр модели в inference-сервисе. За счет изменения количества inference-инстансов можно распределить нагрузку на inference-сервис и обеспечит ь его отказоустойчивость. Подробнее в инструкции Масштабировать inference-сервис.
Inference-сервер — это программный компонент, который организует работу модели: принимает запросы от клиентов, подготавливает данные, запускает модель для выполнения вычислений и возвращает результат.
Каждый inference-сервис использует подходящий inference-сервер в зависимости от типа модели. Например, для больших языковых моделей (LLM) используется inference-сервер vLLM.
Про ограничения
На этапе Public preview модели можно развернуть только как приватный эндпоинт на выделенных ресурсах и работать с ними в синхронном режиме.
Пользовательских инструментов для загрузки своих моделей пока нет.
Развертывать модели из Foundation Models Catalog можно только в публичном облаке Selectel.
Сделать это оn-premise, в А-ЦОД, на выделенных серверах и аттестованном облаке Selectel сейчас нельзя.
Про стоимость
Стоимость зависит от выбранной конфигурации inference-сервиса. При использовании inference-сервиса вы платите только за ресурсы облачной платформы: GPU, vCPU, RAM, объем диска. Стоимость не зависит от количества токенов.
В облачной платформе используется модель оплаты pay-as-you-go. С баланса каждый час списываются средс тва за предыдущий час использования ресурсов облачной платформы. Подробнее в инструкции Модель оплаты и цены Foundation Models Catalog.
Перед созданием inference-сервиса пополните баланс.