FAQ по Foundation Models Catalog
Про Foundation Models Catalog
Foundation Models Catalog — это каталог преднастроенных ML-моделей с готовым API. Модели развертываются в виде изолированных inference-сервисов с выделенными ресурсами (GPU, vCPU, RAM, диск).
Работать с моделью можно через выделенный масштабируемый эндпоинт. Эндпоинт совместим с OpenAI API.
Foundation Model — это модель искусственного интеллекта, которая обучена на больших объемах исходных данных. На основе обученной модели можно построить решение своих задач.
Про inference-сервисы
Inference-сервис — базовая единица развертывания в Foundation Models Catalog. Это изолированный сервис с выделенными ресурсами (GPU, vCPU, RAM, диск), который предоставляет API для взаимодействия с предварительно обученной моделью.
Конфигурации inference-сервисов подбираются автоматически в зависимости от выбранной модели и ее параметров. При выборе конфигурации вы можете посмотреть ожидаемые метрики производительности модели.
Inference-инстанс — это развернутый экземпляр модели в inference-сервисе. Вы можете изменять количество inference-инстансов, чтобы оптимально использовать ресурсы inference-сервиса. Подробнее в инструкции Масштабировать inference-сервис.
Inference-сервер — это программный компонент, который организует работу модели. Он принимает запросы от клиентов, подготавливает данные, запускает модель для выполнения вычислений и возвращает результат.
В Foundation Models Catalog используются разные типы inference-серверов. Тип сервера зависит от выбранной модели. Например, для больших языковых моделей (LLM) используется inference-сервер vLLM.
Про ограничения
На стадии публичного тестирования (public preview) модели можно развернуть в виде inference-сервисов только на выделенных ресурсах и работать с ними в синхронном режиме.
В Foundation Models Catalog не предусмотрена возможность загрузки своих моделей.
Нет, сделать это оn-premise, в А-ЦОД, на выделенных серверах и в аттестованном облаке Selectel сейчас нельзя. Развертывать модели из Foundation Models Catalog можно только в публичном облаке Selectel.
Про стоимость
Стоимость зависит от выбранной конфигурации inference-сервиса. При использовании inference-сервиса вы платите только за ресурсы облачной платформы: GPU, vCPU, RAM, размер диска. Стоимость не зависит от количества токенов.
В облачной платформе используется модель оплаты pay-as-you-go. С баланса каждый час списываются средства за предыдущий час использования ресурсов облачной платформы. Подробнее в инструкции Модель оплаты и цены Foundation Models Catalog.
Перед созданием inference-сервиса пополните баланс.