产品简介
GPU Serverless
专为 AI 推理场景设计的 GPU 弹性容器云产品。仅需指定容器镜像地址并根据您的业务场景稍作配置,即可快速部署一个 AI 推理服务。
功能特性
- 借助「弹性伸缩」能力,在您的业务流量高峰期自动快速扩容,流量低谷期自动缩容,在保证服务稳定性的同时,尽可能为您节省成本;
- 内置高效「负载均衡」算法,确保请求负载均匀分布到各 GPU 容器实例;
- 计费「精确到秒」,仅对 GPU 容器实例的实际运行时间进行收费;
- 通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术,能实现「秒级冷启动」,从容应对流量高峰;
- 完整的「日志面板」功能,支持查询实时日志流,帮助您快速发现并解决潜在问题。
名词解释
- 容器镜像地址:指 Docker 容器镜像地址,目前可支持
公共镜像地址
和私有镜像地址
。 - Serverless Endpoint:表示一个 GPU 弹性容器云实例。包含 Worker、负载均衡器、弹性伸缩器等组件。
- Worker:Serverless Endpoint 用于处理具体请求的 GPU 容器实例,一个 Worker 对应一个 GPU 容器实例。
- 弹性策略:用于控制流量高峰时自动扩容,流量低谷时自动缩容的操作逻辑。
- 健康检查路径:内置的负载均衡器会通过该路径做健康检查,通过判断返回的状态码是否为
200
来决定是否将请求转发到该 Worker 上。