专为 AI 推理场景设计的 GPU 弹性容器云产品。仅需指定容器镜像地址并根据您的业务场景稍作配置,即可快速部署一个 AI 推理服务。

功能特性

  • 借助「弹性伸缩」能力,在您的业务流量高峰期自动快速扩容,流量低谷期自动缩容,在保证服务稳定性的同时,尽可能为您节省成本;
  • 内置高效「负载均衡」算法,确保请求负载均匀分布到各 GPU 容器实例;
  • 计费「精确到秒」,仅对 GPU 容器实例的实际运行时间进行收费;
  • 通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术,能实现「秒级冷启动」,从容应对流量高峰;
  • 完整的「日志面板」功能,支持查询实时日志流,帮助您快速发现并解决潜在问题。

名词解释

  • 容器镜像地址:指 Docker 容器镜像地址,目前可支持公共镜像地址私有镜像地址
  • Serverless Endpoint:表示一个 GPU 弹性容器云实例。包含 Worker、负载均衡器、弹性伸缩器等组件。
  • Worker:Serverless Endpoint 用于处理具体请求的 GPU 容器实例,一个 Worker 对应一个 GPU 容器实例。
  • 弹性策略:用于控制流量高峰时自动扩容,流量低谷时自动缩容的操作逻辑。
  • 健康检查路径:内置的负载均衡器会通过该路径做健康检查,通过判断返回的状态码是否为 200 来决定是否将请求转发到该 Worker 上。