為規模化 AI 而生
全球分散式 GPU 網絡,專為最嚴苛的訓練與推理工作負載設計。
選擇合適的晶片
從消費級推理到前沿模型訓練 — 每個工作負載都有合適的分級。
H100 叢集
80GB HBM3, NVLink — 大型 LLM 訓練與高吞吐推理。
- LLM 預訓練(70B+)
- 搭配 NCCL 的分散式訓練
- FP8 / BF16 / FP16
- 優先排程
A100 叢集
40GB / 80GB HBM2e — 推理與微調的業界標竿。
- 規模化推理
- LoRA / QLoRA 微調
- 多模態工作負載
- 最佳 $/FLOPS 平衡
RTX 4090 叢集
24GB GDDR6X — 具成本效益的推理、開發測試與小型微調。
- 7-13B 模型推理
- 開發 / 預備環境
- 圖像 / 影片生成
- 最低單位成本
KHB AI Cloud 上運行的服務
六項產品化服務,皆由託管控制平面與 24/7 on-call 支援。
LLM 訓練
分散式預訓練 — 從 7B 到 70B+,搭配 NCCL、DeepSpeed 與 Megatron。
推理端點
OpenAI 相容 API、自動擴展,以及 100ms 以下的 p50 延遲。
模型微調
LoRA、QLoRA 與完整 SFT 流程,並提供託管資料集。
AI Agent 託管
執行 LangGraph / AutoGen / CrewAI Agent,具備工具沙箱隔離。
向量資料庫
託管 Milvus / Qdrant,具備十億級召回與分片能力。
MLOps 流程
模型註冊表、評估、漂移監控,以及 ML 的 CI/CD。
我們支援的工作負載
今日於 KHB AI Cloud 上運行的生產工作負載一覽。
基礎模型訓練
為企業客戶提供產業專屬 LLM 的前沿級預訓練。
客服 AI
具備次秒級延遲與 CRM 整合的多語言客服 Agent。
內容生成
行銷文案、部落格文章、商品描述與創意寫作。
程式碼生成
Copilot 風格的自動完成、針對 Repository 的重構與錯誤偵測。
電腦視覺
物件偵測、OCR、視覺檢測與影片理解。
語音 AI
即時 STT / TTS、語音克隆,以及會議轉錄。
用量計費,只付所用
三種商業模式,為不同工作負載量身打造。
隨需即用
- GPU 小時計量
- 按 token 推理計價
- 控制台 / API 自助
- 標準支援
預留方案
- 容量預留
- 可預測的月度帳單
- 優先排程
- 24/7 優先支援
企業方案
- 專屬硬體 / 私有叢集
- 單一租戶控制平面
- 客製化 SLA 與合規
- 專屬 TAM 與解決方案架構師
從第一天起即具備企業等級
符合最嚴格的全球監管框架要求。
算力問答
預留與隨需即用有何不同?
隨需即用按秒計費,無承諾。預留方案可享最高 60% 折扣,需承諾 1 個月至 3 年的容量 — 適合穩定態推理工作負載。
是否支援自帶模型與權重?
支援。我們支援 PyTorch、TensorFlow、ONNX 與 GGUF 格式的自訂模型上傳。也可使用我們的精選模型庫,一鍵部署。
資料儲存於何處?
資料儲存於您選擇的區域(香港、新加坡、法蘭克福、美國東/西岸)。企業合約可將資料釘選至特定國家或單一租戶叢集。
是否支援多雲容錯?
支援。企業合約包含跨雲複製(AWS、GCP、Azure、On-prem),具備自動容錯移轉與零停機升級。