Inference
Tính năng Inference giúp bạn triển khai mô hình AI thành một dịch vụ API sẵn sàng sử dụng, phục vụ trực tiếp cho các ứng dụng backend, website, hoặc pipeline phân tích.
Tổng quan về Inference
Deploy mô hình từ Model Registry dưới dạng một REST API endpoint.
Hỗ trợ chọn loại máy chủ tính toán (CPU/GPU) theo yêu cầu hiệu năng.
Tự động scale theo lưu lượng request.
Có thể tích hợp với AI Gateway để quản lý bảo mật, rate limit, auth token…
Các bước triển khai Inference
Bước 1: Truy cập giao diện Inference
Đăng nhập vào VNG Cloud AI Platform..
Vào Inference tại menu bên trái.
Nhấn nút “Create endpoint”.
Bước 2: Điền thông tin khởi tạo Inference
Endpoint Name
Tên endpoint định danh (1–50 ký tự, không chứa ký tự đặc biệt)
Region
Khu vực triển khai (hiện tại: HCM
)
Model
Chọn model đã được import sẵn trong Model Registry
Bước 3: Cấu hình tài nguyên và tự động scale
Resource Configuration
Instance Type (CPU / GPU / RAM)
Chọn loại máy tính chạy model (ví dụ: g1-standard-4x16-1rtx2080ti
). Tùy vào model, chọn cấu hình phù hợp với yêu cầu inference
Replica Configuration
Min Replica Count
Số lượng instance tối thiểu luôn sẵn sàng
Max Replica Count
Số lượng instance tối đa khi autoscaling
Auto-scaling Settings (Advanced configuration)
Hệ thống tự tăng giảm theo các thông số threshold CPU, RAM, GPU Utilization, Response latency.
Bước 4: Chọn Security
Nếu chọn Private Access, Endpoint URL sẽ xác thực bằng API Key (Cần tạo trước 1 API Key mới có thể tạo Inference)
Không chọn thì Endpoint URL co thể truy cập public (không cần API Key)
Bước 5: Tạo và khởi chạy Inference
Nhấn "Create" để bắt đầu triển khai.
Quá trình deploy mất vài phút.
Sau khi hoàn tất, bạn sẽ nhận được thông tin Endpoint URL để serving.
Hướng dẫn serving endpoint
Bước 1: Lấy API Key (Nếu là Private Endpoint)
Bước 2: Lấy Endpoint URL
Có thể lấy Endpoint URL theo 2 cách:
Nhấn nút URL tại danh sách các Inference.

Sao chép tại sang chi tiết của một Inference cụ thể.

Bước 3: Gọi Inference
Sau khi Inference Active và có Endpoint URL. Bạn có thể sử dụng Inference.
Private Inference
curl --location 'https://inference-aiplatform-hcm.api.vngcloud.vn/v1/<uid-inference>' ^ --header 'Authorization: Bearer <api-key>'
Public Inference
curl --location 'https://inference-aiplatform-hcm.api.vngcloud.vn/v1/<uid-inference>'
Last updated