Inference
Tính năng Inference giúp bạn triển khai mô hình AI thành một dịch vụ API sẵn sàng sử dụng, phục vụ trực tiếp cho các ứng dụng backend, website, hoặc pipeline phân tích.
Tổng quan về Inference
Deploy mô hình từ Model Registry dưới dạng một REST API endpoint.
Hỗ trợ chọn loại máy chủ tính toán (CPU/GPU) theo yêu cầu hiệu năng.
Tự động scale theo lưu lượng request.
Có thể tích hợp với AI Gateway để quản lý bảo mật, rate limit, auth token…
Các bước triển khai Inference
Bước 1: Truy cập giao diện Inference
Đăng nhập vào VNG Cloud AI Platform..
Vào Inference tại menu bên trái.
Nhấn nút “Create endpoint”.
Bước 2: Điền thông tin khởi tạo Inference
Endpoint Name
Tên endpoint định danh (1–50 ký tự, không chứa ký tự đặc biệt)
Region
Khu vực triển khai (hiện tại: HCM
)
Model
Chọn model đã được import sẵn trong Model Registry
Bước 3: Cấu hình tài nguyên và tự động scale
Resource Configuration
Instance Type (CPU / GPU / RAM)
Chọn loại máy tính chạy model (ví dụ: g1-standard-4x16-1rtx2080ti
). Tùy vào model, chọn cấu hình phù hợp với yêu cầu inference
Replica Configuration
Min Replica Count
Số lượng instance tối thiểu luôn sẵn sàng
Max Replica Count
Số lượng instance tối đa khi autoscaling
Auto-scaling Settings (Advanced configuration)
Hệ thống tự tăng giảm theo các thông số threshold CPU, RAM, GPU Utilization, Response latency.
Bước 4: Tạo và khởi chạy Inference
Nhấn "Create" để bắt đầu triển khai.
Quá trình deploy mất vài phút.
Sau khi hoàn tất, bạn sẽ nhận được thông tin Endpoint URL để serving.
Hướng dẫn serving endpoint
Tài liệu này hướng dẫn bạn cách gọi Inference Endpoint vừa tạo thông qua việc xác thực bằng Service Account và thực hiện inference chuẩn OpenAI-like API (đặc biệt hữu ích với GenAI models).
Bước 1: Tạo Service Account có quyền với AI Platform
Truy cập vào trang quản lý IAM trong hệ thống VNG Cloud.
Tạo một Service Account mới.
Gán quyền truy cập AI Platform (ví dụ:
aiplatform.viewer
,aiplatform.user
hoặc cao hơn tùy nhu cầu).Sau khi tạo thành công, bạn sẽ nhận được:
client_id
client_secret
🔐 Hai thông tin này sẽ được dùng để lấy
access_token
nhằm xác thực khi gọi Inference API.
Tham khảo hướng dẫn tạo Service Account tại đây.
Bước 2: Lấy Access Token
Đầu tiên, mã hóa client_id
và client_secret
theo chuẩn Base64 theo định dạng:base64("client_id:client_secret")
Ví dụ
Thực hiện lệnh curl
để lấy token
Kết quả trả về
Bước 3: Gọi Inference với Access Token
Sau khi đã có access_token
, bạn có thể gọi API để thực hiện inference theo mẫu sau, inference theo chuẩn của openai.
Last updated