Inference
Last updated
Last updated
Tính năng Inference giúp bạn triển khai mô hình AI thành một dịch vụ API sẵn sàng sử dụng, phục vụ trực tiếp cho các ứng dụng backend, website, hoặc pipeline phân tích.
Tổng quan về Inference
Deploy mô hình từ Model Registry dưới dạng một REST API endpoint.
Hỗ trợ chọn loại máy chủ tính toán (CPU/GPU) theo yêu cầu hiệu năng.
Tự động scale theo lưu lượng request.
Có thể tích hợp với AI Gateway để quản lý bảo mật, rate limit, auth token…
Đăng nhập vào ..
Vào Inference tại menu bên trái.
Nhấn nút “Create endpoint”.
Endpoint Name
Tên endpoint định danh (1–50 ký tự, không chứa ký tự đặc biệt)
Region
Khu vực triển khai (hiện tại: HCM
)
Model
Chọn model đã được import sẵn trong Model Registry
Resource Configuration
Instance Type (CPU / GPU / RAM)
Chọn loại máy tính chạy model (ví dụ: g1-standard-4x16-1rtx2080ti
). Tùy vào model, chọn cấu hình phù hợp với yêu cầu inference
Replica Configuration
Min Replica Count
Số lượng instance tối thiểu luôn sẵn sàng
Max Replica Count
Số lượng instance tối đa khi autoscaling
Auto-scaling Settings (Advanced configuration)
Hệ thống tự tăng giảm theo các thông số threshold CPU, RAM, GPU Utilization, Response latency.
Nhấn "Create" để bắt đầu triển khai.
Quá trình deploy mất vài phút.
Sau khi hoàn tất, bạn sẽ nhận được thông tin Endpoint URL để serving.
Tài liệu này hướng dẫn bạn cách gọi Inference Endpoint vừa tạo thông qua việc xác thực bằng Service Account và thực hiện inference chuẩn OpenAI-like API (đặc biệt hữu ích với GenAI models).
Truy cập vào trang quản lý IAM trong hệ thống VNG Cloud.
Tạo một Service Account mới.
Gán quyền truy cập AI Platform (ví dụ: aiplatform.viewer
, aiplatform.user
hoặc cao hơn tùy nhu cầu).
Sau khi tạo thành công, bạn sẽ nhận được:
client_id
client_secret
🔐 Hai thông tin này sẽ được dùng để lấy
access_token
nhằm xác thực khi gọi Inference API.
Đầu tiên, mã hóa client_id
và client_secret
theo chuẩn Base64 theo định dạng:base64("client_id:client_secret")
Ví dụ
Thực hiện lệnh curl
để lấy token
Kết quả trả về
Sau khi đã có access_token
, bạn có thể gọi API để thực hiện inference theo mẫu sau, inference theo chuẩn của openai.
Tham khảo hướng dẫn tạo Service Account .