Inference

Tính năng Inference giúp bạn triển khai mô hình AI thành một dịch vụ API sẵn sàng sử dụng, phục vụ trực tiếp cho các ứng dụng backend, website, hoặc pipeline phân tích.

Tổng quan về Inference

  • Deploy mô hình từ Model Registry dưới dạng một REST API endpoint.

  • Hỗ trợ chọn loại máy chủ tính toán (CPU/GPU) theo yêu cầu hiệu năng.

  • Tự động scale theo lưu lượng request.

  • Có thể tích hợp với AI Gateway để quản lý bảo mật, rate limit, auth token…


Các bước triển khai Inference

Bước 1: Truy cập giao diện Inference

  1. Đăng nhập vào VNG Cloud AI Platform..

  2. Vào Inference tại menu bên trái.

  3. Nhấn nút “Create endpoint”.

Bước 2: Điền thông tin khởi tạo Inference

Field
Mô tả

Endpoint Name

Tên endpoint định danh (1–50 ký tự, không chứa ký tự đặc biệt)

Region

Khu vực triển khai (hiện tại: HCM)

Model

Chọn model đã được import sẵn trong Model Registry

Bước 3: Cấu hình tài nguyên và tự động scale

  • Resource Configuration

Tham số
Mô tả

Instance Type (CPU / GPU / RAM)

Chọn loại máy tính chạy model (ví dụ: g1-standard-4x16-1rtx2080ti). Tùy vào model, chọn cấu hình phù hợp với yêu cầu inference

  • Replica Configuration

Tham số
Mô tả

Min Replica Count

Số lượng instance tối thiểu luôn sẵn sàng

Max Replica Count

Số lượng instance tối đa khi autoscaling

Auto-scaling Settings (Advanced configuration)

Hệ thống tự tăng giảm theo các thông số threshold CPU, RAM, GPU Utilization, Response latency.

Bước 4: Chọn Security

  • Nếu chọn Private Access, Endpoint URL sẽ xác thực bằng API Key (Cần tạo trước 1 API Key mới có thể tạo Inference)

  • Không chọn thì Endpoint URL co thể truy cập public (không cần API Key)

Bước 5: Tạo và khởi chạy Inference

  • Nhấn "Create" để bắt đầu triển khai.

  • Quá trình deploy mất vài phút.

  • Sau khi hoàn tất, bạn sẽ nhận được thông tin Endpoint URL để serving.


Hướng dẫn serving endpoint

Bước 1: Lấy API Key (Nếu là Private Endpoint)

Bước 2: Lấy Endpoint URL

Có thể lấy Endpoint URL theo 2 cách:

  1. Nhấn nút URL tại danh sách các Inference.

  1. Sao chép tại sang chi tiết của một Inference cụ thể.

Bước 3: Gọi Inference

Sau khi Inference Active và có Endpoint URL. Bạn có thể sử dụng Inference.

  • Private Inference

    • curl --location 'https://inference-aiplatform-hcm.api.vngcloud.vn/v1/<uid-inference>' ^
      --header 'Authorization: Bearer <api-key>'
  • Public Inference

    • curl --location 'https://inference-aiplatform-hcm.api.vngcloud.vn/v1/<uid-inference>'

Last updated