Import Model Registry sử dụng vLLM
Bước 1: Truy cập Model Registry
Đăng nhập với VNG Cloud account của bạn và truy cập tới Model Registry Dashboard.
Tìm và nhấn vào nút "Import a model registry" (Nhập một model registry).
Bước 2: Truy cập Model Registry
Region & Model registry name: Chọn region và tên cụ thể cho model của bạn.
Container: Chọn option Pre-built container để sử dụng các framework được hỗ trợ.
Framework: Chọn framework để triển khai model và version phù hợp. Trong hướng dẫn này, ta chọn vLLM 0.7.2
Model Source: Truy cập model được lưu trữ: từ network volume của bạn, AI Platform catalog, hoặc trực tiếp từ Hugging Face.
Model Repository: Chọn Network Volume chứa model Triton của bạn, bạn cần chuẩn bị model repository có cấu trúc như sau:
Cấu hình vLLM (vLLM Settings):
Served model name: Tên model được sử dụng trong API. Lưu ý: tên này cũng sẽ được dùng trong tag
model_name
Max number of sequences: Số lượng sequence tối đa mỗi iteration. Mặc định: 256.
Max Context Length: Chiều dài context tối đa của model. Nếu không chỉ định, hệ thống sẽ tự động lấy từ model config.
Nếu bật hỗ trợ Tool Call:
Chọn loại tool call parser bạn cần: hermes, mistral...
Nhấn nút "Import" để hoàn thành quá trình.
Last updated