Import Model Registry sử dụng vLLM
Bước 1: Truy cập Model Registry
- Đăng nhập với VNG Cloud account của bạn và truy cập tới Model Registry Dashboard. 
- Tìm và nhấn vào nút "Import a model registry" (Nhập một model registry). 
Bước 2: Truy cập Model Registry
- Region & Model registry name: Chọn region và tên cụ thể cho model của bạn. 
- Container: Chọn option Pre-built container để sử dụng các framework được hỗ trợ. 
- Framework: Chọn framework để triển khai model và version phù hợp. Trong hướng dẫn này, ta chọn vLLM 0.7.2 
- Model Source: Truy cập model được lưu trữ: từ network volume của bạn, AI Platform catalog, hoặc trực tiếp từ Hugging Face. 
- Model Repository: Chọn Network Volume chứa model Triton của bạn, bạn cần chuẩn bị model repository có cấu trúc như sau: 
- Cấu hình vLLM (vLLM Settings): - Served model name: Tên model được sử dụng trong API. Lưu ý: tên này cũng sẽ được dùng trong tag - model_name
- Max number of sequences: Số lượng sequence tối đa mỗi iteration. Mặc định: 256. 
- Max Context Length: Chiều dài context tối đa của model. Nếu không chỉ định, hệ thống sẽ tự động lấy từ model config. 
- Nếu bật hỗ trợ Tool Call: - Chọn loại tool call parser bạn cần: hermes, mistral... 
 
 
- Nhấn nút "Import" để hoàn thành quá trình. 
Last updated
