Model Catalog
AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua Model Catalog. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.
Quy trình Inference với Model từ Catalog
Bước 1: Import Model từ Catalog vào Model Registry
Mục đích: Đăng ký model vào hệ thống để có thể dùng làm đầu vào cho Inference Endpoint.
Hành động cần làm:
Truy cập tab Model Registry trong giao diện AI Platform.
Chọn Import từ AI Platform Catalog.
Tìm kiếm model mong muốn (ví dụ:
meta-llama/Meta-Llama-3-8B-Instruct
).
Sau khi import thành công, model sẽ xuất hiện trong danh sách Model Registry và có thể sử dụng để triển khai endpoint.
Bước 2: Khởi tạo Inference Endpoint
Mục đích: Tạo một endpoint để gửi request inference đến model vừa import.
Hành động cần làm:
Truy cập tab Inference → Chọn Create Endpoint.
Điền thông tin:
Endpoint Name
Region (ví dụ: HCM)
Chọn Model Registry đã import ở bước trước
Chọn Resource Configuration: loại GPU (g1-standard-4x16-1rtx2080ti, v.v.), dung lượng RAM, CPU phù hợp
Replica Configuration: số lượng tối thiểu và tối đa bản sao (để auto-scaling)
Nhấn Create Endpoint
Sau vài phút khởi tạo, bạn sẽ nhận được một endpoint sẵn sàng phục vụ inference thông qua API.
Yêu Cầu Phần Cứng
AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua Model Catalog. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.
LLM Models
Model
RTX 2080
RTX 4090
A40
Note
Thời gian tạo (phút) với RTX 2080
google/gemma-2-9b-it
3 card
1 card
1 card
3 card rtx 2080 cần giảm max context length <= 22624
48
microsoft/Phi-3-medium-4k-instruct
4 card
2 card
1 card
32
Qwen/Qwen2.5-7B-Instruct
2 card
1 card
1 card
27
deepseek-ai/DeepSeek-R1-Distill-Llama-8B
2 card
1 card
1 card
24
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
3 card
2 card
1 card
24
Qwen/Qwen2.5-14B-Instruct
4 card
2 card
1 card
4 card rtx 2080 cần max context length <= 8960 && max_num_seqs <= 256
24
meta-llama/Llama-3.2-3B
1 card
1 card
1 card
22
meta-llama/Meta-Llama-3-8B-Instruct
2 card
1 card
1 card
21
meta-llama/Meta-Llama-3-8B
2 card
1 card
1 card
20
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
2 card
1 card
1 card
2 card rtx 2080 cần giảm max context length <= 8192 && max_num_seqs<=256
19
Qwen/Qwen2.5-0.5B-Instruct
1 card
1 card
1 card
14
meta-llama/Llama-3.2-3B-Instruct
1 card
1 card
1 card
17
google/gemma-2-2b-it
1 card
1 card
1 card
16
meta-llama/Llama-3.2-1B
1 card
1 card
1 card
16
microsoft/Phi-3.5-mini-instruct
1 card
1 card
1 card
1 card rtx 2080 cần giảm max context length <= 18080
16
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
1 card
1 card
1 card
15
meta-llama/Llama-3.2-1B-Instruct
1 card
1 card
1 card
15
Qwen/Qwen2.5-1.5B-Instruct
1 card
1 card
1 card
15
SeaLLMs/SeaLLMs-v3-1.5B
1 card
1 card
1 card
17
SeaLLMs/SeaLLMs-v3-7B
2 card
1 card
1 card
2x2080 cần giảm Max context length <= 37984
37
Embedding Models
Model
RTX 2080
RTX 4090
A40
Thời gian tạo với RTX 2080
sentence-transformers/all-MiniLM-L6-v2
1 card
1 card
1 card
15 phút
BAAI/bge-m3
1 card
1 card
1 card
16 phút
intfloat/multilingual-e5-large-instruct
1 card
1 card
1 card
14 phút
sentence-transformers/paraphrase-multilingual-mpnet-base-v2
1 card
1 card
1 card
14 phút
Lưu ý cấu hình VRAM
Bạn có thể tra cứu mức sử dụng VRAM của từng model tại: 🔗 https://llm.extractum.io
RTX 2080
10 GB
RTX 4090
24 GB
A40
46 GB
Last updated