Model Catalog

AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua Model Catalog. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.

Quy trình Inference với Model từ Catalog

Bước 1: Import Model từ Catalog vào Model Registry

Mục đích: Đăng ký model vào hệ thống để có thể dùng làm đầu vào cho Inference Endpoint.
Hành động cần làm:
- Truy cập tab Model Registry trong giao diện AI Platform.
- Chọn Import từ AI Platform Catalog.
- Tìm kiếm model mong muốn (ví dụ: meta-llama/Meta-Llama-3-8B-Instruct).

Sau khi import thành công, model sẽ xuất hiện trong danh sách Model Registry và có thể sử dụng để triển khai endpoint.

Bước 2: Khởi tạo Inference Endpoint

Mục đích: Tạo một endpoint để gửi request inference đến model vừa import.
Hành động cần làm:
- Truy cập tab Inference → Chọn Create Endpoint.
- Điền thông tin:
  - Endpoint Name
  - Region (ví dụ: HCM)
  - Chọn Model Registry đã import ở bước trước
  - Chọn Resource Configuration: loại GPU (g1-standard-4x16-1rtx2080ti, v.v.), dung lượng RAM, CPU phù hợp
  - Replica Configuration: số lượng tối thiểu và tối đa bản sao (để auto-scaling)
- Nhấn Create Endpoint

Sau vài phút khởi tạo, bạn sẽ nhận được một endpoint sẵn sàng phục vụ inference thông qua API.

Yêu Cầu Phần Cứng

LLM Models

Model

RTX 2080

RTX 4090

A40

Note

Thời gian tạo (phút) với RTX 2080

google/gemma-2-9b-it

3 card

1 card

3 card rtx 2080 cần giảm max context length <= 22624

microsoft/Phi-3-medium-4k-instruct

4 card

2 card

1 card

Qwen/Qwen2.5-7B-Instruct

2 card

1 card

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

2 card

1 card

deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

3 card

2 card

1 card

Qwen/Qwen2.5-14B-Instruct

4 card

2 card

1 card

4 card rtx 2080 cần max context length <= 8960 && max_num_seqs <= 256

meta-llama/Llama-3.2-3B

1 card

meta-llama/Meta-Llama-3-8B-Instruct

2 card

1 card

meta-llama/Meta-Llama-3-8B

2 card

1 card

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

2 card

1 card

2 card rtx 2080 cần giảm max context length <= 8192 && max_num_seqs<=256

Qwen/Qwen2.5-0.5B-Instruct

1 card

meta-llama/Llama-3.2-3B-Instruct

1 card

google/gemma-2-2b-it

1 card

meta-llama/Llama-3.2-1B

1 card

microsoft/Phi-3.5-mini-instruct

1 card

1 card rtx 2080 cần giảm max context length <= 18080

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

1 card

meta-llama/Llama-3.2-1B-Instruct

1 card

Qwen/Qwen2.5-1.5B-Instruct

1 card

SeaLLMs/SeaLLMs-v3-1.5B

1 card

SeaLLMs/SeaLLMs-v3-7B

2 card

1 card

2x2080 cần giảm Max context length <= 37984

Embedding Models

Model

RTX 2080

RTX 4090

A40

Thời gian tạo với RTX 2080

sentence-transformers/all-MiniLM-L6-v2

1 card

15 phút

BAAI/bge-m3

1 card

16 phút

intfloat/multilingual-e5-large-instruct

1 card

14 phút

sentence-transformers/paraphrase-multilingual-mpnet-base-v2

1 card

14 phút

Lưu ý cấu hình VRAM

Bạn có thể tra cứu mức sử dụng VRAM của từng model tại: 🔗 https://llm.extractum.io

GPU

VRAM

RTX 2080

10 GB

RTX 4090

24 GB

A40

46 GB

PreviousInference NextCách tính phí

Last updated 3 months ago