Model Catalog

AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua Model Catalog. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.

Quy trình Inference với Model từ Catalog

Bước 1: Import Model từ Catalog vào Model Registry

  • Mục đích: Đăng ký model vào hệ thống để có thể dùng làm đầu vào cho Inference Endpoint.

  • Hành động cần làm:

    • Truy cập tab Model Registry trong giao diện AI Platform.

    • Chọn Import từ AI Platform Catalog.

    • Tìm kiếm model mong muốn (ví dụ: meta-llama/Meta-Llama-3-8B-Instruct).

Sau khi import thành công, model sẽ xuất hiện trong danh sách Model Registry và có thể sử dụng để triển khai endpoint.

Bước 2: Khởi tạo Inference Endpoint

  • Mục đích: Tạo một endpoint để gửi request inference đến model vừa import.

  • Hành động cần làm:

    • Truy cập tab Inference → Chọn Create Endpoint.

    • Điền thông tin:

      • Endpoint Name

      • Region (ví dụ: HCM)

      • Chọn Model Registry đã import ở bước trước

      • Chọn Resource Configuration: loại GPU (g1-standard-4x16-1rtx2080ti, v.v.), dung lượng RAM, CPU phù hợp

      • Replica Configuration: số lượng tối thiểu và tối đa bản sao (để auto-scaling)

    • Nhấn Create Endpoint

Sau vài phút khởi tạo, bạn sẽ nhận được một endpoint sẵn sàng phục vụ inference thông qua API.

Yêu Cầu Phần Cứng

AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua Model Catalog. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.

LLM Models

Model

RTX 2080

RTX 4090

A40

Note

Thời gian tạo (phút) với RTX 2080

google/gemma-2-9b-it

3 card

1 card

1 card

3 card rtx 2080 cần giảm max context length <= 22624

48

microsoft/Phi-3-medium-4k-instruct

4 card

2 card

1 card

32

Qwen/Qwen2.5-7B-Instruct

2 card

1 card

1 card

27

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

2 card

1 card

1 card

24

deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

3 card

2 card

1 card

24

Qwen/Qwen2.5-14B-Instruct

4 card

2 card

1 card

4 card rtx 2080 cần max context length <= 8960 && max_num_seqs <= 256

24

meta-llama/Llama-3.2-3B

1 card

1 card

1 card

22

meta-llama/Meta-Llama-3-8B-Instruct

2 card

1 card

1 card

21

meta-llama/Meta-Llama-3-8B

2 card

1 card

1 card

20

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

2 card

1 card

1 card

2 card rtx 2080 cần giảm max context length <= 8192 && max_num_seqs<=256

19

Qwen/Qwen2.5-0.5B-Instruct

1 card

1 card

1 card

14

meta-llama/Llama-3.2-3B-Instruct

1 card

1 card

1 card

17

google/gemma-2-2b-it

1 card

1 card

1 card

16

meta-llama/Llama-3.2-1B

1 card

1 card

1 card

16

microsoft/Phi-3.5-mini-instruct

1 card

1 card

1 card

1 card rtx 2080 cần giảm max context length <= 18080

16

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

1 card

1 card

1 card

15

meta-llama/Llama-3.2-1B-Instruct

1 card

1 card

1 card

15

Qwen/Qwen2.5-1.5B-Instruct

1 card

1 card

1 card

15

SeaLLMs/SeaLLMs-v3-1.5B

1 card

1 card

1 card

17

SeaLLMs/SeaLLMs-v3-7B

2 card

1 card

1 card

2x2080 cần giảm Max context length <= 37984

37

Embedding Models

Model

RTX 2080

RTX 4090

A40

Thời gian tạo với RTX 2080

sentence-transformers/all-MiniLM-L6-v2

1 card

1 card

1 card

15 phút

BAAI/bge-m3

1 card

1 card

1 card

16 phút

intfloat/multilingual-e5-large-instruct

1 card

1 card

1 card

14 phút

sentence-transformers/paraphrase-multilingual-mpnet-base-v2

1 card

1 card

1 card

14 phút

Lưu ý cấu hình VRAM

Bạn có thể tra cứu mức sử dụng VRAM của từng model tại: 🔗 https://llm.extractum.io

GPU
VRAM

RTX 2080

10 GB

RTX 4090

24 GB

A40

46 GB

Last updated