# Model Catalog

AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua **Model Catalog**. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.

## Quy trình Inference với Model từ Catalog

#### **Bước 1: Import Model từ Catalog vào Model Registry**

* **Mục đích**: Đăng ký model vào hệ thống để có thể dùng làm đầu vào cho Inference Endpoint.
* **Hành động cần làm**:
  * Truy cập tab **Model Registry** trong giao diện AI Platform.
  * Chọn **Import từ AI Platform Catalog**.
  * Tìm kiếm model mong muốn (ví dụ: `meta-llama/Meta-Llama-3-8B-Instruct`).

> Sau khi import thành công, model sẽ xuất hiện trong danh sách Model Registry và có thể sử dụng để triển khai endpoint.

#### **Bước 2: Khởi tạo Inference Endpoint**

* **Mục đích**: Tạo một endpoint để gửi request inference đến model vừa import.
* **Hành động cần làm**:
  * Truy cập tab **Inference** → Chọn **Create Endpoint**.
  * Điền thông tin:
    * **Endpoint Name**
    * **Region** (ví dụ: HCM)
    * **Chọn Model Registry** đã import ở bước trước
    * **Chọn Resource Configuration**: loại GPU (g1-standard-4x16-1rtx2080ti, v.v.), dung lượng RAM, CPU phù hợp
    * **Replica Configuration**: số lượng tối thiểu và tối đa bản sao (để auto-scaling)
  * Nhấn **Create Endpoint**

> Sau vài phút khởi tạo, bạn sẽ nhận được một endpoint sẵn sàng phục vụ inference thông qua API.

## Yêu Cầu Phần Cứng

AI Platform hỗ trợ người dùng triển khai nhanh các Large Language Model (LLM) và Embeding Model phổ biến thông qua **Model Catalog**. Mỗi model yêu cầu cấu hình phần cứng phù hợp để đảm bảo hiệu năng và độ ổn định khi phục vụ inference.

### LLM Models

<table data-header-hidden><thead><tr><th width="122"></th><th width="109"></th><th width="106"></th><th width="97"></th><th width="229"></th><th></th></tr></thead><tbody><tr><td><strong>Model</strong></td><td><strong>RTX 2080</strong></td><td><strong>RTX 4090</strong></td><td><strong>A40</strong></td><td><strong>Note</strong></td><td><strong>Thời gian tạo (phút) với RTX 2080</strong></td></tr><tr><td>google/gemma-2-9b-it</td><td>3 card</td><td>1 card</td><td>1 card</td><td>3 card rtx 2080 cần giảm max context length &#x3C;= 22624</td><td>48</td></tr><tr><td>microsoft/Phi-3-medium-4k-instruct</td><td>4 card</td><td>2 card</td><td>1 card</td><td></td><td>32</td></tr><tr><td>Qwen/Qwen2.5-7B-Instruct</td><td>2 card</td><td>1 card</td><td>1 card</td><td></td><td>27</td></tr><tr><td>deepseek-ai/DeepSeek-R1-Distill-Llama-8B</td><td>2 card</td><td>1 card</td><td>1 card</td><td></td><td>24</td></tr><tr><td>deepseek-ai/DeepSeek-R1-Distill-Qwen-14B</td><td>3 card</td><td>2 card</td><td>1 card</td><td></td><td>24</td></tr><tr><td>Qwen/Qwen2.5-14B-Instruct</td><td>4 card</td><td>2 card</td><td>1 card</td><td>4 card rtx 2080 cần max context length &#x3C;= 8960 &#x26;&#x26; max_num_seqs &#x3C;= 256</td><td>24</td></tr><tr><td>meta-llama/Llama-3.2-3B</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>22</td></tr><tr><td>meta-llama/Meta-Llama-3-8B-Instruct</td><td>2 card</td><td>1 card</td><td>1 card</td><td></td><td>21</td></tr><tr><td>meta-llama/Meta-Llama-3-8B</td><td>2 card</td><td>1 card</td><td>1 card</td><td></td><td>20</td></tr><tr><td>deepseek-ai/DeepSeek-R1-Distill-Qwen-7B</td><td>2 card</td><td>1 card</td><td>1 card</td><td>2 card rtx 2080 cần giảm max context length &#x3C;= 8192 &#x26;&#x26; max_num_seqs&#x3C;=256</td><td>19</td></tr><tr><td>Qwen/Qwen2.5-0.5B-Instruct</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>14</td></tr><tr><td>meta-llama/Llama-3.2-3B-Instruct</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>17</td></tr><tr><td>google/gemma-2-2b-it</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>16</td></tr><tr><td>meta-llama/Llama-3.2-1B</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>16</td></tr><tr><td>microsoft/Phi-3.5-mini-instruct</td><td>1 card</td><td>1 card</td><td>1 card</td><td>1 card rtx 2080 cần giảm max context length &#x3C;= 18080</td><td>16</td></tr><tr><td>deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>15</td></tr><tr><td>meta-llama/Llama-3.2-1B-Instruct</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>15</td></tr><tr><td>Qwen/Qwen2.5-1.5B-Instruct</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>15</td></tr><tr><td>SeaLLMs/SeaLLMs-v3-1.5B</td><td>1 card</td><td>1 card</td><td>1 card</td><td></td><td>17</td></tr><tr><td>SeaLLMs/SeaLLMs-v3-7B</td><td>2 card</td><td>1 card</td><td>1 card</td><td>2x2080 cần giảm Max context length &#x3C;= 37984</td><td>37</td></tr></tbody></table>

### Embedding Models

|                                                             |              |              |         |                                |
| ----------------------------------------------------------- | ------------ | ------------ | ------- | ------------------------------ |
| **Model**                                                   | **RTX 2080** | **RTX 4090** | **A40** | **Thời gian tạo với RTX 2080** |
| sentence-transformers/all-MiniLM-L6-v2                      | 1 card       | 1 card       | 1 card  | 15 phút                        |
| BAAI/bge-m3                                                 | 1 card       | 1 card       | 1 card  | 16 phút                        |
| intfloat/multilingual-e5-large-instruct                     | 1 card       | 1 card       | 1 card  | 14 phút                        |
| sentence-transformers/paraphrase-multilingual-mpnet-base-v2 | 1 card       | 1 card       | 1 card  | 14 phút                        |

{% hint style="info" %}
**Lưu ý cấu hình VRAM**

Bạn có thể tra cứu mức sử dụng VRAM của từng model tại:\
🔗 <https://llm.extractum.io>
{% endhint %}

| GPU      | VRAM  |
| -------- | ----- |
| RTX 2080 | 10 GB |
| RTX 4090 | 24 GB |
| A40      | 46 GB |


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.vngcloud.vn/vng-cloud-document/vn/ai-stack/ai-platform/model-catalog.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
