Thông báo và cập nhật

Tính năng sắp ra mắt

Model Tuning

Tùy chỉnh mô hình AI theo tập dữ liệu riêng của bạn thông qua giao diện đơn giản.

Model as a Service (MaaS)

Đóng gói và public mô hình như một dịch vụ.

Tích hợp trực tiếp với AI Gateway

Triển khai inference và tạo endpoint qua AI Gateway chỉ bằng một click.

Rate Limiting

Cấu hình giới hạn linh hoạt theo IP, user, token hoặc thời điểm trong ngày.

Caching thông minh

Tùy chỉnh thời gian lưu cache và vùng dữ liệu được cache.

Retry & Fallbacks

Tự động retry khi model trả lỗi hoặc timeout.

Guardrails

Kiểm soát đầu ra của mô hình trước khi trả về cho người dùng:

Notebook: Trải nghiệm phát triển linh hoạt hơn

Hỗ trợ nhiều loại môi trường dựng sẵn (pre-built) theo từng framework: PyTorch, TensorFlow,...
Cho phép mount Network Volume trực tiếp vào Notebook, dễ dàng lưu trữ và chia sẻ dữ liệu.

Model Registry: Quản lý mô hình tập trung và chuyên nghiệp

Giao diện khởi tạo đơn giản, hỗ trợ chọn pre-built container (Triton, vLLM).
Hỗ trợ GPU instance đa dạng, auto-scaling với cấu hình replica min/max.
Tích hợp với Model Registry: chỉ cần chọn model là có thể triển khai ngay.

Network Volume: Lưu trữ dữ liệu linh hoạt

Kết nối nhiều nguồn mô hình mạnh mẽ

Hỗ trợ kết nối đến các nhà cung cấp LLM hàng đầu: OpenAI (gpt-4o, gpt-3.5-turbo...); Anthropic (claude-3-opus, haiku, sonnet); Google Gemini (gemini-1.5, 2.0...); DeepSeek (deepseek-chat, reasoner)

Cấu hình dễ dàng, triển khai nhanh chóng

Khởi tạo AI Gateway chỉ trong vài bước: đặt tên, chọn model, cấu hình rate limit, tạo token.

Tính năng mới: Token Management & Rate Limiting

Giao diện hiển thị real-time logs và thống kê theo thời gian: tổng số request, tỉ lệ lỗi, latency...
Hỗ trợ lọc theo endpoint, token, status code.

Last updated 1 month ago