🎉 gemma-4-31B-it доступно на SiliconFlow. Попробуйте это СЕЙЧАС.

Модели

Продукты

Цены

Документация

Блог

О

Контакт

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

All

Featured

LLM

Vision

Image

Video

Audio

Serverless

Tencent

Tencent

Text Generation

Hy3-preview

Выпуск: 7 апр. 2026 г.

Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....

Total Context:

131K

Max output:

262K

Input:

0.066

/ M Tokens

Input:

text

/ M Tokens

Output:

0.26

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

Выпуск: 30 июн. 2025 г.

Hunyuan-A13B-Instruct активирует только 13 B из своих 80 B параметров, но при этом соответствует более крупным LLM на основных бенчмарках. Он предлагает гибридное рассуждение: режим с низкой задержкой "быстрый" или режим с высокой Precision "медленный", переключаемый при каждом вызове. Родной контекст 256 K-token позволяет обрабатывать документы книжной длины без деградации. Навыки агента настроены для лидерства в BFCL-v3, τ-Bench и C3-Bench, что делает его отличной автономной основой для помощника. Группированное внимание к запросам плюс многоформатная квантизация обеспечивают легкое по памяти и эффективное использование GPU Inference для реального внедрения, с встроенной мультиязычной поддержкой и надежным согласованием безопасности для приложений корпоративного уровня....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57