模型

产品

定价

文档

博客

关于

联系

🎉 Kimi-K3 可以在 SiliconFlow 上使用。现在就尝试吧。

🎉 Kimi-K3 可以在 SiliconFlow 上使用。现在就尝试吧。

模型

Qwen3-Omni-30B-A3B-Captioner

Qwen3-Omni-30B-A3B-Captioner

API 参考

关于Qwen3-Omni-30B-A3B-Captioner

Qwen3-Omni-30B-A3B-Captioner 是阿里巴巴 Qwen 团队发布的一个 Vision-Language 模型（VLM），属于 Qwen3 系列。它专为生成高质量、详细和准确的 Image 描述而设计。基于具有 30B 总参数的专家混合（MoE）架构，该模型能够深入理解 Image 内容并将其翻译为丰富的自然语言 Text。

用例

探索Qwen3-Omni-30B-A3B-Captioner的高级Audio分析如何将原始声音转化为可操作的详细见解。

高级媒体索引

自动生成丰富的、可搜索的字幕，用于Audio和Video档案，提升内容可发现性和管理。

用例示例：

"索引了大量历史广播库，识别特定的演讲者、背景音乐和环境声音，实现精确的内容检索。"

可访问的Audio内容

提供详尽的、上下文相关的Audio内容字幕，不仅仅局限于简单转录，还包括情感提示、声音事件和环境上下文，以提高可访问性和分析能力。

用例示例：

"为纪录片生成全面的字幕，不仅描述对话，还描述音轨传达的情绪和具体环境声音，帮助听障观众。"

主动安全监控

分析实时Audio馈送，以检测并描述关键事件、异常或情感变化，使安全或监测应用中能够主动响应。

用例示例：

"监控公共场所的Audio，准确识别突发的激烈争论、打碎玻璃和儿童哭泣声，通知安全人员潜在事件。"

客户互动分析

自动分析客户服务电话以提取详细总结，识别情绪，并根据语音细微差别和背景Audio事件分类问题。

用例示例：

"处理了数千个客户支持电话，定位了客户沮丧的实例（声音语调）、产品故障声和常见投诉主题，以提高服务质量。"

创意音效设计与策划

通过自动编目和描述音频资产的详细信息，方便声音设计师和音乐制作人，提高内容发现和使用效率。

用例示例：

"为游戏工作室分类了大规模音效库，根据乐器、情绪、节奏和具体声音事件（如“管弦乐高潮与雷声”）描述每个片段，使资产检索变得高效。"

元数据

创建

2025年10月4日

许可证

-

提供者

Qwen

HuggingFace

Qwen3-Omni-30B-A3B-Captioner

规格

州

Deprecated

建筑

Mixture of Experts

校准的

是

专家混合

是

总参数

30B

激活的参数

3B

推理

不

精度

FP8

上下文长度

66K

最大输出长度

66K

与其他模型进行比较

看看这个模型与其他模型相比表现如何。

Qwen

chat

Qwen3-VL-32B-Instruct

发行日期：2025年10月21日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

发行日期：2025年10月21日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

发行日期：2025年10月15日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Thinking

发行日期：2025年10月15日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.18

/ M Tokens

Output:

$

2.0

/ M Tokens

Qwen

chat

Qwen3-VL-235B-A22B-Instruct

发行日期：2025年10月4日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-235B-A22B-Thinking

发行日期：2025年10月4日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Instruct

发行日期：2025年10月5日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Thinking

发行日期：2025年10月11日

上下文长度：

262K

最大输出长度：

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

image-to-video

Wan2.2-I2V-A14B

发行日期：2025年8月13日

$

0.29

/ Video

准备好加速您的人工智能开发吗？

准备好加速您的人工智能开发吗？

准备好加速您的人工智能开发吗？

页面

模型S

产品

© 2025 SiliconFlow

·

页面

模型S

产品

© 2025 SiliconFlow

·

页面

模型S

产品

© 2025 SiliconFlow

·