deepseek-vl2

約deepseek-vl2

DeepSeek-VL2は、DeepSeekMoE-27Bに基づいて開発された混合専門家(MoE)ビジョン-言語モデルであり、疎活性化MoEアーキテクチャを採用して4.5Bの活性パラメータのみで優れたパフォーマンスを達成します。 このModelは、視覚的質問応答、光学文字認識、文書/テーブル/チャート理解、視覚的グラウンディングなど、さまざまなタスクで優れています。 既存のオープンソースの密結合モデルおよびMoEベースのモデルと比較して、同等または最先端のパフォーマンスを同じまたは少ない活性パラメータで示します。

DeepSeek-VL2の高度なVision-Language機能が、様々な業種において複雑な現実世界の問題をどのように解決するかを探求します。

知的文書処理

OCRと視覚的理解を活用して、請求書、契約書、レポートなどの多様な文書からデータ抽出と分析を自動化します。

ユースケース例:

"会計事務所向けにスキャンした財務諸表から重要な数値を自動的に抽出し、データベースに入力することで、手動データ入力を80%削減します。"

ビジュアルコンテンツ分析

画像やVideo内のオブジェクト、シーン、または不適切なコンテンツを識別および分類して、モデレーション、検索、または分析を行います。

ユースケース例:

"プロhibited itemsやユーザーがアップロードしたeコマース製品のImageにおける敏感なコンテンツをフラグし、プラットフォームガイドラインおよびブランドの安全性を確保します。"

自動Imageキャプション生成

視覚障がい者へのアクセス向上およびコンテンツSEOの改善を図るために、Imageに対する詳細かつコンテキストに即した説明を生成します。

ユースケース例:

"複雑な医療MRIスキャンに対して豊かなTextual descriptionを提供し、医師や患者に対する所見の説明やWeb imageのためのalt-textを生成します。"

eコマース製品強化

Improved search、推薦、および在庫管理のために、製品Imageに属性、ブランド、およびカテゴリーを自動的にタグ付けします。

ユースケース例:

"衣料品のImageを分析し、そのスタイル、色、素材、ブランドをロゴから識別し、オンラインカタログシステムの製品メタデータに入力します。"

メタデータ

作成する

2024/12/13

ライセンス

DEEPSEEK MODEL LICENSE

プロバイダー

DeepSeek

ハギングフェイス

仕様

Deprecated

建築

キャリブレートされた

いいえ

専門家の混合

はい

合計パラメータ

27B

アクティブ化されたパラメータ

4.5B

推論

いいえ

Precision

FP8

コンテキスト長

4K

Max Tokens

4K

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?