N

Nomic Embed Multimodal 3b

nomic-aiによって開発
Nomic Embed Multimodal 3Bは最先端のマルチモーダル埋め込みモデルで、視覚文書検索タスクに特化しており、統一テキスト-画像エンコーディングをサポートし、Vidore-v2テストで58.8 NDCG@5という卓越した性能を達成しました。
ダウンロード数 3,431
リリース時間 : 3/27/2025

モデル概要

これは30億パラメータのマルチモーダル埋め込みモデルで、視覚文書検索タスクの処理に優れており、複雑な前処理なしで交互に配置されたテキストと画像を直接エンコードできます。

モデル特徴

卓越した性能
Vidore-v2テストで58.8 NDCG@5を達成し、同規模の高密度マルチモーダル埋め込みモデルを全て凌駕
統一テキスト-画像エンコーディング
複雑な前処理なしで交互に配置されたテキストと画像を直接エンコード可能
先進的な訓練方法
同種サンプリングとポジティブサンプル認識型ハードネガティブマイニング技術を採用
多言語サポート
英語、イタリア語、フランス語、ドイツ語、スペイン語をサポート

モデル能力

視覚文書検索
マルチモーダル埋め込み
テキスト-画像共同エンコーディング
多言語文書処理

使用事例

研究分野
学術論文検索
論文内の数式、図表、データテーブルを捕捉
学術コンテンツの検索精度向上
企業アプリケーション
技術文書管理
技術文書内のコードブロック、フローチャート、スクリーンショットをエンコード
技術文書の検索効率向上
財務レポート分析
財務レポート内のトレンドチャート、統計グラフ、数値データを埋め込み
財務データの検索効果改善
電子商取引
製品カタログ検索
製品画像、仕様パラメータ、価格表を処理
製品検索体験の最適化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase