Vectorizer.guava
モデル概要
このモデルは多言語文埋め込みモデルで、テキスト段落やクエリを高次元ベクトルに変換し、類似コンテンツの保存や検索に使用できます。英語、フランス語、ドイツ語など11の主要言語に特に最適化されています。
モデル特徴
多言語サポート
11の主要言語をサポートするよう特別に訓練されており、ベースモデルが事前学習した91言語とも互換性があります
効率的な推論
NVIDIA A10 GPUでFP16モードの場合、単一クエリの処理にわずか1ms、32クエリの処理に5msしかかかりません
大文字小文字を区別しない
テキストの大文字小文字やアクセントに影響されず、検索の堅牢性を向上させます
次元削減処理
追加の密層により出力次元を256に削減し、ストレージと検索効率を最適化します
モデル能力
多言語テキストベクトル化
文類似度計算
意味的検索
言語間テキストマッチング
使用事例
情報検索
文書検索システム
意味に基づく文書検索システムを構築し、クエリ内容に最も関連する文書段落を返します
英語データセットでRecall@100が0.616を達成
多言語アプリケーション
言語間コンテンツ推薦
多言語ウェブサイト向けにコンテンツ推薦機能を提供し、異なる言語の類似コンテンツをマッチングします
繁体字中国語msmarcoデータセットでRecall@100が0.738を達成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98