Text2vec Base Multilingual
多言語対応のテキストベクトル化モデルで、文類似度計算と特徴抽出タスクに特化
ダウンロード数 17
リリース時間 : 9/20/2023
モデル概要
このモデルは多言語テキスト埋め込みモデルで、異なる言語のテキストをベクトル表現に変換できます。主に文類似度計算、テキスト分類、クラスタリングなどのタスクに使用されます。中国語、英語、ドイツ語、フランス語など多様な言語をサポートしています。
モデル特徴
多言語サポート
中国語、英語、ドイツ語、フランス語など多様な言語のテキストベクトル化をサポート
文類似度計算
異なる文間の意味的類似度計算に最適化
言語横断能力
言語を跨いだテキスト類似度比較タスクを処理可能
効率的な特徴抽出
テキストの意味的特徴表現を迅速に抽出可能
モデル能力
テキストベクトル化
文類似度計算
言語横断テキスト比較
テキスト特徴抽出
テキスト分類
テキストクラスタリング
使用事例
電子商取引
多言語レビュー分類
Amazonの異なる言語の商品レビューを分類
MTEB Amazon多言語レビュー分類タスクで、英語精度33.13%、中国語精度32.52%
レビュー極性分析
商品レビューの感情極性(ポジティブ/ネガティブ)を分析
MTEB Amazon極性分類タスクで精度66.10%を達成
意図認識
多言語意図分類
ユーザークエリの意図カテゴリを識別
MTEB MTOP意図分類タスクで、英語精度62.79%、ドイツ語55.29%
学術研究
論文クラスタリング
学術論文を主題ごとにクラスタリング
MTEB arXiv論文クラスタリングP2PタスクでV測定値32.32%
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98