S

Sgpt Bloom 7b1 Msmarco

bigscienceによって開発
SGPT-Bloom-7b1-msmarco はBLOOMアーキテクチャに基づく文変換モデルで、主に文類似度計算と特徴抽出タスクに使用されます。
ダウンロード数 31
リリース時間 : 8/26/2022

モデル概要

このモデルはBLOOM-7b1アーキテクチャに基づいており、文類似度と特徴抽出タスクに特化して最適化されています。MTEB (Massive Text Embedding Benchmark)の様々なタスク(分類、クラスタリング、検索、バイリンガルテキストマイニングなど)で評価されています。

モデル特徴

多言語サポート
英語、ドイツ語、スペイン語、フランス語、日本語、中国語など、複数言語の処理をサポートしています。
多機能タスク処理
文類似度計算、特徴抽出、分類、クラスタリング、検索など、様々な自然言語処理タスクを処理できます。
大規模ベンチマークテスト
MTEB (Massive Text Embedding Benchmark)の様々なタスクで包括的な評価が行われています。

モデル能力

文類似度計算
特徴抽出
テキスト分類
テキストクラスタリング
情報検索
バイリンガルテキストマイニング

使用事例

電子商取引
製品レビュー分類
AmazonなどのECプラットフォームの製品レビューを分類・分析します。
MTEB Amazonレビュー分類タスクでは、英語精度33.86%、ドイツ語29.70%、スペイン語35.97%、フランス語35.92%、日本語27.64%、中国語32.63%を達成
反事実分類
ECプラットフォーム上の反事実レビューを識別・分析します。
MTEB Amazon反事実分類タスクでは、英語精度68.06%、ドイツ語61.35%、日本語58.23%を達成
学術研究
学術論文クラスタリング
arXivとBiorxivの学術論文をクラスタリング分析します。
ArxivクラスタリングP2PタスクでV-measure44.59、S2Sタスクで38.03;BiorxivクラスタリングP2PタスクでV-measure36.03、S2Sタスクで32.48を達成
質問応答システム
重複質問識別
Q&Aプラットフォーム上の重複質問を識別します。
AskUbuntu重複質問再ランキングタスクで、平均精度59.97%、平均逆順位73.18%を達成
クロスランゲージ情報検索
バイリンガルテキストアライメント
異なる言語間の並列テキストを識別します。
BUCCバイリンガルテキストマイニングタスクで、独-英精度54.28%、仏-英97.34%、露-英46.05%、中-英98.10%を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase