B

Bert Base 1024 Biencoder 6M Pairs

shreyansh26によって開発
MosaicMLで事前学習された1024シーケンス長BERTベースの長文コンテキスト用デュアルエンコーダー、768次元の密ベクトル表現を生成
ダウンロード数 24
リリース時間 : 8/17/2023

モデル概要

このモデルは文や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用可能。1024のシーケンス長をサポートし、6.4Mの文/段落ペアで学習。

モデル特徴

長文コンテキストサポート
1024のシーケンス長をサポートし、長文処理に適している
効率的なデュアルエンコーダー
デュアルエンコーダーアーキテクチャを採用し、文と段落のベクトル表現を効率的に生成
大規模トレーニングデータ
6.4Mのランダムサンプリングされた文/段落ペアで学習

モデル能力

文ベクトル化
段落ベクトル化
意味類似度計算
テキストクラスタリング
意味検索

使用事例

情報検索
ドキュメント検索
ベクトル類似度を使用したドキュメント検索
複数の検索ベンチマークで良好なパフォーマンス
質問応答システム
質問応答システムにおける段落検索に使用
テキスト分析
テキストクラスタリング
意味類似度に基づくテキストクラスタリング
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase