B

Bert Base 1024 Biencoder 6M Pairs

Developed by shreyansh26
MosaicMLで事前学習された1024シーケンス長BERTベースの長文コンテキスト用デュアルエンコーダー、768次元の密ベクトル表現を生成
Downloads 24
Release Time : 8/17/2023

Model Overview

このモデルは文や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用可能。1024のシーケンス長をサポートし、6.4Mの文/段落ペアで学習。

Model Features

長文コンテキストサポート
1024のシーケンス長をサポートし、長文処理に適している
効率的なデュアルエンコーダー
デュアルエンコーダーアーキテクチャを採用し、文と段落のベクトル表現を効率的に生成
大規模トレーニングデータ
6.4Mのランダムサンプリングされた文/段落ペアで学習

Model Capabilities

文ベクトル化
段落ベクトル化
意味類似度計算
テキストクラスタリング
意味検索

Use Cases

情報検索
ドキュメント検索
ベクトル類似度を使用したドキュメント検索
複数の検索ベンチマークで良好なパフォーマンス
質問応答システム
質問応答システムにおける段落検索に使用
テキスト分析
テキストクラスタリング
意味類似度に基づくテキストクラスタリング
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase