Sup Simcse Ja Base
S
Sup Simcse Ja Base
Developed by cl-nagoya
教師ありSimCSE手法でファインチューニングされた日本語文埋め込みモデルで、文の類似度計算や特徴抽出タスクに適しています。
Downloads 3,027
Release Time : 10/2/2023
Model Overview
このモデルはBERTアーキテクチャに基づく日本語文埋め込みモデルで、教師ありSimCSE手法を用いてJSNLIデータセットでファインチューニングされており、高品質な文埋め込み表現を生成でき、文の類似度計算や情報検索などの自然言語処理タスクに適用可能です。
Model Features
教師ありSimCSEファインチューニング
教師ありSimCSE手法でファインチューニングされており、文埋め込みの品質と識別性が向上しています。
日本語最適化
日本語BERTモデル(cl-tohoku/bert-base-japanese-v3)を基に構築されており、日本語テキストに特化して最適化されています。
効率的なプーリング戦略
CLSトークンプーリング戦略を採用し、訓練時に追加のMLP層を加えることで、文の表現能力を強化しています。
Model Capabilities
文埋め込み生成
文の類似度計算
日本語テキスト特徴抽出
情報検索
Use Cases
自然言語処理
意味的検索
日本語の意味的検索エンジンを構築するために使用され、クエリ文の意味的類似度に基づいて関連文書を検索します。
テキストクラスタリング
日本語テキストのクラスタリング分析を行い、類似した内容やテーマを発見します。
質問応答システム
質問応答システムのコンポーネントとして、質問と関連知識スニペットをマッチングするために使用されます。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98