Koe5
KoE5は、intfloat/multilingual-e5-largeをベースに微調整された韓国語テキスト検索モデルで、韓国語テキスト検索で卓越した性能を発揮します。
ダウンロード数 10.63k
リリース時間 : 9/24/2024
モデル概要
KoE5は、intfloat/multilingual-e5-largeモデルをko-triplet-v1.0データセットで微調整した韓国語テキスト検索モデルで、主に韓国語と英語のテキスト特徴抽出と検索タスクに使用されます。
モデル特徴
韓国語最適化
韓国語テキスト検索に特化して最適化されており、韓国語検索タスクで優れた性能を発揮します。
多言語対応
韓国語と英語のテキスト処理を同時にサポートします。
効率的な検索
先進的なE5アーキテクチャに基づいて、効率的なテキスト検索能力を提供します。
大規模訓練データ
70万件以上の韓国語クエリ - ドキュメント - 困難な負例データペアを使用して訓練されています。
モデル能力
テキスト特徴抽出
意味的類似度計算
異言語検索
ドキュメント検索
使用事例
情報検索
オープンドメイン質問応答
韓国語のオープンドメイン質問応答システムの段落検索に使用されます。
Ko-StrategyQAデータセットで良好な結果を示します。
法律文書検索
大量の法律文書から関連する段落を検索します。
法律分野のAutoRAGRetrievalデータセットで優れた性能を発揮します。
意味分析
意味的類似度計算
2つの韓国語テキストの意味的類似度を計算します。
テキストマッチング、重複排除などのタスクに使用できます。
🚀 🔎 KoE5
KoE5は、高度な検索能力を備えたモデルです。韓国語テキスト検索において卓越した性能を発揮しています。
詳細については、KUREリポジトリをご覧ください。
🚀 クイックスタート
KoE5は、韓国語テキスト検索において優れた性能を発揮するモデルです。以下の手順で使用を開始できます。
✨ 主な機能
- 高度な韓国語テキスト検索能力を備えています。
- 多言語モデルを基に微調整されているため、韓国語以外の言語にも対応しています。
📦 インストール
依存関係のインストール
まず、Sentence Transformersライブラリをインストールします。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
次に、このモデルをロードして推論を実行することができます。
from sentence_transformers import SentenceTransformer
# 🤗 Hubからダウンロード
model = SentenceTransformer("nlpai-lab/KoE5")
# 推論を実行
sentences = [
'query: 헌법과 법원조직법은 어떤 방식을 통해 기본권 보장 등의 다양한 법적 모색을 가능하게 했어',
'passage: 4. 시사점과 개선방향 앞서 살펴본 바와 같이 우리 헌법과 「법원조직 법」은 대법원 구성을 다양화하여 기본권 보장과 민주주의 확립에 있어 다각적인 법적 모색을 가능하게 하는 것을 근본 규범으로 하고 있다. 더욱이 합의체로서의 대법원 원리를 채택하고 있는 것 역시 그 구성의 다양성을 요청하는 것으로 해석된다. 이와 같은 관점에서 볼 때 현직 법원장급 고위법관을 중심으로 대법원을 구성하는 관행은 개선할 필요가 있는 것으로 보인다.',
'passage: □ 연방헌법재판소는 2001년 1월 24일 5:3의 다수견해로 「법원조직법」 제169조 제2문이 헌법에 합치된다는 판결을 내렸음 ○ 5인의 다수 재판관은 소송관계인의 인격권 보호, 공정한 절차의 보장과 방해받지 않는 법과 진실 발견 등을 근거로 하여 텔레비전 촬영에 대한 절대적인 금지를 헌법에 합치하는 것으로 보았음 ○ 그러나 나머지 3인의 재판관은 행정법원의 소송절차는 특별한 인격권 보호의 이익도 없으며, 텔레비전 공개주의로 인해 법과 진실 발견의 과정이 언제나 위태롭게 되는 것은 아니라면서 반대의견을 제시함 ○ 왜냐하면 행정법원의 소송절차에서는 소송당사자가 개인적으로 직접 심리에 참석하기보다는 변호사가 참석하는 경우가 많으며, 심리대상도 사실문제가 아닌 법률문제가 대부분이기 때문이라는 것임 □ 한편, 연방헌법재판소는 「연방헌법재판소법」(Bundesverfassungsgerichtsgesetz: BVerfGG) 제17a조에 따라 제한적이나마 재판에 대한 방송을 허용하고 있음 ○ 「연방헌법재판소법」 제17조에서 「법원조직법」 제14절 내지 제16절의 규정을 준용하도록 하고 있지만, 녹음이나 촬영을 통한 재판공개와 관련하여서는 「법원조직법」과 다른 내용을 규정하고 있음',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# 埋め込みベクトルの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6721, 0.3897],
# [0.6721, 1.0000, 0.3740],
# [0.3897, 0.3740, 1.0000]])
📚 ドキュメント
モデルバージョン
モデル名 | 次元数 | シーケンス長 | 説明 |
---|---|---|---|
KURE-v1 | 1024 | 8192 | BAAI/bge-m3を韓国語データでCachedGISTEmbedLossを用いて微調整したモデル |
KoE5 | 1024 | 512 | intfloat/multilingual-e5-largeをko-triplet-v1.0でCachedMultipleNegativesRankingLossを用いて微調整したモデル |
モデルの説明
これは🤗 transformersモデルのモデルカードで、Hubに公開されています。
- 開発者: NLP&AI Lab
- 言語: 韓国語、英語
- ライセンス: MIT
- 微調整元のモデル: intfloat/multilingual-e5-large
- 微調整に使用したデータセット: ko-triplet-v1.0
🔧 技術詳細
学習データ
- ko-triplet-v1.0
- 韓国語のクエリ - ドキュメント - ハードネガティブデータペア(オープンデータ)
- 合計約700,000件以上のサンプルを使用
学習手順
- 損失関数: sentence-transformersの**CachedMultipleNegativesRankingLoss** を使用
- バッチサイズ: 512
- 学習率: 1e-05
- エポック数: 1
評価
評価指標
- Recall、Precision、NDCG、F1
ベンチマークデータセット
- Ko-StrategyQA: 韓国語ODQAマルチホップ検索データセット(StrategyQAの翻訳版)
- AutoRAGRetrieval: 金融、公共、医療、法律、コマースの5つの分野について、pdfをパースして構成された韓国語ドキュメント検索データセット
- MIRACLRetrieval: Wikipediaをベースにした韓国語ドキュメント検索データセット
- PublicHealthQA: 医療および公衆衛生ドメインに関する韓国語ドキュメント検索データセット
- BelebeleRetrieval: FLORES-200をベースにした韓国語ドキュメント検索データセット
- MrTidyRetrieval: Wikipediaをベースにした韓国語ドキュメント検索データセット
- MultiLongDocRetrieval: 様々なドメインの韓国語長文検索データセット
- XPQARetrieval: 様々なドメインの韓国語ドキュメント検索データセット
結果
以下は、すべてのモデルのすべてのベンチマークデータセットに対する平均結果です。詳細な結果はKURE Githubで確認できます。
Top-k 1
モデル名 | Average Recall_top1 | Average Precision_top1 | Average NDCG_top1 | Average F1_top1 |
---|---|---|---|---|
nlpai-lab/KURE-v1 | 0.52640 | 0.60551 | 0.60551 | 0.55784 |
dragonkue/BGE-m3-ko | 0.52361 | 0.60394 | 0.60394 | 0.55535 |
BAAI/bge-m3 | 0.51778 | 0.59846 | 0.59846 | 0.54998 |
Snowflake/snowflake-arctic-embed-l-v2.0 | 0.51246 | 0.59384 | 0.59384 | 0.54489 |
nlpai-lab/KoE5 | 0.50157 | 0.57790 | 0.57790 | 0.53178 |
intfloat/multilingual-e5-large | 0.50052 | 0.57727 | 0.57727 | 0.53122 |
jinaai/jina-embeddings-v3 | 0.48287 | 0.56068 | 0.56068 | 0.51361 |
BAAI/bge-multilingual-gemma2 | 0.47904 | 0.55472 | 0.55472 | 0.50916 |
intfloat/multilingual-e5-large-instruct | 0.47842 | 0.55435 | 0.55435 | 0.50826 |
intfloat/multilingual-e5-base | 0.46950 | 0.54490 | 0.54490 | 0.49947 |
intfloat/e5-mistral-7b-instruct | 0.46772 | 0.54394 | 0.54394 | 0.49781 |
Alibaba-NLP/gte-multilingual-base | 0.46469 | 0.53744 | 0.53744 | 0.49353 |
Alibaba-NLP/gte-Qwen2-7B-instruct | 0.46633 | 0.53625 | 0.53625 | 0.49429 |
openai/text-embedding-3-large | 0.44884 | 0.51688 | 0.51688 | 0.47572 |
Salesforce/SFR-Embedding-2_R | 0.43748 | 0.50815 | 0.50815 | 0.46504 |
upskyy/bge-m3-korean | 0.43125 | 0.50245 | 0.50245 | 0.45945 |
jhgan/ko-sroberta-multitask | 0.33788 | 0.38497 | 0.38497 | 0.35678 |
Top-k 3
モデル名 | Average Recall_top1 | Average Precision_top1 | Average NDCG_top1 | Average F1_top1 |
---|---|---|---|---|
nlpai-lab/KURE-v1 | 0.68678 | 0.28711 | 0.65538 | 0.39835 |
dragonkue/BGE-m3-ko | 0.67834 | 0.28385 | 0.64950 | 0.39378 |
BAAI/bge-m3 | 0.67526 | 0.28374 | 0.64556 | 0.39291 |
Snowflake/snowflake-arctic-embed-l-v2.0 | 0.67128 | 0.28193 | 0.64042 | 0.39072 |
intfloat/multilingual-e5-large | 0.65807 | 0.27777 | 0.62822 | 0.38423 |
nlpai-lab/KoE5 | 0.65174 | 0.27329 | 0.62369 | 0.37882 |
BAAI/bge-multilingual-gemma2 | 0.64415 | 0.27416 | 0.61105 | 0.37782 |
jinaai/jina-embeddings-v3 | 0.64116 | 0.27165 | 0.60954 | 0.37511 |
intfloat/multilingual-e5-large-instruct | 0.64353 | 0.27040 | 0.60790 | 0.37453 |
Alibaba-NLP/gte-multilingual-base | 0.63744 | 0.26404 | 0.59695 | 0.36764 |
Alibaba-NLP/gte-Qwen2-7B-instruct | 0.63163 | 0.25937 | 0.59237 | 0.36263 |
intfloat/multilingual-e5-base | 0.62099 | 0.26144 | 0.59179 | 0.36203 |
intfloat/e5-mistral-7b-instruct | 0.62087 | 0.26144 | 0.58917 | 0.36188 |
openai/text-embedding-3-large | 0.61035 | 0.25356 | 0.57329 | 0.35270 |
Salesforce/SFR-Embedding-2_R | 0.60001 | 0.25253 | 0.56346 | 0.34952 |
upskyy/bge-m3-korean | 0.59215 | 0.25076 | 0.55722 | 0.34623 |
jhgan/ko-sroberta-multitask | 0.46930 | 0.18994 | 0.43293 | 0.26696 |
Top-k 5
モデル名 | Average Recall_top1 | Average Precision_top1 | Average NDCG_top1 | Average F1_top1 |
---|---|---|---|---|
nlpai-lab/KURE-v1 | 0.73851 | 0.19130 | 0.67479 | 0.29903 |
dragonkue/BGE-m3-ko | 0.72517 | 0.18799 | 0.66692 | 0.29401 |
BAAI/bge-m3 | 0.72954 | 0.18975 | 0.66615 | 0.29632 |
Snowflake/snowflake-arctic-embed-l-v2.0 | 0.72962 | 0.18875 | 0.66236 | 0.29542 |
nlpai-lab/KoE5 | 0.70820 | 0.18287 | 0.64499 | 0.28628 |
intfloat/multilingual-e5-large | 0.70124 | 0.18316 | 0.64402 | 0.28588 |
BAAI/bge-multilingual-gemma2 | 0.70258 | 0.18556 | 0.63338 | 0.28851 |
jinaai/jina-embeddings-v3 | 0.69933 | 0.18256 | 0.63133 | 0.28505 |
intfloat/multilingual-e5-large-instruct | 0.69018 | 0.17838 | 0.62486 | 0.27933 |
Alibaba-NLP/gte-multilingual-base | 0.69365 | 0.17789 | 0.61896 | 0.27879 |
intfloat/multilingual-e5-base | 0.67250 | 0.17406 | 0.61119 | 0.27247 |
Alibaba-NLP/gte-Qwen2-7B-instruct | 0.67447 | 0.17114 | 0.60952 | 0.26943 |
intfloat/e5-mistral-7b-instruct | 0.67449 | 0.17484 | 0.60935 | 0.27349 |
openai/text-embedding-3-large | 0.66365 | 0.17004 | 0.59389 | 0.26677 |
Salesforce/SFR-Embedding-2_R | 0.65622 | 0.17018 | 0.58494 | 0.26612 |
upskyy/bge-m3-korean | 0.65477 | 0.17015 | 0.58073 | 0.26589 |
jhgan/ko-sroberta-multitask | 0.53136 | 0.13264 | 0.45879 | 0.20976 |
Top-k 10
モデル名 | Average Recall_top1 | Average Precision_top1 | Average NDCG_top1 | Average F1_top1 |
---|---|---|---|---|
nlpai-lab/KURE-v1 | 0.79682 | 0.10624 | 0.69473 | 0.18524 |
dragonkue/BGE-m3-ko | 0.78450 | 0.10492 | 0.68748 | 0.18288 |
BAAI/bge-m3 | 0.79195 | 0.10592 | 0.68723 | 0.18456 |
Snowflake/snowflake-arctic-embed-l-v2.0 | 0.78669 | 0.10462 | 0.68189 | 0.18260 |
intfloat/multilingual-e5-large | 0.75902 | 0.10147 | 0.66370 | 0.17693 |
nlpai-lab/KoE5 | 0.75296 | 0.09937 | 0.66012 | 0.17369 |
BAAI/bge-multilingual-gemma2 | 0.76153 | 0.10364 | 0.65330 | 0.18003 |
jinaai/jina-embeddings-v3 | 0.76277 | 0.10240 | 0.65290 | 0.17843 |
intfloat/multilingual-e5-large-instruct | 0.74851 | 0.09888 | 0.64451 | 0.17283 |
Alibaba-NLP/gte-multilingual-base | 0.75631 | 0.09938 | 0.64025 | 0.17363 |
Alibaba-NLP/gte-Qwen2-7B-instruct | 0.74092 | 0.09607 | 0.63258 | 0.16847 |
intfloat/multilingual-e5-base | 0.73512 | 0.09717 | 0.63216 | 0.16977 |
intfloat/e5-mistral-7b-instruct | 0.73795 | 0.09777 | 0.63076 | 0.17078 |
openai/text-embedding-3-large | 0.72946 | 0.09571 | 0.61670 | 0.16739 |
Salesforce/SFR-Embedding-2_R | 0.71662 | 0.09546 | 0.60589 | 0.16651 |
upskyy/bge-m3-korean | 0.71895 | 0.09583 | 0.60258 | 0.16712 |
jhgan/ko-sroberta-multitask | 0.61225 | 0.07826 | 0.48687 | 0.13757 |
FAQ
- 入力テキストに「query: 」と「passage: 」の接頭辞を付ける必要がありますか? はい、このモデルはそのように学習されているため、付けない場合、性能が低下します。
以下はいくつかの経験則です。
- オープンQAにおけるパッセージ検索、即時情報検索などの非対称タスクでは、それぞれ「query: 」と「passage: 」を使用します。
- 意味的類似度、バイテキストマイニング、パラフレーズ検索などの対称タスクでは、「query: 」の接頭辞を使用します。
- 線形プロービング分類、クラスタリングなど、埋め込みを特徴量として使用する場合は、「query: 」の接頭辞を使用します。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
もし当社の論文やモデルが役に立った場合は、以下のように引用していただけると幸いです。
@misc{KURE,
publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
year = {2024},
url = {https://github.com/nlpai-lab/KURE}
},
@misc{KoE5,
author = {NLP & AI Lab and Human-Inspired AI research},
title = {KoE5: A New Dataset and Model for Improving Korean Embedding Performance},
year = {2024},
publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
journal = {GitHub repository},
howpublished = {\url{https://github.com/nlpai-lab/KoE5}},
}
制限事項
長いテキストは最大512トークンに切り捨てられます。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98