Modernbert Base Hu V3
基於ModernBERT微調的匈牙利語句子嵌入模型,用於語義相似度計算和文本特徵提取
下載量 20
發布時間 : 1/20/2025
模型概述
該模型是基於nomic-ai/modernbert-embed-base微調的句子轉換器,專門針對匈牙利語優化,可將文本映射到768維向量空間,適用於語義文本相似度、語義搜索、文本分類等任務
模型特點
匈牙利語優化
專門針對匈牙利語進行微調,在匈牙利語文本處理任務中表現優異
長文本支持
支持最大8192個標記的序列長度,適合處理長文檔
高效語義編碼
將句子和段落映射到768維稠密向量空間,保留豐富語義信息
模型能力
語義文本相似度計算
語義搜索
複述挖掘
文本分類
文本聚類
使用案例
信息檢索
相似文檔檢索
在文檔庫中查找語義相似的文檔
問答系統
候選答案排序
根據問題語義對候選答案進行相關性排序
內容審核
重複內容檢測
識別不同表述但語義相同的內容
🚀 ModernBERT-base
這是一個基於 sentence-transformers 的模型,它在 JSON 數據集上對 nomic-ai/modernbert-embed-base 進行了微調。該模型可以將句子和段落映射到 768 維的密集向量空間,可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。
✨ 主要特性
- 能夠將文本映射到 768 維的向量空間,便於進行語義分析。
- 適用於多種自然語言處理任務,如語義相似度計算、搜索、分類和聚類等。
📦 安裝指南
首先安裝 Sentence Transformers 庫:
pip install -U sentence-transformers
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
# 從 🤗 Hub 下載模型
model = SentenceTransformer("karsar/ModernBERT-base-hu_v3")
# 進行推理
sentences = [
'a sellő szindróma genetikai okai',
'Rfcamat válasza. Bizalom szavazat: 459. Ha sellő-szindrómásod van, akkor vele születtél volna, és inkább hasadt volna a lábad, vagy mindkettőt amputálták volna. A sellőszindróma oka a test alsó részének (lábainak) oxigén- és tápanyaghiánya a keringési rendszer problémája miatt.További információ az alábbi linken.a sellő szindrómát nem kaphatja meg. Ez egy veleszületett állapot, ami azt jelenti, hogy vele kell születned ahhoz, hogy meglegyen. A betegségben szenvedő személy nem sellő, csak arról van szó, hogy a lábai összeforrtak. Számos belső szerv hiányzik vagy deformálódott.',
'1 A sellő-szindróma annak a következménye is lehet, hogy az anya sugárzásnak és más környezeti hatásoknak van kitéve, amelyek a magzat normális fejlődésében részt vevő gének mutációit okozták. 2 Spontán mutációk vagy a magzatban természetesen előforduló mutációk is okozhatták a születési rendellenességet. Kutatásokra van szükség ahhoz, hogy kiderítsük a sellőszindróma genetikai, biológiai vagy környezeti okait. A sellő szindróma kezelése. Ha a két láb csak a bőrön keresztül olvadt össze, és a három fő csont teljesen és megfelelően kialakult, műtétet alkalmaznak a két láb szétválasztására.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 詳細文檔
模型詳情
模型描述
屬性 | 詳情 |
---|---|
模型類型 | 句子轉換器 |
基礎模型 | nomic-ai/modernbert-embed-base |
最大序列長度 | 8192 個標記 |
輸出維度 | 768 維 |
相似度函數 | 餘弦相似度 |
訓練數據集 | json |
語言 | 匈牙利語 |
許可證 | apache-2.0 |
模型來源
- 文檔:Sentence Transformers 文檔
- 倉庫:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Sentence Transformers
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
評估
指標
三元組
- 數據集:
all-triplet-dev
和all-triplet-test
- 評估方法:使用
TripletEvaluator
進行評估
指標 | all-triplet-dev | all-triplet-test |
---|---|---|
餘弦準確率 | 0.799 | 0.8031 |
訓練詳情
訓練數據集
json
- 數據集:json
- 大小:1,207,229 個訓練樣本
- 列:
anchor
、positive
和negative
- 基於前 1000 個樣本的近似統計信息:
anchor positive negative 類型 字符串 字符串 字符串 詳情 - 最小值:5 個標記
- 平均值:27.76 個標記
- 最大值:159 個標記
- 最小值:6 個標記
- 平均值:106.31 個標記
- 最大值:449 個標記
- 最小值:6 個標記
- 平均值:104.18 個標記
- 最大值:452 個標記
- 樣本:
anchor positive negative Megfordult, és előhúzta a kardját.
A kard megrajzolták.
A férfi ott hagyta a kardját, ahol volt.
Egy férfi, aki egy betonfalnak támaszkodik, karjait felül támasztja, az erkélyre néz.
Egy férfi a falnak támaszkodik.
Egy férfi egy fafalnak támaszkodik.
A nő a szabadban van.
Nő egy ruhában sétál át a hídon.
Egy nő a levegőben lévő lábával harcművészeti mozdulatot hajt végre egy edzőteremben, miközben öt csapattársa vagy versenyzője néz rá.
評估數據集
json
- 數據集:json
- 大小:1,207,229 個評估樣本
- 列:
anchor
、positive
和negative
- 基於前 1000 個樣本的近似統計信息:
anchor positive negative 類型 字符串 字符串 字符串 詳情 - 最小值:5 個標記
- 平均值:28.27 個標記
- 最大值:150 個標記
- 最小值:4 個標記
- 平均值:108.14 個標記
- 最大值:479 個標記
- 最小值:7 個標記
- 平均值:103.64 個標記
- 最大值:431 個標記
- 樣本:
anchor positive negative Az emberek nézik, amint egy zenész gitározik.
egy gitáros játszik az embereknek
Az emberek egy autóroncsot néznek.
hány csepp van egy ml-ben
Egy szabványos szemcseppentő 0,05 ml-t adagol cseppenként, ami azt jelenti, hogy 1 milliliter gyógyszerben 20 csepp van. Számoljuk ki: egy 5 ml-es üvegben 100, a 10 ml-es üvegben 200 adag van. (A legtöbb szemcsepp receptet 5 vagy 10 ml-es üvegekben adják ki.) A párolgás nem jelent nagy problémát, ha a kupakot minden alkalmazás után vissza kell cserélni. 30 napos hónapra számítva a napi egyszeri cseppek és a napi kétszeri cseppek egy 5 ml-es üvegben könnyen kitartanak egy hónapig. Egy 10 ml-es palack általában nagyobb adagok befogadására alkalmas. Íme, egy utolsó tipp.
Körülbelül 15-20 csepp van egy ml-ben. A folyadék viszkozitása megváltoztatja ezt a választ. Gondolhatja, hogy egy 5 ml-es üvegben 80-100 csepp van.
a szövetségi tartalékot milyen jogszabály hozta létre
Az „1913. évi Federal Reserve Act” MEGHATÁROZÁSA. Az 1913-as amerikai törvényhozás, amely létrehozta a jelenlegi Federal Reserve System-et. A Federal Reserve Act a gazdasági stabilitás egy formáját kívánta megteremteni a monetáris politikáért felelős Központi Bank bevezetésével az Egyesült Államokba. Az 1913-as amerikai törvényhozás, amely
📄 許可證
本模型使用 apache-2.0 許可證。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98