Modernbert Base Hu V3
基于ModernBERT微调的匈牙利语句子嵌入模型,用于语义相似度计算和文本特征提取
下载量 20
发布时间 : 1/20/2025
模型简介
该模型是基于nomic-ai/modernbert-embed-base微调的句子转换器,专门针对匈牙利语优化,可将文本映射到768维向量空间,适用于语义文本相似度、语义搜索、文本分类等任务
模型特点
匈牙利语优化
专门针对匈牙利语进行微调,在匈牙利语文本处理任务中表现优异
长文本支持
支持最大8192个标记的序列长度,适合处理长文档
高效语义编码
将句子和段落映射到768维稠密向量空间,保留丰富语义信息
模型能力
语义文本相似度计算
语义搜索
复述挖掘
文本分类
文本聚类
使用案例
信息检索
相似文档检索
在文档库中查找语义相似的文档
问答系统
候选答案排序
根据问题语义对候选答案进行相关性排序
内容审核
重复内容检测
识别不同表述但语义相同的内容
🚀 ModernBERT-base
这是一个基于 sentence-transformers 的模型,它在 JSON 数据集上对 nomic-ai/modernbert-embed-base 进行了微调。该模型可以将句子和段落映射到 768 维的密集向量空间,可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
✨ 主要特性
- 能够将文本映射到 768 维的向量空间,便于进行语义分析。
- 适用于多种自然语言处理任务,如语义相似度计算、搜索、分类和聚类等。
📦 安装指南
首先安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
model = SentenceTransformer("karsar/ModernBERT-base-hu_v3")
# 进行推理
sentences = [
'a sellő szindróma genetikai okai',
'Rfcamat válasza. Bizalom szavazat: 459. Ha sellő-szindrómásod van, akkor vele születtél volna, és inkább hasadt volna a lábad, vagy mindkettőt amputálták volna. A sellőszindróma oka a test alsó részének (lábainak) oxigén- és tápanyaghiánya a keringési rendszer problémája miatt.További információ az alábbi linken.a sellő szindrómát nem kaphatja meg. Ez egy veleszületett állapot, ami azt jelenti, hogy vele kell születned ahhoz, hogy meglegyen. A betegségben szenvedő személy nem sellő, csak arról van szó, hogy a lábai összeforrtak. Számos belső szerv hiányzik vagy deformálódott.',
'1 A sellő-szindróma annak a következménye is lehet, hogy az anya sugárzásnak és más környezeti hatásoknak van kitéve, amelyek a magzat normális fejlődésében részt vevő gének mutációit okozták. 2 Spontán mutációk vagy a magzatban természetesen előforduló mutációk is okozhatták a születési rendellenességet. Kutatásokra van szükség ahhoz, hogy kiderítsük a sellőszindróma genetikai, biológiai vagy környezeti okait. A sellő szindróma kezelése. Ha a két láb csak a bőrön keresztül olvadt össze, és a három fő csont teljesen és megfelelően kialakult, műtétet alkalmaznak a két láb szétválasztására.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 详细文档
模型详情
模型描述
属性 | 详情 |
---|---|
模型类型 | 句子转换器 |
基础模型 | nomic-ai/modernbert-embed-base |
最大序列长度 | 8192 个标记 |
输出维度 | 768 维 |
相似度函数 | 余弦相似度 |
训练数据集 | json |
语言 | 匈牙利语 |
许可证 | apache-2.0 |
模型来源
- 文档:Sentence Transformers 文档
- 仓库:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Sentence Transformers
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
评估
指标
三元组
- 数据集:
all-triplet-dev
和all-triplet-test
- 评估方法:使用
TripletEvaluator
进行评估
指标 | all-triplet-dev | all-triplet-test |
---|---|---|
余弦准确率 | 0.799 | 0.8031 |
训练详情
训练数据集
json
- 数据集:json
- 大小:1,207,229 个训练样本
- 列:
anchor
、positive
和negative
- 基于前 1000 个样本的近似统计信息:
anchor positive negative 类型 字符串 字符串 字符串 详情 - 最小值:5 个标记
- 平均值:27.76 个标记
- 最大值:159 个标记
- 最小值:6 个标记
- 平均值:106.31 个标记
- 最大值:449 个标记
- 最小值:6 个标记
- 平均值:104.18 个标记
- 最大值:452 个标记
- 样本:
anchor positive negative Megfordult, és előhúzta a kardját.
A kard megrajzolták.
A férfi ott hagyta a kardját, ahol volt.
Egy férfi, aki egy betonfalnak támaszkodik, karjait felül támasztja, az erkélyre néz.
Egy férfi a falnak támaszkodik.
Egy férfi egy fafalnak támaszkodik.
A nő a szabadban van.
Nő egy ruhában sétál át a hídon.
Egy nő a levegőben lévő lábával harcművészeti mozdulatot hajt végre egy edzőteremben, miközben öt csapattársa vagy versenyzője néz rá.
评估数据集
json
- 数据集:json
- 大小:1,207,229 个评估样本
- 列:
anchor
、positive
和negative
- 基于前 1000 个样本的近似统计信息:
anchor positive negative 类型 字符串 字符串 字符串 详情 - 最小值:5 个标记
- 平均值:28.27 个标记
- 最大值:150 个标记
- 最小值:4 个标记
- 平均值:108.14 个标记
- 最大值:479 个标记
- 最小值:7 个标记
- 平均值:103.64 个标记
- 最大值:431 个标记
- 样本:
anchor positive negative Az emberek nézik, amint egy zenész gitározik.
egy gitáros játszik az embereknek
Az emberek egy autóroncsot néznek.
hány csepp van egy ml-ben
Egy szabványos szemcseppentő 0,05 ml-t adagol cseppenként, ami azt jelenti, hogy 1 milliliter gyógyszerben 20 csepp van. Számoljuk ki: egy 5 ml-es üvegben 100, a 10 ml-es üvegben 200 adag van. (A legtöbb szemcsepp receptet 5 vagy 10 ml-es üvegekben adják ki.) A párolgás nem jelent nagy problémát, ha a kupakot minden alkalmazás után vissza kell cserélni. 30 napos hónapra számítva a napi egyszeri cseppek és a napi kétszeri cseppek egy 5 ml-es üvegben könnyen kitartanak egy hónapig. Egy 10 ml-es palack általában nagyobb adagok befogadására alkalmas. Íme, egy utolsó tipp.
Körülbelül 15-20 csepp van egy ml-ben. A folyadék viszkozitása megváltoztatja ezt a választ. Gondolhatja, hogy egy 5 ml-es üvegben 80-100 csepp van.
a szövetségi tartalékot milyen jogszabály hozta létre
Az „1913. évi Federal Reserve Act” MEGHATÁROZÁSA. Az 1913-as amerikai törvényhozás, amely létrehozta a jelenlegi Federal Reserve System-et. A Federal Reserve Act a gazdasági stabilitás egy formáját kívánta megteremteni a monetáris politikáért felelős Központi Bank bevezetésével az Egyesült Államokba. Az 1913-as amerikai törvényhozás, amely
📄 许可证
本模型使用 apache-2.0 许可证。
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98