Climate Check Reranker
基于cross-encoder/ms-marco-MiniLM-L6-v2微调的交叉编码器模型,专为气候科学领域的文本重排序和语义搜索优化
下载量 17
发布时间 : 5/14/2025
模型简介
该模型计算文本对的相似度分数,可用于气候科学领域的文本重排序、语义搜索和信息检索任务
模型特点
气候科学领域优化
专门针对气候科学领域的文本进行微调,在该领域表现优异
高效重排序
能够快速计算文本对的相关性分数,适用于大规模检索结果的重排序
高精度
在气候科学评估数据集上表现出色,前10标准化折损累积增益达到0.6495
模型能力
文本相关性评分
语义搜索
检索结果重排序
气候科学领域信息检索
使用案例
学术研究
气候科学文献检索
帮助研究人员从大量气候科学文献中快速找到最相关的内容
提高检索结果的相关性和准确性
信息检索系统
搜索引擎结果优化
用于气候科学相关搜索引擎的结果重排序
提升用户获取相关信息的效率
🚀 气候科学重排序模型
这是一个 交叉编码器 模型,基于 cross-encoder/ms-marco-MiniLM-L6-v2 使用 sentence-transformers 库进行微调。它可以计算文本对的得分,可用于文本重排序和语义搜索。
🚀 快速开始
本模型是一个基于 cross-encoder/ms-marco-MiniLM-L6-v2
微调的交叉编码器模型,能够计算文本对的得分,适用于文本重排序和语义搜索任务。
✨ 主要特性
- 基于交叉编码器架构,能够有效计算文本对之间的相关性得分。
- 微调自
cross-encoder/ms-marco-MiniLM-L6-v2
模型,在气候科学相关数据上进行了优化。 - 支持文本重排序和语义搜索任务,可用于提升信息检索的准确性。
📦 安装指南
首先,你需要安装 sentence-transformers
库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import CrossEncoder
# 从 Hugging Face Hub 下载模型
model = CrossEncoder("cross_encoder_model_id")
# 获取文本对的得分
pairs = [
['北极海冰正在减少,而南极海冰正在增加。 #气候科学 #极地地区', '摘要:采用对环境影响较小的健康饮食已被广泛推广为应对气候变化的重要策略。通常,这些饮食富含植物性食物,减少动物性和加工食品的摄入。尽管它们对环境的影响各不相同,但通常被称为“可持续饮食”。本文系统回顾了已发表的关于“可持续饮食”对环境足迹和人类健康影响的证据。我们搜索了八个数据库(OvidSP-Medline、OvidSP-Embase、EBSCO-GreenFILE、Web of Science Core Collection、Scopus、OvidSP-CAB-Abstracts、OvidSP-AGRIS 和 OvidSP-Global Health),以确定报告“可持续饮食”健康影响和环境足迹的文献(发表于 1999 - 2019 年)。对可用证据进行了映射,并按饮食模式、健康和环境结果的独特组合进行了汇总分析。十八项研究(412 次测量)符合我们的纳入标准,区分了十二种非互斥的可持续饮食模式、六种环境结果和七种健康结果。在 87% 的测量中(n = 151),与当前/基线消费模式相比,“可持续饮食”报告了积极的健康结果(平均相对健康改善:4.09% [95% CI -0.10 - 8.29])。与“可持续饮食”相关的温室气体排放量平均比当前/基线消费模式低 25.8% [95% CI -27.0 至 -14.6],其中纯素饮食报告的温室气体排放量减少最多(-70.3% [95% CI:-90.2 至 -50.4]),然而,水的使用量经常被报告高于当前/基线饮食。大多数测量(n = 315 [76%])报告了对健康和环境的多重益处。我们发现了一致的证据,表明“可持续饮食”对健康有积极影响,并减少了环境足迹。与“可持续饮食”相关的水使用量增加这一显著例外表明,协同效益并非普遍存在,可能需要进行一些权衡。当精心设计、基于证据并适应背景因素时,饮食改变可能在缓解气候变化、可持续粮食系统和未来人口健康方面发挥关键作用。'],
['我们可以加快从化石燃料的转型,以减轻未来的气候变暖。', '最近关于能源转型时间动态的辩论至关重要,因为从化石燃料转型的主要原因之一是应对气候变化。正如我们从历史中看到的,长期的转型需要数十年甚至数百年,不太可能有助于实现气候变化缓解目标。因此,能源转型的速度以及是否可以加快是一个关键的学术和政策问题。我们认为,虽然历史对于理解转型动态很重要,但历史转型的速度只是部分地为未来提供了一个很好的指导。我们同意 Sovacool [1] 的观点,即过去已经发生过更快的转型,因此未来在全球范围内也有可能实现。我们乐观的关键原因是,历史上的能源转型并没有得到有意识的管理,而如今,各种各样的行为者正在积极尝试管理向低碳能源系统的转型。此外,国际创新动态可能有利于加速全球低碳转型。最后,2015 年的《巴黎协定》首次表明了全球向低碳经济转型的承诺,从而表明了促进快速转型和克服阻力(例如来自拥有沉没基础设施投资的现有企业)所需的政治意愿。'],
["我们早就知道气候变化的问题了。 #立即采取气候行动", '最近北极的变暖正在影响广泛的物理、生态和人类/文化系统,这些影响在百年时间尺度上可能是不可逆转的,并有可能导致地球系统的快速变化。北极碳循环对气候变化的响应是全球关注的一个主要问题,但目前还没有对当代北极碳循环的现状及其对气候变化的响应进行全面的综述。本综述旨在阐明北极碳循环对当前气候变化响应中的关键不确定性和脆弱性。虽然很明显北极有大量的碳储量,但与永久冻土中有机质储量的大小以及北极地下和水下永久冻土下甲烷水合物的储存相关的不确定性也很大。在全球碳循环的背景下,本综述表明北极在全球二氧化碳和甲烷的动态中都起着重要作用。研究表明,近几十年来,北极一直是大气二氧化碳的汇,吸收量在 0 至 0.8 Pg C/年之间,占 20 世纪 90 年代全球陆地/海洋净通量的 0% 至 25%。北极是大气甲烷的重要来源(每年 32 至 112 Tg 甲烷),主要是因为该地区有大面积的湿地。迄今为止的分析表明,21 世纪剩余时间里北极碳循环的敏感性高度不确定。为了提高评估北极碳循环对预计气候变化敏感性的能力,我们建议:(1)开展综合区域研究,将碳动态观测与可能影响这些动态的过程联系起来;(2)将从这些综合研究中获得的理解纳入非耦合和完全耦合的碳 - 气候建模工作中。'],
['果树能产生新鲜氧气。', '氧气塑造了我们今天所知的地球生命。分子氧对于正常的细胞功能至关重要,即植物需要氧气来维持细胞呼吸和进行各种生化反应。当细胞中的氧气水平低于呼吸所需的水平时,细胞就会经历缺氧。众所周知,植物在自然环境条件下(如洪水)会经历根部缺氧。另一方面,水果在正常氧气条件下也会缺氧。这种现象至少可以部分解释为扩散障碍、组织扩散率低以及呼吸作用对氧气的高消耗。从生理学角度来看,缺氧对水果发育有深远影响,因为有充分的文献记载,低氧环境可以显著延缓某些水果的成熟和衰老。低氧环境的这种效应被广泛用于优化储存条件和运输,并延长几种水果商品的保质期。因此,进一步了解细胞内氧气供应与水果发育之间的复杂关系有助于采后管理。'],
["你知道吗?当冰山融化时,实际上并不会导致海平面上升。 😕 这是因为冰山在漂浮时已经排开了等量的水。 #科学事实 #海洋事实", '摘要:过去 40 年里,北极海冰的急剧减少是地球气候变化最明显的证据。在所有表征海冰的变量中,海冰体积对气候变化最为敏感,因为与海冰范围和厚度相比,它的衰减速度最快。在 40 年里,北极海冰在夏季结束时的体积减少了约四分之三,相当于海冰范围和厚度平均减少了一半。40 年前,北极海冰夏季最小值超过 16000 km³,而在最近的几个夏天,已经降至不到 4000 km³。由于北极海冰体积是海冰范围和厚度的综合体现,因此直接准确地观测它很困难。我们根据 ERA 中期再分析地表气温数据,估算了整个北极地区过去 38 年中每年 9 个月(9 月至次年 5 月)的累积冻结度日数(FDD)。然后,我们将根据累积 FDD 推算出的海冰厚度计算得到的北极海冰体积,与基于泛北极冰 - 海洋建模与同化系统(PIOMAS)和欧洲航天局 CryoSat - 2 卫星估算的北极海冰体积进行了比较。结果惊人地相似。大气变暖在整个冻结季节(9 月至 5 月)对北极海冰体积的减少起着重要作用。此外,FDD 的空间分布呈现出明显的双峰特征,反映了北极海冰覆盖典型的多年冰(MYI)与一年冰(FYI)的双重分布。这表明,垂直海洋热通量对海冰的影响很大,具体取决于 MYI 与 FYI 的分布以及其上的雪层,进而影响地表气温。2018 年,北极多年冰在过去 40 年中首次几乎完全消失。在未来 15 年内,北极海冰在夏季几乎完全消失的可能性更大,这将对北极海洋和陆地生态系统、全球气候和天气模式以及人类活动产生广泛的影响。"]
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
高级用法
# 根据与单个文本的相似度对不同文本进行排序
ranks = model.rank(
'北极海冰正在减少,而南极海冰正在增加。 #气候科学 #极地地区',
[
'摘要:采用对环境影响较小的健康饮食已被广泛推广为应对气候变化的重要策略。通常,这些饮食富含植物性食物,减少动物性和加工食品的摄入。尽管它们对环境的影响各不相同,但通常被称为“可持续饮食”。本文系统回顾了已发表的关于“可持续饮食”对环境足迹和人类健康影响的证据。我们搜索了八个数据库(OvidSP-Medline、OvidSP-Embase、EBSCO-GreenFILE、Web of Science Core Collection、Scopus、OvidSP-CAB-Abstracts、OvidSP-AGRIS 和 OvidSP-Global Health),以确定报告“可持续饮食”健康影响和环境足迹的文献(发表于 1999 - 2019 年)。对可用证据进行了映射,并按饮食模式、健康和环境结果的独特组合进行了汇总分析。十八项研究(412 次测量)符合我们的纳入标准,区分了十二种非互斥的可持续饮食模式、六种环境结果和七种健康结果。在 87% 的测量中(n = 151),与当前/基线消费模式相比,“可持续饮食”报告了积极的健康结果(平均相对健康改善:4.09% [95% CI -0.10 - 8.29])。与“可持续饮食”相关的温室气体排放量平均比当前/基线消费模式低 25.8% [95% CI -27.0 至 -14.6],其中纯素饮食报告的温室气体排放量减少最多(-70.3% [95% CI:-90.2 至 -50.4]),然而,水的使用量经常被报告高于当前/基线饮食。大多数测量(n = 315 [76%])报告了对健康和环境的多重益处。我们发现了一致的证据,表明“可持续饮食”对健康有积极影响,并减少了环境足迹。与“可持续饮食”相关的水使用量增加这一显著例外表明,协同效益并非普遍存在,可能需要进行一些权衡。当精心设计、基于证据并适应背景因素时,饮食改变可能在缓解气候变化、可持续粮食系统和未来人口健康方面发挥关键作用。',
'最近关于能源转型时间动态的辩论至关重要,因为从化石燃料转型的主要原因之一是应对气候变化。正如我们从历史中看到的,长期的转型需要数十年甚至数百年,不太可能有助于实现气候变化缓解目标。因此,能源转型的速度以及是否可以加快是一个关键的学术和政策问题。我们认为,虽然历史对于理解转型动态很重要,但历史转型的速度只是部分地为未来提供了一个很好的指导。我们同意 Sovacool [1] 的观点,即过去已经发生过更快的转型,因此未来在全球范围内也有可能实现。我们乐观的关键原因是,历史上的能源转型并没有得到有意识的管理,而如今,各种各样的行为者正在积极尝试管理向低碳能源系统的转型。此外,国际创新动态可能有利于加速全球低碳转型。最后,2015 年的《巴黎协定》首次表明了全球向低碳经济转型的承诺,从而表明了促进快速转型和克服阻力(例如来自拥有沉没基础设施投资的现有企业)所需的政治意愿。',
'最近北极的变暖正在影响广泛的物理、生态和人类/文化系统,这些影响在百年时间尺度上可能是不可逆转的,并有可能导致地球系统的快速变化。北极碳循环对气候变化的响应是全球关注的一个主要问题,但目前还没有对当代北极碳循环的现状及其对气候变化的响应进行全面的综述。本综述旨在阐明北极碳循环对当前气候变化响应中的关键不确定性和脆弱性。虽然很明显北极有大量的碳储量,但与永久冻土中有机质储量的大小以及北极地下和水下永久冻土下甲烷水合物的储存相关的不确定性也很大。在全球碳循环的背景下,本综述表明北极在全球二氧化碳和甲烷的动态中都起着重要作用。研究表明,近几十年来,北极一直是大气二氧化碳的汇,吸收量在 0 至 0.8 Pg C/年之间,占 20 世纪 90 年代全球陆地/海洋净通量的 0% 至 25%。北极是大气甲烷的重要来源(每年 32 至 112 Tg 甲烷),主要是因为该地区有大面积的湿地。迄今为止的分析表明,21 世纪剩余时间里北极碳循环的敏感性高度不确定。为了提高评估北极碳循环对预计气候变化敏感性的能力,我们建议:(1)开展综合区域研究,将碳动态观测与可能影响这些动态的过程联系起来;(2)将从这些综合研究中获得的理解纳入非耦合和完全耦合的碳 - 气候建模工作中。',
'氧气塑造了我们今天所知的地球生命。分子氧对于正常的细胞功能至关重要,即植物需要氧气来维持细胞呼吸和进行各种生化反应。当细胞中的氧气水平低于呼吸所需的水平时,细胞就会经历缺氧。众所周知,植物在自然环境条件下(如洪水)会经历根部缺氧。另一方面,水果在正常氧气条件下也会缺氧。这种现象至少可以部分解释为扩散障碍、组织扩散率低以及呼吸作用对氧气的高消耗。从生理学角度来看,缺氧对水果发育有深远影响,因为有充分的文献记载,低氧环境可以显著延缓某些水果的成熟和衰老。低氧环境的这种效应被广泛用于优化储存条件和运输,并延长几种水果商品的保质期。因此,进一步了解细胞内氧气供应与水果发育之间的复杂关系有助于采后管理。',
'摘要:过去 40 年里,北极海冰的急剧减少是地球气候变化最明显的证据。在所有表征海冰的变量中,海冰体积对气候变化最为敏感,因为与海冰范围和厚度相比,它的衰减速度最快。在 40 年里,北极海冰在夏季结束时的体积减少了约四分之三,相当于海冰范围和厚度平均减少了一半。40 年前,北极海冰夏季最小值超过 16000 km³,而在最近的几个夏天,已经降至不到 4000 km³。由于北极海冰体积是海冰范围和厚度的综合体现,因此直接准确地观测它很困难。我们根据 ERA 中期再分析地表气温数据,估算了整个北极地区过去 38 年中每年 9 个月(9 月至次年 5 月)的累积冻结度日数(FDD)。然后,我们将根据累积 FDD 推算出的海冰厚度计算得到的北极海冰体积,与基于泛北极冰 - 海洋建模与同化系统(PIOMAS)和欧洲航天局 CryoSat - 2 卫星估算的北极海冰体积进行了比较。结果惊人地相似。大气变暖在整个冻结季节(9 月至 5 月)对北极海冰体积的减少起着重要作用。此外,FDD 的空间分布呈现出明显的双峰特征,反映了北极海冰覆盖典型的多年冰(MYI)与一年冰(FYI)的双重分布。这表明,垂直海洋热通量对海冰的影响很大,具体取决于 MYI 与 FYI 的分布以及其上的雪层,进而影响地表气温。2018 年,北极多年冰在过去 40 年中首次几乎完全消失。在未来 15 年内,北极海冰在夏季几乎完全消失的可能性更大,这将对北极海洋和陆地生态系统、全球气候和天气模式以及人类活动产生广泛的影响。'
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 交叉编码器 |
基础模型 | cross-encoder/ms-marco-MiniLM-L6-v2 |
最大序列长度 | 512 个词元 |
输出标签数量 | 1 个标签 |
语言 | 英文 |
许可证 | Apache-2.0 |
模型来源
- 文档:Sentence Transformers 文档
- 文档:交叉编码器文档
- 代码仓库:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的交叉编码器
评估指标
交叉编码器重排序
- 数据集:
climate-science-eval
- 评估方法:使用
CrossEncoderRerankingEvaluator
进行评估,参数如下:{ "at_k": 10, "always_rerank_positives": true }
指标 | 值 |
---|---|
平均准确率均值 (MAP) | 0.5422 (+0.3744) |
前 10 名平均倒数排名 (MRR@10) | 0.5412 (+0.3865) |
前 10 名归一化折损累积增益 (NDCG@10) | 0.6495 (+0.4583) |
训练详情
训练数据集
- 数据集名称:未命名数据集
- 数据集大小:2016 个训练样本
- 数据集列名:
query
、answer
和label
- 基于前 1000 个样本的近似统计信息:
查询 (query) 答案 (answer) 标签 (label) 类型 字符串 字符串 整数 详情 - 最小长度:27 个字符
- 平均长度:111.06 个字符
- 最大长度:236 个字符
- 最小长度:183 个字符
- 平均长度:1988.82 个字符
- 最大长度:23789 个字符
- 0:约 74.60%
- 1:约 25.40%
- 损失函数:
BinaryCrossEntropyLoss
,参数如下:{ "activation_fn": "torch.nn.modules.linear.Identity", "pos_weight": 6 }
训练超参数
非默认超参数
eval_strategy
:按轮次评估per_device_train_batch_size
:16per_device_eval_batch_size
:16learning_rate
:2e-05warmup_ratio
:0.1fp16
:Truedataloader_num_workers
:4load_best_model_at_end
:True
所有超参数
点击展开
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: epochprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 3max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 4dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
训练日志
轮次 (Epoch) | 步数 (Step) | 训练损失 (Training Loss) | 气候科学评估 NDCG@10 (climate-science-eval_ndcg@10) |
---|---|---|---|
0.0079 | 1 | 2.4238 | - |
1.0 | 126 | - | 0.6447 (+0.4535) |
2.0 | 252 | - | 0.6495 (+0.4583) |
3.0 | 378 | - | 0.6368 (+0.4455) |
-1 | -1 | - | 0.6495 (+0.4583) |
注:加粗行表示保存的检查点。
框架版本
- Python: 3.11.12
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.6.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
📄 许可证
本模型使用 Apache-2.0 许可证。
📖 引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98