Teraflop Minn Caselaw
T
Teraflop Minn Caselaw
由 conceptofmind 开发
基于ModernBERT-base的句子嵌入模型,用于句子相似度和特征提取任务
下载量 253
发布时间 : 3/8/2025
模型简介
该模型基于ModernBERT-base架构,经过微调用于生成高质量的句子嵌入,支持句子相似度计算和特征提取任务
模型特点
高效句子嵌入
能够将输入句子转换为高质量的向量表示,捕捉语义信息
多任务优化
使用CachedMultipleNegativesRankingLoss进行训练,优化句子相似度任务
大规模训练数据
在248,554条数据上进行训练,具有较好的泛化能力
模型能力
句子相似度计算
文本特征提取
语义搜索
文本聚类
使用案例
信息检索
法律文档检索
根据用户查询检索相关法律文档
如示例所示,可以准确匹配用户查询与法律文档内容
问答系统
城市管理问答
回答关于城市管理职责的问题
如示例所示,可以准确匹配问题与相关法规内容
🚀 基于answerdotai/ModernBERT-base的句子转换器
本项目是一个基于answerdotai/ModernBERT-base在test-minn数据集上微调的句子转换器模型。它能将句子和段落映射到768维的密集向量空间,可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
🚀 快速开始
模型详情
模型描述
属性 | 详情 |
---|---|
模型类型 | 句子转换器 |
基础模型 | answerdotai/ModernBERT-base |
最大序列长度 | 8192个标记 |
输出维度 | 768维 |
相似度函数 | 余弦相似度 |
训练数据集 | test-minn |
模型来源
- 文档:句子转换器文档
- 仓库:GitHub上的句子转换器
- Hugging Face:Hugging Face上的句子转换器
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方法
直接使用(句子转换器)
首先安装句子转换器库:
pip install -U sentence-transformers
然后加载模型并进行推理:
from sentence_transformers import SentenceTransformer
# 从🤗 Hub下载
model = SentenceTransformer("conceptofmind/teraflop-minn-caselaw")
# 运行推理
sentences = [
'明尼苏达州法院对共同拥有农场分割的裁决',
"ELLEN BRANDIN诉JASPER SWENSON。\n1925年6月19日。\n第24,681号。\n8. H. Écfanqn,代表上诉人。\nJohn Heitmarm,代表被上诉人。\n报道于204 N. W. 468。\n\nDibell法官。\n圣路易斯县的诉讼,请求判定原告为一块80英亩土地的所有者,若该请求被驳回,则请求对该土地进行分割。法院判决进行实物分割,原告提起上诉。\n证据未被返还。正如上诉人的律师正确指出的,唯一的问题是事实认定是否支持该判决;在陈述事实时,我们遵循了初审法院的认定。\n1906年2月10日,原告Ellen Brandin与被告Jasper Swenson举行了结婚仪式。当时,原告有一位在世的丈夫。他在10年前抛弃了她,她和被告都以为他已经去世。1920年,人们发现他还活着;1922年1月8日,法院作出判决,宣布原告和被告的婚姻无效。\n1906年4月9日,原告和被告作为共同租户购买了一块80英亩的土地,契约上写着两人的名字。购买价格由原告支付,但其中一部分是被告在正式结婚后用自己的收入给她的,不久后,他给她的钱超过了他应承担的一半购买价格。1907年,被告搬到了这块土地上居住,并对其中40英亩进行了改良。原告继续住在德卢斯,经营一家寄宿公寓。她为农场的改良做出了贡献,并从农场获得现金和农产品。法院将80英亩土地中的西40英亩判给了她,将被告进行了改良的东40英亩判给了被告。这是基于法院的认定,即西40英亩的价值与原告的贡献价值之比,大致等于东40英亩的价值与被告的贡献价值之比。这是一种公平的分割方式。双方各获得了一半面积的土地。被告获得了他进行了改良的40英亩土地。双方获得的价值与各自的贡献成比例。Hunt诉Meeker County A. & L. Co. 135 Minn. 134, 160 N. W. 496案中所述的原则支持了这种分割方式。就本案的记录而言,诉状的形式和采用的程序并不重要。双方均未对此提出异议。\n判决维持原判。",
'明尼苏达州,被上诉人,诉James Darrell GIBSON,上诉人。\n第C1 - 91 - 1332号。\n明尼苏达州最高法院。\n1991年12月20日。\nJohn M. Stuart,州公设辩护人,Mark F. Anderson,助理州公设辩护人,明尼阿波利斯,代表上诉人。\nScott A. Hersey,伊桑蒂县检察官,剑桥,以及Hubert H. Humphrey III,州检察长,圣保罗,代表被上诉人。\n\nTOMLJANOVICH法官。\n在本案的判决中,上诉法院维持了对被告两项罪行判处多项并行刑期的决定,被告认为这两项罪行源于同一行为事件。State v. Gibson, 475 N.W.2d 896 (Minn.App.1991)。我们同意被告的观点,因此根据明尼苏达州法规§ 609.035 (1990),即所谓的单一行为事件法规,撤销两项刑期中较轻的一项。\n被告被定罪的罪行是导致他人受伤的刑事车辆操作和肇事逃逸重罪,他因此被判处23个月和15个月的并行刑期。第一项定罪基于被告在醉酒状态下驾车发生正面碰撞的事实。第二项定罪基于事故发生后,被告和另一辆车的司机均受伤,被告立即徒步逃离现场,前往附近的农舍并打电话让他的女友来接他的事实。\n明尼苏达州法规§ 609.035相关部分规定,如果一个人的行为“构成该州法律规定的多项罪行,此人只能因其中一项罪行受到惩罚”。我们在确定两项非故意犯罪或一项非故意犯罪和一项故意犯罪是否属于同一行为过程时所采用的方法是,分析所有事实,确定这些罪行是否“源于持续且不间断的行为过程,表现出不可分割的心态或一致的判断失误”。State v. Sailor, 257 N.W.2d 349, 352 (Minn.1977); 另见State v. Johnson, 273 Minn. 394, 405, 141 N.W.2d 517, 525 (1966)。当两项罪行均为故意犯罪时,我们关注的因素包括时间和地点,以及所涉行为是否出于实现单一犯罪目标的动机。State v. Johnson, supra。\n在一系列判决中——即逃避逮捕案件——我们认为,如果被告在实施第一项罪行后,基本上同时实施第二项罪行以逃避对第一项罪行的逮捕,则不得对这两项罪行判处多项刑期。State v. Gilbertson, 323 N.W.2d 810 (Minn.1982); State v. Zuehlke, 320 N.W.2d 79 (Minn.1982); State v. Boley, 299 N.W.2d 924 (Minn.1980); Matter of Castillo, 293 N.W.2d 839 (Minn.1980); State v. White, 292 N.W.2d 16 (Minn.1980); State v. Finn, 295 Minn. 520, 203 N.W.2d 114 (1972)。\n在本案中,被告实施肇事逃逸的重罪行为,部分是为了逃避因事故所涉任何罪行而被逮捕。因此,我们撤销两项刑期中较轻的一项,即肇事逃逸的15个月并行刑期。\n部分维持原判,部分撤销原判。\n. 与逃避逮捕案件密切相关的是便利犯罪案件。见State v. Naylor, 474 N.W.2d 314 (Minn.1991); State v. Beito, 332 N.W.2d 645 (Minn.1983)。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 详细文档
训练详情
训练数据集
test - minn
- 数据集:[test - minn](https://huggingface.co/datasets/conceptofmind/test - minn),版本为[a383680](https://huggingface.co/datasets/conceptofmind/test - minn/tree/a383680981f01a8de7e236c733f60f4af36ee227)
- 规模:248,554个训练样本
- 列名:
query
和reponse
- 基于前1000个样本的近似统计信息:
| | 查询(query) | 回复(reponse) |
| ---- | ---- | ---- |
| 类型 | 字符串 | 字符串 |
| 详情 |
- 最小:4个标记
- 平均:15.14个标记
- 最大:31个标记
- 最小:119个标记
- 平均:2706.53个标记
- 最大:8192个标记
- 样本:
| 查询(query) | 回复(reponse) |
| ---- | ---- |
|
种子谷物票据在财产留置权和催收中的作用
|WINTER & AMES COMPANY诉ATLANTIC ELEVATOR COMPANY。
| |
1903年1月9日。
第13,155 — (140)号。
代理人的权限 — 证据。
经审查,证据足以支持初审法院的认定,即原告的一名代理人有权授权出售原告凭借种子谷物票据对其享有留置权的某些亚麻籽,并解除所享有的留置权。
明尼阿波利斯市法院的诉讼,要求被告赔偿250美元及利息,因其侵占了某些亚麻籽。案件由Holt法官审理,他作出了有利于被告的判决。原告因法院驳回其重审动议的命令而提起上诉。
维持原判。
L. J. Van Fossen,代表上诉人。
Wilson & Van Derlip,代表被上诉人。
报道于92 N. W. 955。
BROWN法官。
原告提起诉讼,要求被告赔偿其声称被被告侵占的某些亚麻籽的价值。初审法院作出了有利于被告的判决,原告因法院驳回其重审动议的命令而提起上诉。
简要事实如下...关于涉及描述错误的抵押和判决的优先权纠纷?
|Lucy H. Gill诉William C. Russell等人。
| |
1877年2月12日。
由仲裁员取证的例外情况。 — 在仅由为此目的指定的仲裁员取证并报告的案件听证会上,希望利用在仲裁员面前提出的任何异议的一方,必须重新提出该异议,并获得法院对此的裁决;如果裁决不利,则需提出异议。
禁止反言 — 公司董事不能从公司在其参与制定的抵押中的错误中获利。 — B公司为原告正式签署了一份房地产抵押协议,以换取有价值的对价。由于双方的共同错误,该抵押协议错误地描述了双方意图并同意抵押的房产。原告使该抵押协议得到了正式登记。B公司的一名董事参与了抵押协议的签署和错误的发生,后来他获得了对该公司的判决,并正式将其记录在案,使其成为对该房产的留置权,...可以基于哪些理由对针对铁路公司的疏忽索赔提出质疑?
|Iver Anderson诉Southern Minnesota Railroad Company。
|
1874年8月10日。
公司放弃对传票送达瑕疵的抗辩。 — 公司在治安法院的诉讼中进行了全面出庭并就案情进行了答辩后,不能再以传票送达不符合法规要求为由提出异议。
治安法官 — 延期 — 案卷记录。 — 案卷记录“经双方同意,案件延期至1873年9月23日星期一下午一点”,足以符合法规要求,即治安法官应在其案卷中记录“每次延期,说明延期的时间和地点”。
本案在治安法院提起,原告获得了判决。被告就法律问题向菲尔莫尔县地区法院提起上诉,由Waterman法官主审。地区法院推翻了治安法院的判决,作出了有利于被告的判决,原告对此提起上诉。案件情况在... - 损失函数:
CachedMultipleNegativesRankingLoss
,参数如下:
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
评估数据集
test - minn
- 数据集:[test - minn](https://huggingface.co/datasets/conceptofmind/test - minn),版本为[a383680](https://huggingface.co/datasets/conceptofmind/test - minn/tree/a383680981f01a8de7e236c733f60f4af36ee227)
- 规模:248,554个评估样本
- 列名:
query
和reponse
- 基于前1000个样本的近似统计信息:
| | 查询(query) | 回复(reponse) |
| ---- | ---- | ---- |
| 类型 | 字符串 | 字符串 |
| 详情 |
- 最小:3个标记
- 平均:14.9个标记
- 最大:33个标记
- 最小:131个标记
- 平均:2599.64个标记
- 最大:8192个标记
- 样本:
| 查询(query) | 回复(reponse) |
| ---- | ---- |
|
欺诈性蜜蜂销售中“蜂腐病”的法律定义
|C. E. SAMPSON诉F. C. PENNEY。
| |
1922年2月17日。
第22,564号。
因证据不足以支持判决而进行重审。
1. 在蜜蜂销售中,如果某些陈述被证明是虚假的,则所有欺诈要素均已存在。但对于虚假陈述的证明是否充分存在疑问。然而,必须基于证据不足以支持判决中关于损害赔偿金额的部分而进行重审。
欺诈性销售患病蜜蜂的直接和间接损害赔偿标准。
3. 因欺诈而诱使签订合同的直接损害,是受欺诈方所放弃的东西与所获得的东西之间的价值差异。除此之外,受欺诈方还可以要求赔偿自然且直接因违约而产生的间接损害。如果某人通过欺诈手段促成了患有疾病的动物的销售,购买者可以要求赔偿其自身其他动物因感染该疾病而遭受的损失,但不能要求赔偿...哪些案例根据小偷是否在逃跑来区分责任?
|ANNE WANNEBO诉ELNATHAN GATES等人。
| |
1948年11月26日。
第34,713号。
Meagher, Geer & Markham和Clyde F. Anderson,代表上诉人。
R. 8. hammers和Allan h. Johnson,代表被上诉人。
报道于34 N. W. (2d) 695。
Magney法官。
被告因法院驳回其对本案诉状的异议的命令而提起上诉,所提出的问题已被证明是重要且有疑问的。
1947年7月2日,被告Frances L. Gates将被告Elnathan Gates拥有的一辆汽车停在明尼阿波利斯市商业区的一条公共街道上。她去购物,将车无人看管地留在那里,车门和点火装置都未锁。她没有将钥匙从点火开关上取下带走。汽车被盗。当晚大约11:30,这辆被盗的汽车被一名身份不明的人疏忽驾驶,与原告的汽车相撞,损坏了原告的汽车并使其受伤。以上事实简要陈述了被告提出异议的诉状中的主要指控。
一项条例的第11部分...遗嘱人与受益人之间的关系如何影响明尼苏达州关于不当影响的索赔?
|Gerald Charles ANDERSON遗产案。
|
第C5 - 85 - 871号。
明尼苏达州上诉法院。
1985年12月24日。
复审请求于1986年2月19日被驳回。
Richard A. Beens,代表上诉人Mary Ann Reynolds。
Rolf T. Nelson,代表被上诉人Sally Ann Sellers、Carol Ann Young、Robert Charles Anderson和Carl Earl Anderson。
由HUS - PENI法官、FOLEY法官和FORSBERG法官审理并裁决。
意见
HUSPENI法官。
上诉人Mary Ann Reynolds是死者Gerald Anderson的女儿,她试图将死者遗嘱的第二份附录进行遗嘱认证。被上诉人是死者的其他四个子女,他们反对对该第二份附录进行遗嘱认证。一个咨询陪审团认定,第二份附录是在Reynolds施加的不当影响下签署的。初审法院采纳了咨询陪审团关于存在不当影响的认定。Reynolds因法院驳回对第二份附录进行遗嘱认证的命令以及驳回其修改事实认定或进行重审的动议而提起上诉。我们撤销原判。 - 损失函数:
CachedMultipleNegativesRankingLoss
,参数如下:
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
训练超参数
非默认超参数
eval_strategy
:按步数评估per_device_train_batch_size
:1024per_device_eval_batch_size
:1024learning_rate
:0.0003num_train_epochs
:1warmup_ratio
:0.1bf16
:Truebatch_sampler
:无重复采样
所有超参数
点击展开
overwrite_output_dir
:Falsedo_predict
:Falseeval_strategy
:stepsprediction_loss_only
:Trueper_device_train_batch_size
:1024per_device_eval_batch_size
:1024per_gpu_train_batch_size
:Noneper_gpu_eval_batch_size
:Nonegradient_accumulation_steps
:1eval_accumulation_steps
:Nonetorch_empty_cache_steps
:Nonelearning_rate
:0.0003weight_decay
:0.0adam_beta1
:0.9adam_beta2
:0.999adam_epsilon
:1e-08max_grad_norm
:1.0num_train_epochs
:1max_steps
:-1lr_scheduler_type
:linearlr_scheduler_kwargs
:{}warmup_ratio
:0.1warmup_steps
:0log_level
:passivelog_level_replica
:warninglog_on_each_node
:Truelogging_nan_inf_filter
:Truesave_safetensors
:Truesave_on_each_node
:Falsesave_only_model
:Falserestore_callback_states_from_checkpoint
:Falseno_cuda
:Falseuse_cpu
:Falseuse_mps_device
:Falseseed
:42data_seed
:Nonejit_mode_eval
:Falseuse_ipex
:Falsebf16
:Truefp16
:Falsefp16_opt_level
:O1half_precision_backend
:autobf16_full_eval
:Falsefp16_full_eval
:Falsetf32
:Nonelocal_rank
:0ddp_backend
:Nonetpu_num_cores
:Nonetpu_metrics_debug
:Falsedebug
:[]dataloader_drop_last
:Falsedataloader_num_workers
:0dataloader_prefetch_factor
:Nonepast_index
:-1disable_tqdm
:Falseremove_unused_columns
:Truelabel_names
:Noneload_best_model_at_end
:Falseignore_data_skip
:Falsefsdp
:[]fsdp_min_num_params
:0fsdp_config
:{'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
:Noneaccelerator_config
:{'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
:Nonelabel_smoothing_factor
:0.0optim
:adamw_torchoptim_args
:Noneadafactor
:Falsegroup_by_length
:Falselength_column_name
:lengthddp_find_unused_parameters
:Noneddp_bucket_cap_mb
:Noneddp_broadcast_buffers
:Falsedataloader_pin_memory
:Truedataloader_persistent_workers
:Falseskip_memory_metrics
:Trueuse_legacy_prediction_loop
:Falsepush_to_hub
:Falseresume_from_checkpoint
:Nonehub_model_id
:Nonehub_strategy
:every_savehub_private_repo
:Nonehub_always_push
:Falsegradient_checkpointing
:Falsegradient_checkpointing_kwargs
:Noneinclude_inputs_for_metrics
:Falseinclude_for_metrics
:[]eval_do_concat_batches
:Truefp16_backend
:autopush_to_hub_model_id
:Nonepush_to_hub_organization
:Nonemp_parameters
:auto_find_batch_size
:Falsefull_determinism
:Falsetorchdynamo
:Noneray_scope
:lastddp_timeout
:1800torch_compile
:Falsetorch_compile_backend
:Nonetorch_compile_mode
:Nonedispatch_batches
:Nonesplit_batches
:Noneinclude_tokens_per_second
:Falseinclude_num_input_tokens_seen
:Falseneftune_noise_alpha
:Noneoptim_target_modules
:Nonebatch_eval_metrics
:Falseeval_on_start
:Falseuse_liger_kernel
:Falseeval_use_gather_object
:Falseaverage_tokens_across_devices
:Falseprompts
:Nonebatch_sampler
:no_duplicatesmulti_dataset_batch_sampler
:proportional
训练日志
轮次(Epoch) | 步数(Step) | 训练损失(Training Loss) | 验证损失(Validation Loss) |
---|---|---|---|
0.0457 | 10 | 6.5431 | - |
0.0913 | 20 | 4.3376 | - |
0.1370 | 30 | 3.0217 | - |
0.1826 | 40 | 2.5811 | - |
0.2283 | 50 | 2.4191 | 2.2439 |
0.2740 | 60 | 2.2218 | - |
0.3196 | 70 | 2.1584 | - |
0.3653 | 80 | 2.0668 | - |
0.4110 | 90 | 2.0528 | - |
0.4566 | 100 | 2.0014 | 1.9200 |
0.5023 | 110 | 1.9779 | - |
0.5479 | 120 | 1.9102 | - |
0.5936 | 130 | 1.9071 | - |
0.6393 | 140 | 1.8794 | - |
0.6849 | 150 | 1.8269 | 1.8022 |
0.7306 | 160 | 1.8606 | - |
0.7763 | 170 | 1.8572 | - |
0.8219 | 180 | 1.8332 | - |
0.8676 | 190 | 1.8227 | - |
0.9132 | 200 | 1.7875 | 1.7674 |
0.9589 | 210 | 1.8351 | - |
框架版本
- Python:3.11.9
- Sentence Transformers:3.4.1
- Transformers:4.49.0
- PyTorch:2.6.0+cu124
- Accelerate:1.4.0
- Datasets:3.3.2
- Tokenizers:0.21.0
📄 引用
BibTeX
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98