大规模语料库

# 大规模语料库

Ukr Roberta Base

基于乌克兰语大规模语料训练的RoBERTa基础模型，适用于乌克兰语自然语言处理任务

大型语言模型其他

ProcBERT是专为流程文本优化的预训练语言模型，基于大规模流程文本语料库（包含生物医学文献、化学专利和烹饪食谱）进行预训练，在下游任务中展现出卓越性能。

大型语言模型

Transformers 英语

FERNET-C5是一个基于捷克语的单语BERT基础模型，预训练数据来自93GB的捷克语大规模清洁爬取语料库（C5）。

大型语言模型

Transformers 其他

Wav2vec2 Base Nl Voxpopuli

基于VoxPopuli语料库荷兰语子集预训练的Wav2Vec2基础模型，适用于荷兰语语音识别任务。

Transformers 其他

Wav2vec2 Large Es Voxpopuli

基于VoxPopuli语料库西班牙语子集训练的大型语音预训练模型，适用于西班牙语语音识别任务

语音识别西班牙语

mT5是T5模型的多语言变体，基于覆盖101种语言的mC4语料库预训练，适用于多语言文本处理任务。

大型语言模型支持多种语言

Wav2vec2 FR 2.6K Base

基于2.6千小时法语语音训练的基础wav2vec2模型，不含自发语音数据

Transformers 法语

Wav2vec2 FR 3K Large

基于2.9K小时法语语音训练的大型wav2vec2模型，支持自发语音、朗读语音和广播语音处理

语音识别法语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase