低资源语言优化

# 低资源语言优化

TY Ecomm Embed Multilingual Base V1.2.0

GTE-Multilingual-Base 是一个多语言句子嵌入模型，支持多种语言的句子相似度计算。

文本嵌入支持多种语言

Emma 500 Llama2 7b

EMMA-500 是基于 Llama 2 7B 架构的多语言大语言模型，支持 500 多种语言，在常识推理、机器翻译等任务中表现卓越。

大型语言模型

Nllb1.3 Smugri4 V0.01

这是对NLLB-1.3b模型针对29种芬兰-乌戈尔语族语言的平行数据进行微调的版本，支持多种方言/变体生成。

Transformers 支持多种语言

Seallms Audio 7B

SeaLLMs-Audio是面向东南亚的大规模音频语言模型，支持印尼语、泰语、越南语、英语和中文五大语种，具备音频分析、语音交互等能力。

音频生成文本支持多种语言

Khmer Sentiment Xlm Roberta Base

针对高棉语金融文本优化的情感分析模型，可分类积极/消极情感

Transformers 其他

Stt Bm Quartznet15x5 V0

这是一个基于NVIDIA NeMo框架微调的班巴拉语自动语音识别模型，适用于处理班巴拉语语音转文本任务。

语音识别其他

Asr Whisper Large V3 Salt

基于whisper-large-v3适配的语音识别模型，专门针对乌干达地区多种语言优化

Transformers 支持多种语言

Chitrarth是一个多语言视觉语言模型，旨在连接视觉与语言，特别关注印度多种语言的支持。

图像生成文本支持多种语言

krutrim-ai-labs

Fish Speech 1.5 Ukrainian

基于Fish Speech 1.5微调的乌克兰语专用语音合成模型，支持55位说话人的高质量语音生成

语音合成其他

En To Dzo Nllb Mul Mt Nlp M4

该模型是基于facebook/nllb-200-distilled-600M微调的英语到宗喀语(Dzongkha)翻译模型

Zeref02210217-cst

Whisper Small Uzbek

基于OpenAI Whisper-small微调的乌兹别克语自动语音识别模型，在Common Voice 17.0数据集上训练

Transformers 其他

Llama SEA LION V3 8B

Llama-SEA-LION-v3-8B 是一个针对东南亚语言优化的多语言大语言模型，支持11种东南亚语言，并在约2000亿个标记上进行了持续预训练。

大型语言模型

Transformers 支持多种语言

首个高性能沃洛夫语开源语言模型，基于Qwen 2.5架构打造，支持沃洛夫语与英语的双向翻译、文本生成等任务

大型语言模型

Transformers 支持多种语言

soynade-research

鱼语语音 V1.5 是一款领先的文本转语音（TTS）模型，基于超过100万小时的多语言音频数据训练而成。

语音合成支持多种语言

Nllb 200 Distilled 600M Ctranslate2

NLLB-200是一个支持200种语言的神经机器翻译模型，特别关注低资源语言的翻译质量。

机器翻译支持多种语言

Nllb 200 3.3B Ctranslate2

NLLB-200是一个支持200种语言的神经机器翻译模型，专注于低资源语言的翻译研究。

机器翻译支持多种语言

OpenLID-v2是一个高覆盖、高性能的语言识别模型，支持200种语言变体，是OpenLID的改进版本。

Madlad400 7b Mt Bt Q4 K M GGUF

一个支持超过150种语言的多语言处理模型，适用于多种自然语言处理任务。

大型语言模型支持多种语言

Jina Embeddings V3

Jina Embeddings V3 是一个多语言句子嵌入模型，支持超过100种语言，专注于句子相似度和特征提取任务。

Transformers 支持多种语言

EXLMR是XLM-R的扩展版本，通过扩充分词器词汇表支持新语言并缓解未登录词问题，特别针对埃塞俄比亚低资源语言优化。

大型语言模型

Transformers 其他

XLSR WithLM Malayalam

该模型是基于facebook/wav2vec2-xls-r-300m在IMaSC、Indic TTS Malayalam和OpenSLR Malayalam训练集数据集上微调得到的版本，支持马拉雅拉姆语自动语音识别。

Nllb 200 Ko Gec 3.3B

支持超过100种语言和文字系统的多语言文本处理模型，涵盖多种阿拉伯语方言和少数民族语言

大型语言模型

Transformers 支持多种语言

Llamax3 8B Alpaca

LLaMAX是一款具备强大多语言能力的语言模型，支持超100种语言的翻译，性能超越同等规模的大语言模型。

大型语言模型

SSA HuBERT Base 60k

基于HuBERT架构的自监督语音模型，专门针对撒哈拉以南非洲地区21种语言优化，训练数据达6万小时

Poro 34B聊天版是基于Poro 34B微调的指令跟随模型，支持芬兰语和英语双语言交互，由Silo AI、TurkuNLP小组与HPLT联合开发。

大型语言模型

Transformers 支持多种语言

NusaBERT基础版是基于BERT架构的多语言编码器语言模型，支持13种印度尼西亚地区语言，在多个开源语料库上进行了预训练。

大型语言模型

Transformers 其他

维京33B是一个330亿参数的纯解码器架构Transformer模型，支持芬兰语、英语及北欧多种语言处理，同时具备代码理解与生成能力。

大型语言模型

Transformers 支持多种语言

Afro Xlmr Large 76L

AfroXLMR-large-76L 是通过对扩展的 XLM-R-large 模型进行 MLM（掩码语言建模）适应而创建的，覆盖了非洲广泛使用的 76 种语言，包括 4 种高资源语言。

大型语言模型支持多种语言

维京13B是一个130亿参数的多语言大模型，支持芬兰语、英语及北欧诸语言，具备代码处理能力

大型语言模型

Transformers 支持多种语言

维京7B是一个70亿参数的Transformer模型，专注于处理芬兰语、北欧语言及编程代码，基于2万亿token训练。

大型语言模型

Transformers 支持多种语言

Aya 101 是一个支持101种语言指令的大规模多语言生成式语言模型，在各类评估中优于同类模型。

大型语言模型

Transformers 支持多种语言

Nllb Moe 54b 4bit

NLLB-MoE是Meta开发的混合专家机器翻译模型，支持200种语言，是目前最先进的开放访问机器翻译模型之一。

Transformers 支持多种语言

KnutJaegersberg

基于GPT2架构的缅甸语语言模型，支持缅文理解和生成

大型语言模型

Transformers 其他

Gpt Sw3 20b Instruct 4bit Gptq

GPT-SW3是由AI瑞典开发的大型北欧语言模型，支持5种北欧语言和英语的文本生成任务。

大型语言模型

Transformers 支持多种语言

AI-Sweden-Models

Madlad400 10b Mt

一个支持超过100种语言的通用语言模型，适用于多种自然语言处理任务。

大型语言模型支持多种语言

Madlad400 3b Mt

一个支持超过100种语言的多语言处理模型，适用于多种自然语言处理任务。

大型语言模型支持多种语言

Madlad400 8b Lm

一个支持超过200种语言的多语言处理模型，适用于多种自然语言处理任务。

大型语言模型支持多种语言

Madlad400 7b Mt

这是一个支持超过150种语言的通用模型，适用于多种自然语言处理任务。

大型语言模型支持多种语言

Wav2vec2 Phenome Based Alffaamharic

基于wav2vec2的语音识别模型，针对阿姆哈拉语进行了音素级别的微调

Nllb Clip Large Oc

NLLB-CLIP是一个结合NLLB模型文本编码器与CLIP图像编码器的多语言视觉语言模型，支持201种语言。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase