低資源語言優化

# 低資源語言優化

TY Ecomm Embed Multilingual Base V1.2.0

GTE-Multilingual-Base 是一個多語言句子嵌入模型，支持多種語言的句子相似度計算。

文本嵌入支持多種語言

Emma 500 Llama2 7b

EMMA-500 是基於 Llama 2 7B 架構的多語言大語言模型，支持 500 多種語言，在常識推理、機器翻譯等任務中表現卓越。

大型語言模型

Nllb1.3 Smugri4 V0.01

這是對NLLB-1.3b模型針對29種芬蘭-烏戈爾語族語言的平行數據進行微調的版本，支持多種方言/變體生成。

Transformers 支持多種語言

Seallms Audio 7B

SeaLLMs-Audio是面向東南亞的大規模音頻語言模型，支持印尼語、泰語、越南語、英語和中文五大語種，具備音頻分析、語音交互等能力。

音頻生成文本支持多種語言

Khmer Sentiment Xlm Roberta Base

針對高棉語金融文本優化的情感分析模型，可分類積極/消極情感

Transformers 其他

Stt Bm Quartznet15x5 V0

這是一個基於NVIDIA NeMo框架微調的班巴拉語自動語音識別模型，適用於處理班巴拉語語音轉文本任務。

語音識別其他

Asr Whisper Large V3 Salt

基於whisper-large-v3適配的語音識別模型，專門針對烏干達地區多種語言優化

Transformers 支持多種語言

Chitrarth是一個多語言視覺語言模型，旨在連接視覺與語言，特別關注印度多種語言的支持。

圖像生成文本支持多種語言

krutrim-ai-labs

Fish Speech 1.5 Ukrainian

基於Fish Speech 1.5微調的烏克蘭語專用語音合成模型，支持55位說話人的高質量語音生成

語音合成其他

En To Dzo Nllb Mul Mt Nlp M4

該模型是基於facebook/nllb-200-distilled-600M微調的英語到宗喀語(Dzongkha)翻譯模型

Zeref02210217-cst

Whisper Small Uzbek

基於OpenAI Whisper-small微調的烏茲別克語自動語音識別模型，在Common Voice 17.0數據集上訓練

Transformers 其他

Llama SEA LION V3 8B

Llama-SEA-LION-v3-8B 是一個針對東南亞語言優化的多語言大語言模型，支持11種東南亞語言，並在約2000億個標記上進行了持續預訓練。

大型語言模型

Transformers 支持多種語言

首個高性能沃洛夫語開源語言模型，基於Qwen 2.5架構打造，支持沃洛夫語與英語的雙向翻譯、文本生成等任務

大型語言模型

Transformers 支持多種語言

soynade-research

魚語語音 V1.5 是一款領先的文本轉語音（TTS）模型，基於超過100萬小時的多語言音頻數據訓練而成。

語音合成支持多種語言

Nllb 200 Distilled 600M Ctranslate2

NLLB-200是一個支持200種語言的神經機器翻譯模型，特別關注低資源語言的翻譯質量。

機器翻譯支持多種語言

Nllb 200 3.3B Ctranslate2

NLLB-200是一個支持200種語言的神經機器翻譯模型，專注於低資源語言的翻譯研究。

機器翻譯支持多種語言

OpenLID-v2是一個高覆蓋、高性能的語言識別模型，支持200種語言變體，是OpenLID的改進版本。

Madlad400 7b Mt Bt Q4 K M GGUF

一個支持超過150種語言的多語言處理模型，適用於多種自然語言處理任務。

大型語言模型支持多種語言

Jina Embeddings V3

Jina Embeddings V3 是一個多語言句子嵌入模型，支持超過100種語言，專注於句子相似度和特徵提取任務。

Transformers 支持多種語言

EXLMR是XLM-R的擴展版本，通過擴充分詞器詞彙表支持新語言並緩解未登錄詞問題，特別針對埃塞俄比亞低資源語言優化。

大型語言模型

Transformers 其他

XLSR WithLM Malayalam

該模型是基於facebook/wav2vec2-xls-r-300m在IMaSC、Indic TTS Malayalam和OpenSLR Malayalam訓練集數據集上微調得到的版本，支持馬拉雅拉姆語自動語音識別。

Nllb 200 Ko Gec 3.3B

支持超過100種語言和文字系統的多語言文本處理模型，涵蓋多種阿拉伯語方言和少數民族語言

大型語言模型

Transformers 支持多種語言

Llamax3 8B Alpaca

LLaMAX是一款具備強大多語言能力的語言模型，支持超100種語言的翻譯，性能超越同等規模的大語言模型。

大型語言模型

SSA HuBERT Base 60k

基於HuBERT架構的自監督語音模型，專門針對撒哈拉以南非洲地區21種語言優化，訓練數據達6萬小時

Poro 34B聊天版是基於Poro 34B微調的指令跟隨模型，支持芬蘭語和英語雙語言交互，由Silo AI、TurkuNLP小組與HPLT聯合開發。

大型語言模型

Transformers 支持多種語言

NusaBERT基礎版是基於BERT架構的多語言編碼器語言模型，支持13種印度尼西亞地區語言，在多個開源語料庫上進行了預訓練。

大型語言模型

Transformers 其他

維京33B是一個330億參數的純解碼器架構Transformer模型，支持芬蘭語、英語及北歐多種語言處理，同時具備代碼理解與生成能力。

大型語言模型

Transformers 支持多種語言

Afro Xlmr Large 76L

AfroXLMR-large-76L 是通過對擴展的 XLM-R-large 模型進行 MLM（掩碼語言建模）適應而創建的，覆蓋了非洲廣泛使用的 76 種語言，包括 4 種高資源語言。

大型語言模型支持多種語言

維京13B是一個130億參數的多語言大模型，支持芬蘭語、英語及北歐諸語言，具備代碼處理能力

大型語言模型

Transformers 支持多種語言

維京7B是一個70億參數的Transformer模型，專注於處理芬蘭語、北歐語言及編程代碼，基於2萬億token訓練。

大型語言模型

Transformers 支持多種語言

Aya 101 是一個支持101種語言指令的大規模多語言生成式語言模型，在各類評估中優於同類模型。

大型語言模型

Transformers 支持多種語言

Nllb Moe 54b 4bit

NLLB-MoE是Meta開發的混合專家機器翻譯模型，支持200種語言，是目前最先進的開放訪問機器翻譯模型之一。

Transformers 支持多種語言

KnutJaegersberg

基於GPT2架構的緬甸語語言模型，支持緬文理解和生成

大型語言模型

Transformers 其他

Gpt Sw3 20b Instruct 4bit Gptq

GPT-SW3是由AI瑞典開發的大型北歐語言模型，支持5種北歐語言和英語的文本生成任務。

大型語言模型

Transformers 支持多種語言

AI-Sweden-Models

Madlad400 10b Mt

一個支持超過100種語言的通用語言模型，適用於多種自然語言處理任務。

大型語言模型支持多種語言

Madlad400 3b Mt

一個支持超過100種語言的多語言處理模型，適用於多種自然語言處理任務。

大型語言模型支持多種語言

Madlad400 8b Lm

一個支持超過200種語言的多語言處理模型，適用於多種自然語言處理任務。

大型語言模型支持多種語言

Madlad400 7b Mt

這是一個支持超過150種語言的通用模型，適用於多種自然語言處理任務。

大型語言模型支持多種語言

Wav2vec2 Phenome Based Alffaamharic

基於wav2vec2的語音識別模型，針對阿姆哈拉語進行了音素級別的微調

Nllb Clip Large Oc

NLLB-CLIP是一個結合NLLB模型文本編碼器與CLIP圖像編碼器的多語言視覺語言模型，支持201種語言。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase