多語言預訓練

# 多語言預訓練

Multilingual Albert Base Cased 128k

基於掩碼語言建模(MLM)目標預訓練的多語言ALBERT模型，支持60+種語言，具有參數共享的輕量級架構

大型語言模型

Transformers 支持多種語言

Multilingual Albert Base Cased 32k

基於掩碼語言建模目標預訓練的多語言ALBERT模型，支持50+種語言，區分大小寫

大型語言模型

Transformers 支持多種語言

UMT5是基於mC4多語種語料庫預訓練的多語言文本生成模型，支持107種語言，採用UniMax採樣策略優化語言平衡

大型語言模型

Transformers 支持多種語言

基於mC4多語種語料庫預訓練的多語言文本生成模型，支持107種語言

大型語言模型

Transformers 支持多種語言

基於mC4多語言語料庫預訓練的統一多語言T5模型，覆蓋107種語言

大型語言模型

Transformers 支持多種語言

Codegen 350m Html

CodeGen-HTML 350M是基於CodeGen-Multi 350M微調的自迴歸語言模型，專門用於HTML代碼生成。

大型語言模型

Transformers 其他

Infoxlm German Question Answering

基於InfoXLM-large微調的德語問答系統模型，在GermanQuAD和SQuAD數據集上訓練

Transformers 德語

Persian Xlm Roberta Large

基於XLM-RoBERTA多語言預訓練模型，在波斯語問答數據集PQuAD上微調的問答模型

pedramyazdipoor

Xlm Roberta Base Finetuned Panx Fr

基於XLM-RoBERTa-base模型在xtreme數據集上微調的法語標記分類模型

Mt5 Base Dacsa Es

該模型是基於mT5基礎模型針對西班牙語文本摘要任務進行微調的版本，特別適用於新聞文章的摘要生成。

Transformers 西班牙語

Xlm Roberta Base Finetuned Panx De

基於XLM-RoBERTa-base模型在xtreme數據集上微調的德語標記分類模型

Wav2vec2 Large Xlsr 53 Toy Train Data Augment 0.1.csv

該模型是基於facebook/wav2vec2-base微調的語音識別模型，使用數據增強技術訓練

Mbart Large 50 Many To Many Mmt

基於mBART-large-50微調的多語言機器翻譯模型，支持50種語言間的互譯

機器翻譯支持多種語言

Phoneme Test 5 Sv

該模型是基於facebook/wav2vec2-xls-r-300m在MULTILINGUAL_LIBRISPEECH - 德語10小時數據集上微調的版本，用於德語語音識別任務。

patrickvonplaten

Wav2vec2 Base 10k Voxpopuli Ft Nl

基於Facebook Wav2Vec2架構的語音識別模型，在VoxPopuli語料庫的10K未標記荷蘭語數據上預訓練，並在荷蘭語轉錄數據上微調。

Transformers 其他

Wav2vec2 Base 10k Voxpopuli Ft Pl

基於VoxPopuli語料庫10K未標註數據預訓練，並在波蘭語轉錄數據上微調的Wav2Vec2語音識別模型

Transformers 其他

CINO是針對中國少數民族語言的多語言預訓練模型，支持中文及7種少數民族語言，基於XLM-R框架構建。

大型語言模型

Transformers 支持多種語言

Tf Xlm Roberta Base

XLM-RoBERTa是一種跨語言句子編碼器的擴展版本，基於100種語言的2.5T數據訓練，在多項跨語言基準測試中表現優異。

大型語言模型

Wav2vec2 Base 10k Voxpopuli Ft Sk

基於VoxPopuli語料庫10K未標註數據預訓練，並在斯洛伐克語轉錄數據上微調的語音識別模型

Transformers 其他

Wav2vec2 Base 10k Voxpopuli Ft Fi

基於Facebook Wav2Vec2基礎模型，在VoxPopuli語料庫的10K未標註子集上預訓練，並在芬蘭語轉錄數據上微調的自動語音識別模型。

Transformers 其他

Wav2vec2 Xlsr Multilingual 53 Fa

基於wav2vec 2.0架構的多語言語音識別模型，專門針對波斯語進行微調，顯著降低詞錯誤率

Wav2vec2 Large Xlsr Turkish Demo

該模型是基於土耳其語Common Voice數據集微調的XLSR-Wav2Vec2語音識別模型，主要用於土耳其語語音轉文本任務。

patrickvonplaten

Wav2vec2 Base 10k Voxpopuli Ft Cs

基於Facebook Wav2Vec2架構的語音識別模型，使用VoxPopuli語料庫的10K未標記捷克語數據進行預訓練，並在捷克語轉錄數據上微調。

Transformers 其他

Xlm Roberta Large

XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型，採用掩碼語言建模目標進行訓練。

大型語言模型支持多種語言

Xlm Mlm 17 1280

XLM模型是基於17種語言文本訓練的跨語言預訓練模型，採用掩碼語言建模(MLM)目標

大型語言模型

Transformers 支持多種語言

Xlm Roberta Large Finetuned Conll03 German

基於XLM-RoBERTa-large模型在德語CoNLL-2003數據集上微調的多語言命名實體識別模型

序列標註支持多種語言

Xlm Roberta Large Finetuned Conll02 Spanish

基於XLM-RoBERTa-large模型在西班牙語CoNLL-2002數據集上微調的命名實體識別模型

序列標註支持多種語言

Xlm Roberta Large Ner Spanish

基於XLM-Roberta-large架構微調的西班牙語命名實體識別模型，在CoNLL-2002數據集上表現優異。

Transformers 西班牙語

Xlm Roberta Base English Upos

基於XLM-RoBERTa的英語詞性標註和依存句法分析模型

Transformers 支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase