輕量級預訓練

# 輕量級預訓練

Mamba-1B是一個基於Mamba架構的1B參數規模的語言模型，支持英文文本生成任務。

大型語言模型

Transformers 英語

Tinymistral 248M GGUF

TinyMistral-248M 是一個基於 Mistral 7B 模型預訓練的小型語言模型，參數規模縮減至約2.48億，主要用於下游任務的微調。

大型語言模型英語

Tinymistral 248M

基於Mistral 7B模型縮減至2.48億參數的語言模型，專為文本生成任務設計，適用於下游任務微調。

大型語言模型

Transformers 英語

T5 Finetune Cnndaily News

基於Transformer架構的輕量級預訓練編碼器-解碼器模型，專用於中文新聞摘要生成任務。

Transformers 英語

一個小型BERT語言模型，採用首字符預測作為預訓練目標

大型語言模型

Bert Ascii Small

一個小型BERT語言模型，通過預測被遮蔽標記中字符的ASCII碼值之和作為預訓練目標進行預訓練。

大型語言模型

Roberta Medium Word Chinese Cluecorpussmall

基於CLUECorpusSmall預訓練的中文分詞版RoBERTa中型模型，採用8層512隱藏層架構，相比字符版模型在多項任務中表現更優

大型語言模型中文

Chinese Roberta L 2 H 128

這是一個基於CLUECorpusSmall預訓練的中文RoBERTa中型模型，具有8層網絡和512維隱藏層，適用於多種中文自然語言處理任務。

大型語言模型中文

Chinese Roberta L 4 H 768

基於CLUECorpusSmall預訓練的24箇中文RoBERTa模型系列之一，採用UER-py框架訓練，支持掩碼語言建模和文本特徵提取。

大型語言模型中文

Chinese Roberta L 4 H 256

基於CLUECorpusSmall預訓練的中文RoBERTa模型，參數規模為8層512隱藏層，適用於多種中文NLP任務。

大型語言模型中文

Bert L12 H256 A4

基於知識蒸餾技術預訓練的輕量級BERT模型，隱藏層維度為256，配備4個注意力頭，適用於掩碼語言建模任務。

大型語言模型

Chinese Legal Electra Small Generator

中文ELECTRA是哈工大-訊飛聯合實驗室基於谷歌ELECTRA模型發佈的中文預訓練模型，體積小且性能優越。

大型語言模型

Transformers 中文

Chinese Roberta L 2 H 512

基於CLUECorpusSmall預訓練的中文RoBERTa模型，包含8層網絡和512維隱藏層，適用於多種中文NLP任務。

大型語言模型中文

Chinese Roberta L 8 H 512

基於CLUECorpusSmall預訓練的中文RoBERTa模型，參數規模為8層512隱藏單元，支持掩碼語言建模任務。

大型語言模型中文

Chinese Roberta L 6 H 256

基於CLUECorpusSmall預訓練的中文RoBERTa模型，參數規模為8層512隱藏單元

大型語言模型中文

Chinese Roberta L 12 H 768

基於RoBERTa架構的中文預訓練語言模型，隱藏層維度512，包含8層Transformer結構

大型語言模型中文

Chinese Roberta L 4 H 512

這是一個基於RoBERTa架構的中文預訓練語言模型，參數規模為8層512隱藏單元，適用於多種中文自然語言處理任務。

大型語言模型中文

Chinese Roberta L 6 H 768

基於CLUECorpusSmall預訓練的中文RoBERTa中型模型，具有8層網絡和512維隱藏層，適用於多種中文NLP任務。

大型語言模型中文

SEW-tiny是由ASAPP Research開發的壓縮高效型語音預訓練模型，基於16kHz採樣的語音音頻進行預訓練，適用於多種下游語音任務。

Transformers 支持多種語言

Mengzi Oscar Base Caption

基於中文多模態預訓練模型孟子-奧斯卡，在AIC-ICC中文圖像描述數據集上微調而成的中文多模態圖像描述模型

圖像生成文本

Transformers 中文

Bert Base Arabic Camelbert Msa Sixteenth

針對阿拉伯語NLP任務的預訓練模型，在縮減規模(1/16)的現代標準阿拉伯語(MSA)數據集上訓練

大型語言模型阿拉伯語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase