高效預訓練

# 高效預訓練

Open-Qwen2VL是一個多模態模型，能夠接收圖像和文本作為輸入並生成文本輸出。

圖像生成文本英語

Olmo2 11B SuperBPE T180k

110億參數大語言模型，採用創新的SuperBPE分詞器訓練，支持超詞單元識別和子詞分詞能力。

大型語言模型

Transformers 英語

GenMedClip 是一個基於 open_clip 庫的零樣本圖像分類模型，專注於醫學圖像分析。

Gte Multilingual Mlm Base

mGTE系列多語言文本編碼器，支持75種語言，最大上下文長度8192，基於BERT+RoPE+GLU架構，在GLUE和XTREME-R基準上表現優異

大型語言模型

Llama3 German 8B 32k

基於Meta Llama3-8B優化的德語大語言模型，通過650億德語語料持續預訓練，專為德語優化並支持32k長上下文

大型語言模型

Transformers 德語

Rho Math 1b V0.1

Rho-1是一個專注於數學領域的語言模型，通過選擇性語言建模(SLM)方法進行預訓練，顯著提升了數學問題解決的準確率。

大型語言模型

Transformers 英語

Tinyllama V1.1 Math Code

TinyLlama是一個11億參數的緊湊型語言模型，採用與Llama 2相同的架構和分詞器，適用於計算和內存資源有限的應用場景。

大型語言模型

Transformers 英語

TinyLlama是一個11億參數的小型語言模型，採用與Llama 2相同的架構和分詞器，適用於資源受限的應用場景。

大型語言模型

Transformers 英語

Ltg Bert Babylm

基於100MW BabyLM挑戰賽數據集訓練的BERT變體，優化了在中等規模語料庫上的表現

大型語言模型

Transformers 英語

Tinyllama 1.1B Intermediate Step 1431k 3T

TinyLlama是一個1.1B參數的Llama模型，預訓練使用了3萬億標記，旨在提供緊湊高效的文本生成能力。

大型語言模型

Transformers 英語

Tinyllama 1.1B Intermediate Step 1195k Token 2.5T

TinyLlama是一個1.1B參數的小型Llama模型，在3萬億token上預訓練，設計用於資源有限的環境。

大型語言模型

Transformers 英語

M2 Bert 80M 2k Retrieval

這是一個80M參數的M2-BERT預訓練檢查點，序列長度為2048，並已針對長上下文檢索任務進行微調。

Transformers 英語

togethercomputer

Retromae Small Cs

基於RetroMAE目標在捷克語網絡語料庫上預訓練的BERT-small模型，由Seznam.cz開發，適用於多種自然語言處理任務。

Transformers 其他

Sheared LLaMA 2.7B

Sheared-LLaMA-2.7B是基於Llama-2-7b通過剪枝和繼續預訓練得到的輕量級語言模型，僅消耗50B tokens預算。

大型語言模型

Sheared LLaMA 1.3B

Sheared-LLaMA-1.3B是基於LLaMA-2-7B通過結構化剪枝和持續預訓練得到的高效語言模型

大型語言模型

Tinyllama 1.1B Step 50K 105b

TinyLlama是一個1.1B參數的Llama模型，計劃在3萬億token上進行預訓練，優化後可在16塊A100-40G GPU上90天內完成訓練。

大型語言模型

Transformers 英語

CodeT5+ 16B是一個開源的代碼大語言模型家族，採用編碼器-解碼器架構，支持多種模式，適用於廣泛的代碼理解與生成任務。

大型語言模型

Videomae Small Finetuned Kinetics

VideoMAE是視頻領域的掩碼自編碼器模型，通過自監督預訓練並在Kinetics-400數據集上進行監督微調，適用於視頻分類任務。

Videomae Huge Finetuned Kinetics

VideoMAE是基於掩碼自編碼器(MAE)的視頻預訓練模型，通過自監督學習在Kinetics-400數據集上微調，適用於視頻分類任務。

VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型，通過預測被掩碼視頻塊的像素值學習視頻內部表示。

Efficient Mlm M0.15

該模型研究了在掩碼語言建模中遮蔽15%內容的有效性，採用了前置層歸一化方法。

大型語言模型

Distilbert Mlm 750k

DistilBERT 是 BERT 的輕量級蒸餾版本，保留了大部分性能但參數更少。

大型語言模型

vocab-transformers

Distilcamembert Base

DistilCamemBERT是法語CamemBERT模型的蒸餾版本，通過知識蒸餾技術顯著降低模型複雜度，同時保持性能。

大型語言模型

Transformers 法語

Arabictransformer Base

基於漏斗Transformer和ELECTRA目標的高效阿拉伯語模型，計算成本低且性能優越

大型語言模型

Rugpt3small Based On Gpt2

由SberDevices團隊開發的俄語預訓練Transformer語言模型，基於GPT2架構，支持1024序列長度，訓練數據達800億token。

大型語言模型其他

Bertin Roberta Base Spanish

BERTIN是一系列基於BERT的西班牙語模型，當前模型是在西班牙語mC4部分上使用Flax從頭訓練的RoBERTa-base模型。

大型語言模型西班牙語

Chinese Electra Large Generator

中文ELECTRA是由哈工大-訊飛聯合實驗室基於谷歌ELECTRA模型開發的中文預訓練模型，具有參數量小但性能優越的特點。

大型語言模型

Transformers 中文

Roberta Base Wechsel Swahili

使用WECHSEL方法訓練的RoBERTa基礎模型，專門針對斯瓦希里語進行優化，實現高效跨語言遷移。

大型語言模型

Transformers 其他

Bert Base Uncased Sparse 90 Unstructured Pruneofa

這是一個稀疏預訓練的BERT-Base模型，通過一次性修剪方法實現90%權重稀疏化，適用於多種語言任務微調。

大型語言模型

Transformers 英語

Chinese Mobile Bert

該模型基於2.5億中文語料庫，採用MobileBERT架構進行預訓練，訓練週期為15天，在單張A100顯卡上完成100萬步迭代。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase