Doge 20M Chinese
Apache-2.0
Dogeモデルは動的マスクアテンションメカニズムを使用してシーケンス変換を行い、多層パーセプトロンまたはクロスドメインエキスパート混合を選択して状態変換を行うことができます。
大規模言語モデル
Transformers 複数言語対応

D
wubingheng
65
2
Minueza 2 96M
Apache-2.0
Llamaアーキテクチャに基づくコンパクトな言語モデルで、英語とポルトガル語をサポート、パラメータ数9600万、4096トークンのコンテキスト長に対応。
大規模言語モデル
Transformers 複数言語対応

M
Felladrin
357
6
Doge 320M Instruct
Apache-2.0
Doge 320M 指導版は動的マスクアテンションを基にした軽量言語モデルで、教師ありファインチューニング(SFT)と直接選好最適化(DPO)で訓練され、質問応答や対話タスクに適しています。
大規模言語モデル
Transformers 英語

D
SmallDoge
12.61k
3
Bonsai
盆栽は5億パラメータの小型三値重み付け言語モデルで、LlamaアーキテクチャとMistralトークナイザーを使用し、トレーニングに使用されたトークン数は50億未満です。
大規模言語モデル
Transformers

B
deepgrove
113
8
Doge 160M
Apache-2.0
Doge 160M は動的マスクアテンションメカニズムを採用した小型言語モデルで、SmallDoge コミュニティによってトレーニングされ、テキスト生成タスクをサポートします。
大規模言語モデル
Transformers 複数言語対応

D
SmallDoge
4,227
4
Doge 20M Instruct
Apache-2.0
Doge 20Mは動的マスクアテンション機構に基づく小型言語モデルで、命令追従と質問応答タスクをサポートします。
大規模言語モデル
Transformers 英語

D
SmallDoge
5,010
4
Teenytinyllama 160m Text Simplification Ptbr
Apache-2.0
これはポルトガル語テキストの圧縮と構造化処理に特化した小型言語モデルで、33万件のポルトガル語テキストで訓練されています。
テキスト生成
Transformers その他

T
cnmoro
50
2
Simple Stories 4M
MIT
Simple StoriesはTinyStoriesデータセットでトレーニングされた小型テキスト生成モデルシリーズで、児童向けストーリー生成に特化しています。
テキスト生成
Transformers 英語

S
broskicodes
104
16
Chargpt 96M
Openrail
CharGPT-96M は文字レベル分かち書きを採用した小型言語モデルで、様々な実験シナリオに適しており、特にBPE(サブワード)分かち書きがタスクのパフォーマンス低下を引き起こす場合に有効です。
大規模言語モデル
Transformers その他

C
inkoziev
70
3
Tinystories 1M
TinyStories-1Mは、TinyStoriesデータセットを使って訓練された小型言語モデルで、子供向けのシンプルな物語を生成するために特別に設計されています。
大規模言語モデル
Transformers

T
roneneldan
37.99k
49
Minilm L12 H384 Uncased Finetuned Imdb
MIT
このモデルはMicrosoftのMiniLM-L12-H384-uncasedをIMDBデータセットでファインチューニングしたバージョンで、主に感情分析タスクに使用されます。
大規模言語モデル
Transformers

M
lewtun
18
0
Tiny Roberta Indonesia
MIT
これはインドネシア語に特化した小型RoBERTaモデルで、インドネシア語テキスト処理タスク向けに最適化されています。
大規模言語モデル
Transformers その他

T
akahana
17
1
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98