Timemoe 200M
Apache-2.0
TimeMoE-200Mは、エキスパート混合(Mixture of Experts, MoE)アーキテクチャに基づく十億レベルの時系列基礎モデルで、時系列予測タスクに特化しています。
気候モデル
T
Maple728
14.01k
7
Codegen25 7b Multi P
Apache-2.0
CodeGen2.5はプログラム合成のための自己回帰型言語モデルシリーズで、CodeGen2を改良し、StarCoderDataでトレーニングされ、小規模ながら高性能を実現しています。
大規模言語モデル
Transformers

C
Salesforce
839
139
Xdoc Base Squad2.0
MIT
XDocは統一プリトレーニングモデルで、単一のモデルで異なるフォーマットの文書を処理できます。わずか36.7%のパラメータ量で、XDocは下流タスクにおいて同等またはそれ以上の性能を発揮し、実際の展開において顕著なコスト効率を実現します。
大規模言語モデル
Transformers

X
microsoft
36
1
T5 Efficient Tiny Nl32
Apache-2.0
T5-Efficient-TINY-NL32はGoogleオリジナルT5のバリエーションで、深層ナローアーキテクチャを採用し、モデルの深さを優先して下流タスクの性能を最適化しています。
大規模言語モデル 英語
T
google
209
4
T5 Efficient Tiny
Apache-2.0
T5-Efficient-TINYはGoogleのT5モデルの深層ナロー変種で、モデルの幅ではなく深さを増やすことで下流タスクの性能向上を図っています。
大規模言語モデル 英語
T
google
8,337
26
T5 Efficient Tiny Nl2
Apache-2.0
T5-Efficient-TINY-NL2はGoogleオリジナルT5のバリエーションで、深層ナローアーキテクチャを採用し、下流タスクの性能向上に焦点を当てています。
大規模言語モデル 英語
T
google
334
0
T5 Efficient Base Nl48
Apache-2.0
T5-Efficient-BASE-NL48 は Google T5 のバリエーションで、深度狭幅アーキテクチャを採用し、下流タスクの性能向上のためにモデルの深さを優先的に増やしています。
大規模言語モデル 英語
T
google
14
1
T5 Efficient Large Dm2000
Apache-2.0
T5効率的ラージ-DM2000はGoogleのT5モデルのバリアントで、深層ナローアーキテクチャを採用し、下流タスクの性能向上のためにモデルの深さを優先的に増やしています。
大規模言語モデル 英語
T
google
16
0
Deberta V3 Xsmall
MIT
DeBERTaV3はマイクロソフトが提案した改良版DeBERTaモデルで、ELECTRAスタイルの勾配分離埋め込み共有事前学習方法により効率を向上させ、自然言語理解タスクで優れた性能を発揮します。
大規模言語モデル
Transformers 英語

D
microsoft
87.40k
43
T5 Efficient Base
Apache-2.0
T5 - Efficient - BASEはGoogleのT5アーキテクチャをベースにしたバリエーションで、深度狭型設計を採用して下流タスクの性能を最適化し、パラメータ数は2億2290万です。
大規模言語モデル 英語
T
google
735
10
T5 Efficient Small Nl22
Apache-2.0
T5効率的小型-NL22はGoogleのT5モデルの深層ナロー変種で、モデルの深さを増やすことで下流タスクの性能向上に焦点を当てています。
大規模言語モデル 英語
T
google
17
0
T5 Efficient Small Kv32
Apache-2.0
T5-Efficient-SMALL-KV32はGoogleオリジナルT5のバリアントで、深層ナローアーキテクチャを採用し、下流タスクの性能向上に焦点を当てています。
大規模言語モデル 英語
T
google
16
0
T5 Efficient Tiny Nl8
Apache-2.0
T5-Efficient-TINY-NL8はGoogle T5モデルの効率的なバリアントで、深層ナローアーキテクチャを採用し下流タスクの性能を最適化しています。
大規模言語モデル 英語
T
google
25
5
T5 Efficient Small Kv256
Apache-2.0
T5 - Efficient - SMALL - KV256はGoogleのT5のバリエーションで、深度狭幅アーキテクチャを採用して下流タスクの性能を最適化しています。パラメータ数は1.17億で、微調整が必要です。
大規模言語モデル 英語
T
google
16
0
T5 Efficient Tiny Ff12000
Apache-2.0
T5-Efficient-TINY-FF12000はGoogleオリジナルT5のバリエーションで、深層ナローアーキテクチャを採用し、類似パラメータ数のモデルと比較して優れた下流タスク性能を示します。
大規模言語モデル 英語
T
google
16
0
T5 Efficient Mini
Apache-2.0
T5-Efficient-MINIはGoogleオリジナルT5の変種で、深層ナローアーキテクチャを採用し、パラメータ数が類似するモデルアーキテクチャの中で優れた下流タスク性能を示します。
大規模言語モデル 英語
T
google
946
6
Chinese Legal Electra Small Generator
Apache-2.0
中国語ELECTRAは、ハルビン工業大学-iFLYTEK共同研究所がGoogleのELECTRAモデルを基にリリースした中国語事前学習モデルで、コンパクトかつ優れた性能を発揮します。
大規模言語モデル
Transformers 中国語

C
hfl
14
4
T5 Efficient Small Dm768
Apache-2.0
T5-Efficient-SMALL-DM768 は Google のオリジナル T5 のバリエーションで、ディープナローアーキテクチャを採用し、下流タスクの性能向上のためにモデルの深さを優先的に増やしています。
大規模言語モデル 英語
T
google
49
1
T5 Efficient Small
Apache-2.0
T5-Efficient-SMALLはGoogleオリジナルT5のバリアントで、ディープナローアーキテクチャを採用し、パラメータ数が近い場合、下流タスクの性能が他のアーキテクチャを上回ります。
大規模言語モデル 英語
T
google
1,032
4
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98