Bytedance BAGEL 7B MoT INT8
Apache-2.0
BAGELはオープンソースの7Bアクティブパラメータマルチモーダル基盤モデルで、マルチモーダル理解と生成タスクをサポートします
テキスト生成画像
B
Gapeleon
190
20
BAGEL 7B MoT
Apache-2.0
BAGELはオープンソースの、70億の活性化パラメータを持つマルチモーダル基盤モデルで、大規模なインターレースマルチモーダルデータで訓練され、理解と生成タスクで優れた性能を発揮します。
テキスト生成画像
B
ByteDance-Seed
4,736
769
Qwen3 1.7B GGUF
Apache-2.0
Qwen3は通義千問シリーズの大規模言語モデルの最新バージョンで、一連の高密度型および混合エキスパート(MoE)モデルを提供しています。大規模なトレーニングに基づき、Qwen3は推論、指示追従、エージェント能力、多言語サポートにおいて画期的な進歩を実現しました。
大規模言語モデル 英語
Q
prithivMLmods
357
1
Ling Lite 1.5
MIT
霊曦はInclusionAIがオープンソース化した大規模混合エキスパート言語モデルで、簡易版は総パラメータ168億、活性化パラメータ27.5億を有し、卓越した性能を発揮します。
大規模言語モデル
Transformers

L
inclusionAI
46
3
Qwen3 30B A1.5B High Speed
Qwen3-30Bの高速最適化バージョンで、活性化エキスパート数を減らすことで推論速度を倍増させ、迅速な応答が必要なテキスト生成シナリオに適しています
大規模言語モデル
Transformers

Q
DavidAU
179
7
Qwen3 235B A22B AWQ
Apache-2.0
Qwen3-235B-A22BはQwenシリーズ最新世代の大規模言語モデルで、混合エキスパート(MoE)アーキテクチャを採用し、2350億パラメータと220億活性化パラメータを持ち、推論、指示追従、エージェント能力、多言語サポートにおいて卓越した性能を発揮します。
大規模言語モデル
Transformers

Q
cognitivecomputations
2,563
9
Nomic Embed Text V2 GGUF
Apache-2.0
Nomic Embed Text V2 GGUF は70以上の言語をサポートする多言語テキスト埋め込みモデルで、文類似度計算や特徴抽出タスクに適しています。
テキスト埋め込み 複数言語対応
N
ggml-org
317
3
Qwen3 235B A22B GGUF
MIT
Qwen3-235B-A22Bは2350億パラメータの大規模言語モデルで、ik_llama.cppブランチの先進的な非線形量子化処理を経ており、高性能計算環境に適しています。
大規模言語モデル
Q
ubergarm
889
16
Qwen3 235B A22B
Apache-2.0
Qwen3は通義千問シリーズの大規模言語モデルの最新バージョンで、密モデルと混合エキスパート(MoE)モデルの完全なスイートを提供し、推論、指示追従、エージェント能力、多言語サポートにおいて画期的な進歩を実現しています。
大規模言語モデル
Transformers

Q
Qwen
159.10k
849
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
その他
ラマ4スカウトはMetaが発表した170億パラメータの混合エキスパートモデル(MoE)で、多言語テキストと画像理解をサポートし、PEFT/LoRA互換性を考慮した線形化エキスパートモジュール設計を採用しています。
マルチモーダル融合
Transformers 複数言語対応

L
axolotl-quants
6,861
3
Doge 120M MoE Instruct
Apache-2.0
Dogeモデルは動的マスクアテンション機構を使用してシーケンス変換を行い、多層パーセプトロンまたはクロスドメイン混合エキスパートを使用して状態変換が可能です。
大規模言語モデル
Transformers 英語

D
SmallDoge
240
1
Llama 4 Maverick 17B 128E
その他
Llama 4 MaverickはMetaが開発したマルチモーダルAIモデルで、混合エキスパートアーキテクチャを採用し、テキストと画像の理解をサポート、170億の活性化パラメータと4000億の総パラメータを有しています。
テキスト生成画像
Transformers 複数言語対応

L
meta-llama
3,261
69
Deepseek V3 0324 GGUF
MIT
DeepSeek-V3-0324はDeepSeekチームがリリースした3月の更新バージョンで、前世代と比較して複数のベンチマークテストで大幅な向上が見られ、動的量子化バージョンをサポートし、ローカル推論に適しています。
大規模言語モデル 英語
D
unsloth
108.44k
177
Deepseek R1
MIT
DeepSeek-R1は深度求索が開発した第一世代推論モデルで、大規模な強化学習トレーニングにより、数学、コード、推論タスクで優れた性能を発揮します。
大規模言語モデル
Transformers

D
deepseek-ai
1.7M
12.03k
Falcon3 MoE 2x7B Insruct
その他
Falcon3 7B-ITと7B-ITの混合エキスパートモデルで、134億のパラメータを持ち、英語、フランス語、スペイン語、ポルトガル語の4言語をサポートし、最大32Kのコンテキスト長に対応しています。
大規模言語モデル
Safetensors 英語
F
ehristoforu
273
10
Mixtral 8x22B V0.1 GGUF
Apache-2.0
Mixtral 8x22BはMistralAIがリリースした1760億パラメータの混合エキスパートモデルで、多言語テキスト生成タスクをサポートします。
大規模言語モデル 複数言語対応
M
MaziyarPanahi
170.27k
74
Lola V1
LOLAはスパース混合エキスパート(Mixture-of-Experts)Transformerアーキテクチャに基づき、160以上の言語をサポートする超大规模多言語大規模モデルで、自然言語生成と理解タスクにおいて競争力があります。
大規模言語モデル
Transformers その他

L
dice-research
867
10
Jambatypus V0.1
Apache-2.0
Jamba-v0.1をOpen-Platypus-ChatデータセットでQLoRAファインチューニングした大規模言語モデル、対話タスクに対応
大規模言語モデル
Transformers 英語

J
mlabonne
21
39
Dbrx Base
その他
Databricksが開発した混合エキスパート(MoE)大規模言語モデル、総パラメータ数1320億、活性化パラメータ360億、32Kコンテキストウィンドウをサポート
大規模言語モデル
Transformers

D
databricks
100
557
Xlam V0.1 R
xLAM-v0.1は大規模アクションモデルシリーズの大幅なアップグレード版で、パラメータ数が同じ条件下で、幅広いエージェントタスクやシナリオで微調整されており、元のモデルの能力を保持しています。
大規模言語モデル
Transformers

X
Salesforce
190
53
Mixtral Chat 7b
MIT
これはmergekitツールを使用して複数のMistral-7Bバリアントモデルを統合したハイブリッドモデルで、テキスト生成タスクに特化しています。
大規模言語モデル 英語
M
LeroyDyer
76
2
Openbuddy Mixtral 7bx8 V18.1 32k GGUF
Apache-2.0
OpenBuddyはMixtral-8x7Bアーキテクチャに基づく多言語対応のオープンチャットボットモデルで、多言語対話シナリオに適しています。
大規模言語モデル 複数言語対応
O
nold
79
2
Discolm Mixtral 8x7b V2
Apache-2.0
Mistral AIのMixtral 8x7bをベースに開発された実験的な8x7b混合エキスパートモデルで、Synthia、MetaMathQA、Capybaraデータセットでファインチューニングされています
大規模言語モデル
Transformers 英語

D
DiscoResearch
205
124
Mixtral 7b 8expert
Apache-2.0
MistralAIが最新リリースした混合エキスパート(MoE)モデルで、多言語テキスト生成タスクをサポート
大規模言語モデル
Transformers 複数言語対応

M
DiscoResearch
57.47k
264
Openmoe Base
Apache-2.0
OpenMoE-Baseはデバッグ目的の混合エキスパート(MoE)ベースモデルで、1280億トークンのみトレーニングされています。OpenMoEプロジェクトの一部として、オープンソースMoEコミュニティの発展を推進することを目的としています。
大規模言語モデル
Transformers

O
OrionZheng
73
5
Molm 700M 4B
Apache-2.0
MoLMは混合エキスパート(MoE)アーキテクチャに基づく言語モデルシリーズで、700M-4Bバージョンは総パラメータ数40億、計算コストは7億パラメータの密モデル相当
大規模言語モデル
Transformers

M
ibm-research
36
6
Switch C 2048
Apache-2.0
マスク言語モデリングタスクでトレーニングされた混合エキスパート(MoE)モデルで、パラメータ規模は1.6兆に達し、T5に似たアーキテクチャを採用しているが、フィードフォワード層はスパースMLP層に置き換えられている
大規模言語モデル
Transformers 英語

S
google
73
290
Fairseq Dense 13B Janeway
MIT
Fairseqの混合エキスパート密集モデルを微調整したバージョンで、主にSFとファンタジー類のテキスト生成に使用されます
大規模言語モデル
Transformers 英語

F
KoboldAI
1,287
12
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98