Slam
MIT
これは離散Hubertトークンに基づく音声言語モデルで、効率的なトレーニングに焦点を当て、音声セグメントの継続を生成できます。
音声生成
Transformers

S
slprl
115
10
Nanovlm 450M
MIT
nanoVLMは、効率的なトレーニングと実験のために設計された軽量型のビジュアル言語モデル(VLM)です。
画像生成テキスト
Safetensors
N
lusxvr
339
2
Nanovlm
MIT
nanoVLMは、効率的なトレーニングと実験を目的として設計された軽量な視覚言語モデル(VLM)です。
画像生成テキスト
Safetensors
N
andito
187
1
Qwen2.5 Coder 7B NEP Fix
Apache-2.0
Qwen/Qwen2.5-Coder-7Bモデルを基にUnslothとTRLライブラリを使用してトレーニング最適化されたテキスト生成推論モデルで、トレーニング速度が2倍向上
大規模言語モデル
Transformers 英語

Q
lurf21
20
1
Bonsai
盆栽は5億パラメータの小型三値重み付け言語モデルで、LlamaアーキテクチャとMistralトークナイザーを使用し、トレーニングに使用されたトークン数は50億未満です。
大規模言語モデル
Transformers

B
deepgrove
113
8
RWKV7 Goose Pile 168M HF
Apache-2.0
フラッシュ線形アテンションフォーマットを採用したRWKV-7モデルで、Pileデータセットでトレーニングされ、英語テキスト生成タスクをサポートします。
大規模言語モデル
Transformers 英語

R
RWKV
57
2
Traceback 12b
Apache-2.0
TraceBack 12b は Mistral-Nemo-Instruct アーキテクチャに基づく4ビット量子化バージョンで、命令追従と思考連鎖推論タスクに特化しています。
大規模言語モデル
Transformers

T
secemp9
1,470
29
Open Reasoner Zero 7B
MIT
オープンリーズナーゼロは、基礎モデルのスケーラブルな強化学習に焦点を当てたオープンソースソリューションで、拡張性、簡潔性、使いやすさを重視した大規模推論指向の強化学習実装です。
大規模言語モデル
Transformers

O
Open-Reasoner-Zero
776
28
Deepseek R1 Distill Llama 8B Finance V1
Apache-2.0
これはDeepSeek-R1-Distill-Llama-8Bモデルをベースに微調整された金融分野の言語モデルで、LoRA技術を使用して最適化されており、金融質問応答や指令タスクに適しています。
大規模言語モデル
Transformers 英語

D
abhi9ab
1,227
6
Llama 3.2 11B Vision Radiology Mini
Apache-2.0
Unslothで最適化された視覚指示ファインチューニングモデル、マルチモーダルタスク処理をサポート
テキスト生成画像
Transformers 英語

L
mervinpraison
39
2
Gemma 2 9b It WPO HB
gemma-2-9b-itモデルをベースに、重み付け選好最適化(WPO)手法でファインチューニングされた大規模言語モデルで、オフライン方策選好最適化の効果を向上させています。
大規模言語モデル
Transformers

G
wzhouad
15
36
Llmc Gpt2 774M 150B
MIT
これはGPT-2アーキテクチャに基づく774Mパラメータの言語モデルで、FineWebデータセットの1500億トークンでトレーニングされています。
大規模言語モデル
Transformers 英語

L
mdouglas
18
1
Mistral Supra
Apache-2.0
Mistral-SUPRAは、Mistral-7Bを初期化した線形RNNモデルで、Transformerと循環モデルの機能を兼ね備えています。
大規模言語モデル
PyTorch 英語
M
TRI-ML
163
12
Moe LLaVA Qwen 1.8B 4e
Apache-2.0
MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現
テキスト生成画像
Transformers

M
LanguageBind
176
14
Is New Dataset Teacher Model
Apache-2.0
SetFitフレームワークに基づく少数ショット学習のテキスト分類モデルで、対照学習と分類ヘッドのトレーニングにより効率的な分類を実現
テキスト分類
I
librarian-bots
168
1
Rwkv Raven 1b5
RWKVはRNNとTransformerの利点を組み合わせた大規模言語モデルで、効率的なトレーニングと高速な推論をサポートし、無限のコンテキスト長処理能力を備えています。
大規模言語モデル
Transformers

R
RWKV
428
12
Godot Dodo 4x 60k Llama 13b
Godot-DodoはLLaMA 13Bをファインチューニングした命令追従モデルで、コード命令の理解と生成タスクに特化しています
大規模言語モデル
Transformers

G
minosu
43
8
Gerbil A 32m
Apache-2.0
Gerbil-A-32m は3200万パラメータを有するAクラスのモデルで、6億4000万のトレーニングトークン数を処理し、様々な自然言語処理タスクに適しています。
大規模言語モデル
Transformers

G
GerbilLab
33
2
Deta Swin Large
DETAはトランスフォーマーベースの目標検出モデルで、IoU割り当てメカニズムとNMS手法を再導入することで、高速収束と効率的な検出を実現しました。
物体検出
Transformers

D
jozhang97
2,741
15
Pepe
Kerasが提供する画像分類モデルで、複数の事前学習済みアーキテクチャをサポートし、一般的な画像分類タスクに適しています。
画像分類
P
PeskyAmiable
0
0
Gpt2 Wechsel French
MIT
WECHSEL手法を用いて訓練されたGPT - 2のフランス語版で、サブワード埋め込みの効果的な初期化により単言語言語モデルの言語間移行を実現します。
大規模言語モデル
Transformers フランス語

G
benjamin
33
4
Gpt2 Wechsel Chinese
MIT
WECHSELメソッドを使用してトレーニングされた中国語GPT-2モデルで、サブワード埋め込みの効果的な初期化により単一言語モデルの言語間移行を実現。
大規模言語モデル
Transformers 中国語

G
benjamin
19
4
Deit Base Patch16 224
Apache-2.0
DeiTは、アテンション機構を用いてトレーニングされたデータ効率的な画像Transformerモデルで、ImageNet - 1kデータセット上で224x224の解像度で事前学習と微調整が行われます。
画像分類
Transformers

D
facebook
152.63k
13
Distilbert Dot Tas B B256 Msmarco
DistilBertベースのデュアルエンコーダードット積スコアリングアーキテクチャで、MSMARCO-Passageデータセット上でバランス型トピック認識サンプリングによりトレーニングされ、高密度検索と候補セットの再ランキングに適している
テキスト埋め込み
Transformers 英語

D
sebastian-hofstaetter
3,188
23
Bert Mini Finetuned Squadv2
このモデルはBERT - miniアーキテクチャに基づき、SQuAD 2.0データセットでM - FAC 2次オプティマイザーを使用して微調整された问答モデルです。
質問応答システム
Transformers

B
M-FAC
17
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98