Open Qwen2VL
CC
Open-Qwen2VLはマルチモーダルモデルで、画像とテキストを入力として受け取り、テキスト出力を生成できます。
画像生成テキスト 英語
O
weizhiwang
568
15
Olmo2 11B SuperBPE T180k
Apache-2.0
110億パラメータの大規模言語モデルで、革新的なSuperBPEトークナイザーで訓練され、スーパーワードユニット認識とサブワードトークン化能力をサポートします。
大規模言語モデル
Transformers 英語

O
UW
29
2
Genmedclip
MIT
GenMedClipはopen_clipライブラリを基にしたゼロショット画像分類モデルで、医療画像分析に特化しています。
画像分類
G
wisdomik
40
0
Gte Multilingual Mlm Base
Apache-2.0
mGTEシリーズの多言語テキストエンコーダーで、75言語をサポートし、最大文脈長は8192、BERT+RoPE+GLUアーキテクチャに基づき、GLUEとXTREME-Rベンチマークで優れた性能を発揮
大規模言語モデル
Safetensors
G
Alibaba-NLP
342
12
Llama3 German 8B 32k
Meta Llama3-8Bを基に最適化したドイツ語大規模言語モデル。650億のドイツ語コーパスで継続的に事前学習され、ドイツ語に最適化され32kの長文コンテキストをサポート
大規模言語モデル
Transformers ドイツ語

L
DiscoResearch
91
13
Rho Math 1b V0.1
MIT
Rho-1は数学分野に特化した言語モデルで、選択的言語モデリング(SLM)手法を用いて事前学習を行い、数学問題解決の正解率を大幅に向上させました。
大規模言語モデル
Transformers 英語

R
microsoft
1,451
15
Tinyllama V1.1 Math Code
Apache-2.0
TinyLlamaは11億パラメータのコンパクトな言語モデルで、Llama 2と同じアーキテクチャとトークナイザーを採用しており、計算リソースやメモリが限られたアプリケーションシナリオに適しています。
大規模言語モデル
Transformers 英語

T
TinyLlama
3,436
11
Tinyllama V1.1
Apache-2.0
TinyLlamaは11億パラメータの小型言語モデルで、Llama 2と同じアーキテクチャとトークナイザーを採用しており、リソースが限られたアプリケーションシナリオに適しています。
大規模言語モデル
Transformers 英語

T
TinyLlama
42.11k
92
Ltg Bert Babylm
100MW BabyLMチャレンジデータセットで訓練されたBERTの変種で、中規模コーパスでの性能を最適化
大規模言語モデル
Transformers 英語

L
ltg
594
2
Tinyllama 1.1B Intermediate Step 1431k 3T
Apache-2.0
TinyLlamaは1.1BパラメータのLlamaモデルで、3兆トークンを使用して事前学習されており、コンパクトで効率的なテキスト生成能力を提供します。
大規模言語モデル
Transformers 英語

T
TinyLlama
25.04k
173
Tinyllama 1.1B Intermediate Step 1195k Token 2.5T
Apache-2.0
TinyLlamaは1.1Bパラメータの小型Llamaモデルで、3兆トークンで事前学習され、リソースが限られた環境向けに設計されています。
大規模言語モデル
Transformers 英語

T
TinyLlama
419
52
M2 Bert 80M 2k Retrieval
Apache-2.0
これは8000万パラメータのM2-BERT事前学習チェックポイントで、シーケンス長2048をサポートし、長文コンテキスト検索タスク向けにファインチューニングされています。
テキスト埋め込み
Transformers 英語

M
togethercomputer
538
15
Retromae Small Cs
RetroMAE目標に基づきチェコ語ウェブコーパスで事前学習されたBERT-smallモデルで、Seznam.czによって開発され、様々な自然言語処理タスクに適しています。
テキスト埋め込み
Transformers その他

R
Seznam
7,759
5
Sheared LLaMA 2.7B
Apache-2.0
Sheared-LLaMA-2.7BはLlama-2-7bを剪枝と継続事前学習によって得られた軽量言語モデルで、わずか50Bトークンの予算で作成されました。
大規模言語モデル
Transformers

S
princeton-nlp
1,131
60
Sheared LLaMA 1.3B
Apache-2.0
Sheared-LLaMA-1.3BはLLaMA-2-7Bを基に構造化プルーニングと継続事前学習を行った効率的な言語モデルです
大規模言語モデル
Transformers

S
princeton-nlp
11.09k
94
Tinyllama 1.1B Step 50K 105b
Apache-2.0
TinyLlamaは1.1BパラメータのLlamaモデルで、3兆トークンの事前学習を計画しており、最適化により16台のA100-40G GPUで90日以内に学習を完了できます。
大規模言語モデル
Transformers 英語

T
TinyLlama
14.41k
133
Codet5p 16b
Bsd-3-clause
CodeT5+ 16Bはオープンソースのコード大規模言語モデルファミリーで、エンコーダー-デコーダーアーキテクチャを採用し、複数のモードをサポートし、幅広いコード理解と生成タスクに適しています。
大規模言語モデル
Transformers

C
Salesforce
292
65
Videomae Small Finetuned Kinetics
VideoMAEは動画分野のマスクオートエンコーダモデルで、自己教師あり事前学習を行いKinetics-400データセットで教師ありファインチューニングされており、動画分類タスクに適しています。
動画処理
Transformers

V
MCG-NJU
2,152
1
Videomae Huge Finetuned Kinetics
VideoMAEはマスクオートエンコーダ(MAE)に基づくビデオ事前学習モデルで、自己教師あり学習によりKinetics-400データセットでファインチューニングされており、ビデオ分類タスクに適しています。
動画処理
Transformers

V
MCG-NJU
2,984
4
Videomae Base
VideoMAEはマスクオートエンコーダ(MAE)に基づくビデオ自己教師あり事前学習モデルで、マスクされたビデオブロックのピクセル値を予測することでビデオ内部表現を学習します。
動画処理
Transformers

V
MCG-NJU
48.66k
45
Efficient Mlm M0.15
このモデルは、マスク言語モデリングにおいて15%の内容をマスクすることの有効性を研究し、プレレイヤー正規化手法を採用しています。
大規模言語モデル
Transformers

E
princeton-nlp
116
1
Distilbert Mlm 750k
DistilBERTはBERTの軽量級蒸留バージョンで、大部分の性能を維持しながらパラメータが少なくなっています。
大規模言語モデル
Transformers

D
vocab-transformers
26
0
Arabictransformer Base
ファンネルTransformerとELECTRA目標を採用した効率的なアラビア語モデルで、計算コストが低く高性能
大規模言語モデル
Transformers

A
sultan
17
1
Bertin Roberta Base Spanish
BERTINはBERTに基づく一連のスペイン語モデルで、現在のモデルはスペイン語のmC4の一部を使用してFlaxでゼロから学習されたRoBERTa-baseモデルです。
大規模言語モデル スペイン語
B
bertin-project
1,845
36
Distilcamembert Base
MIT
DistilCamemBERTはフランス語CamemBERTモデルの蒸留版で、知識蒸留技術によりモデルの複雑さを大幅に低減しながら性能を維持しています。
大規模言語モデル
Transformers フランス語

D
cmarkea
15.79k
31
Roberta Base Wechsel Swahili
MIT
WECHSELメソッドを使用して訓練されたRoBERTaベースモデルで、スワヒリ語に特化して最適化され、効率的な言語間転移を実現。
大規模言語モデル
Transformers その他

R
benjamin
222
1
Chinese Electra Large Generator
Apache-2.0
中国語ELECTRAは、哈工大-讯飞共同研究所がGoogleのELECTRAモデルを基に開発した中国語事前学習モデルで、パラメータ数が少ないにもかかわらず優れた性能を発揮します。
大規模言語モデル
Transformers 中国語

C
hfl
14
0
Rugpt3small Based On Gpt2
SberDevicesチームによって開発されたロシア語事前学習Transformer言語モデル。GPT2アーキテクチャを基盤とし、1024シーケンス長をサポート、800億トークンのトレーニングデータを使用。
大規模言語モデル その他
R
ai-forever
46.92k
42
Chinese Mobile Bert
Apache-2.0
このモデルは2.5億の中国語コーパスに基づき、MobileBERTアーキテクチャを用いて事前学習を行い、トレーニング周期は15日で、単一のA100グラフィックカード上で100万ステップの反復を完了しました。
大規模言語モデル
Transformers

C
Ayou
25
5
Bert Base Uncased Sparse 90 Unstructured Pruneofa
Apache-2.0
これは疎事前学習のBERT-Baseモデルで、ワンショット剪定方法により90%の重みを疎化し、さまざまな言語タスクの微調整に適しています。
大規模言語モデル
Transformers 英語

B
Intel
178
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98