# 自己回帰生成

Janus Pro 7B
MIT
Janus-Proは、マルチモーダル理解と生成を統一する新しい自己回帰フレームワークです。視覚エンコーディングパスを分離し、単一の統一Transformerアーキテクチャを使用してマルチモーダルタスクを処理します。
テキスト生成画像 Transformers
J
Athagi
15
1
Ankh3 Xl
Ankh3はT5アーキテクチャに基づくタンパク質言語モデルで、マスク言語モデリングと配列補完タスクを連合最適化することで事前学習され、タンパク質の特徴抽出と配列分析に適しています。
タンパク質モデル Transformers
A
ElnaggarLab
131
2
Kosmos 2 PokemonCards Trl Merged
これはマイクロソフトのKosmos-2モデルを微調整したマルチモーダルモデルで、ポケモンカードのポケモン名を識別するために特別に設計されています。
画像生成テキスト Transformers 英語
K
Mit1208
51
1
Yi Ko 6B
Apache-2.0
Yi-Ko-6Bは01-ai/Yiモデルの進化版で、語彙表を拡張し韓国語/英語コーパスを追加事前学習した韓英バイリンガルテキスト生成をサポートします。
大規模言語モデル Transformers 複数言語対応
Y
beomi
3,183
37
Goliath 120b
巨人120Bは、2つのファインチューニングされたLlama-2 70Bモデルを統合して作成された自己回帰的因果言語モデルで、対話型タスクをサポートします。
大規模言語モデル Transformers 英語
G
alpindale
620
238
Molgen 7b
Apache-2.0
分子言語SELFIESに基づいて構築された大規模分子生成モデルで、新規分子の生成や部分的な分子構造の補完に使用可能です。
分子モデル Transformers
M
zjunlp
150
8
Xgen 7b 8k Base
Apache-2.0
Salesforce AI Researchがリリースした7Bパラメータの大規模言語モデル、8Kの長いシーケンス入力をサポート、Apache-2.0ライセンスでオープンソース
大規模言語モデル Transformers
X
Salesforce
997
318
Musicgen Medium
MusicGenはテキスト説明またはオーディオプロンプトに基づいて高品質な音楽サンプルを生成するテキストから音楽へのモデルで、15億パラメータの自己回帰型Transformerアーキテクチャを採用しています。
音声生成 Transformers
M
facebook
1.5M
118
Decapoda Research Llama 7B Hf
その他
LLaMAはMeta AIが開発した効率的な基盤言語モデルで、7Bから65Bまでの異なるパラメータ規模を提供し、Transformerアーキテクチャに基づき、様々な自然言語処理タスクに適用可能です。
大規模言語モデル Transformers
D
baffo32
12.29k
63
Biomedlm
Openrail
BioMedLM 2.7Bは、生物医学テキストに特化してトレーニングされた27億パラメータの言語モデルで、生物医学NLPタスクで優れた性能を発揮します。
大規模言語モデル Transformers
B
stanford-crfm
14.51k
422
Donut Proto
MIT
DonutはOCRを必要としないドキュメント理解Transformerモデルで、視覚エンコーダーとテキストデコーダーを組み合わせて画像からテキストへの変換を処理します
画像生成テキスト Transformers
D
naver-clova-ix
30
7
Donut Base
MIT
DonutはOCRを必要としない文書理解Transformerモデルで、視覚エンコーダー(Swin Transformer)とテキストデコーダー(BART)で構成されています。
画像生成テキスト Transformers
D
naver-clova-ix
50.34k
207
Assignment1 Maria
MIT
s2t-small-librispeech-asr は自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデルで、シーケンス・ツー・シーケンスのトランスフォーマーアーキテクチャに基づいています。
音声認識 Transformers 英語
A
Classroom-workshop
23
0
Assignment1 Joane
MIT
自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデル
音声認識 Transformers 英語
A
Classroom-workshop
22
0
Assignment1 Jack
MIT
自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデルで、シーケンス・ツー・シーケンス変換アーキテクチャに基づいています
音声認識 Transformers 英語
A
Classroom-workshop
24
0
Assignment1 Jane
MIT
s2t-small-librispeech-asr は、自動音声認識(ASR)のための音声からテキストへの変換器(S2T)モデルで、シーケンス・ツー・シーケンス変換器アーキテクチャに基づいています。
音声認識 Transformers 英語
A
Classroom-workshop
29
0
S2t Small Librispeech Asr
MIT
自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデルで、シーケンス・ツー・シーケンス変換アーキテクチャに基づいています
音声認識 Transformers 英語
S
facebook
10.92k
27
S2t Large Librispeech Asr
MIT
LibriSpeechデータセットでトレーニングされた自動音声認識(ASR)のためのエンドツーエンドシーケンス・ツー・シーケンストランスフォーマーモデル
音声認識 Transformers 英語
S
facebook
422
10
Fr Boris
MIT
Borisは、GPT - Jアーキテクチャに基づく、60億パラメータを持つ自己回帰型言語モデルで、フランス語テキスト処理に特化しています。
大規模言語モデル Transformers フランス語
F
Cedille
3,085
39
Rebel Large
REBELは、BARTベースのシーケンス-to-シーケンスモデルで、エンドツーエンドの関係抽出に使用され、200種類以上の異なる関係タイプをサポートします。
知識グラフ Transformers 英語
R
Babelscape
37.57k
219
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase