# ウィキペディア事前学習

Gemma 2 9b Turkish Lora Continue Pre Trained
google/gemma-2-9bベースモデルを使用し、トルコ語ウィキペディアデータで継続事前学習を行ったLoRA適応モデルで、トルコ語テキスト処理能力を向上
大規模言語モデル その他
G
emre
82
4
Gemma 2b It Tamil V0.1 Alpha
その他
これはGoogleのGemma 2Bモデルのタミル語命令ファインチューニング版で、英語とタミル語の二言語テキスト生成をサポートします。
大規模言語モデル Transformers 複数言語対応
G
abhinand
38
6
Nusabert Base
Apache-2.0
NusaBERT基本版はBERTアーキテクチャに基づく多言語エンコーダー言語モデルで、13種類のインドネシア地域言語をサポートし、複数のオープンソースコーパスで事前学習されています。
大規模言語モデル Transformers その他
N
LazarusNLP
68
3
Multilingual Albert Base Cased 64k
Apache-2.0
マスク言語モデリング(MLM)目標で事前学習された多言語ALBERTモデル、64k語彙サイズをサポート、大文字小文字を区別
大規模言語モデル Transformers 複数言語対応
M
cservan
52
1
Bart Large Japanese
日本語ウィキペディアで事前学習された日本語BART大規模モデルで、テキスト生成や自然言語処理タスクに適しています。
大規模言語モデル Transformers 日本語
B
ku-nlp
206
10
Bart Base Japanese
これは日本語ウィキペディアで事前学習された日本語BARTベースモデルで、自然言語処理タスクに適しています。
大規模言語モデル Transformers 日本語
B
ku-nlp
181
10
Deberta V2 Base Japanese
日本語ウィキペディア、CC-100、OSCORPUSで事前学習された日本語DeBERTa V2ベースモデル。マスキング言語モデリングや下流タスクのファインチューニングに適しています。
大規模言語モデル Transformers 日本語
D
ku-nlp
38.93k
29
Roberta Base Japanese With Auto Jumanpp
RoBERTaアーキテクチャに基づく日本語事前学習モデルで、自動Juman++形態素解析をサポートし、日本語自然言語処理タスクに適しています。
大規模言語モデル Transformers 日本語
R
nlp-waseda
536
8
Deberta Base Japanese Wikipedia
日本語ウィキペディアと青空文庫テキストで事前学習されたDeBERTa(V2)モデルで、日本語テキスト処理タスクに適しています
大規模言語モデル Transformers 日本語
D
KoichiYasuoka
32
2
Bert Base Japanese Wikipedia Ud Head
これは日本語依存構文解析専用に設計されたBERTモデルで、長い単位語のヘッド単語を検出するために質問応答形式で実装されています。
シーケンスラベリング Transformers 日本語
B
KoichiYasuoka
474
1
Albert Base Japanese V1 With Japanese Tokenizer
MIT
これは日本語で事前学習されたALBERTモデルで、BertJapaneseTokenizerをトークナイザーとして使用しており、日本語テキストの処理がより簡単です。
大規模言語モデル Transformers 日本語
A
ken11
44
3
Mluke Large Lite
Apache-2.0
mLUKEはLUKEの多言語拡張版で、24言語の固有表現認識、関係分類、質問応答システムタスクをサポート
大規模言語モデル Transformers 複数言語対応
M
studio-ousia
65
2
Mluke Base Lite
Apache-2.0
mLUKEはLUKEの多言語拡張版で、24言語のテキスト処理タスクをサポート
大規模言語モデル Transformers 複数言語対応
M
studio-ousia
153
2
Bert Small Japanese
日本語ウィキペディアで事前学習されたBERT小型モデル、金融テキストマイニング向けに最適化
大規模言語モデル Transformers 日本語
B
izumi-lab
358
5
Bert Base Japanese Char Whole Word Masking
日本語テキストで事前学習されたBERTモデルで、文字レベルトークン化と全単語マスキング技術を採用しており、日本語自然言語処理タスクに適しています。
大規模言語モデル 日本語
B
tohoku-nlp
1,724
4
Bertinho Gl Base Cased
ガリシア語用に事前学習されたBERTモデル(12層、大文字小文字を区別)。ウィキペディアのデータを基に学習
大規模言語モデル その他
B
dvilares
218
3
Bert Base Thai
BERT-Baseアーキテクチャに基づくタイ語専用事前学習モデル。タイ語の分かち書き特性に最適化され、多言語BERTを上回る性能を提供
大規模言語モデル その他
B
monsoon-nlp
177
12
Bert Base Ja
日本語ウィキペディアデータセットで学習されたBERTベースモデル、日本語テキストのマスク埋め込みタスクに適しています
大規模言語モデル Transformers 日本語
B
colorfulscoop
16
1
Bert Base Japanese V2
日本語ウィキペディアで事前学習されたBERTモデルで、Unidic辞書を使用した語彙レベルの分かち書きと全語マスキング訓練を採用
大規模言語モデル 日本語
B
tohoku-nlp
12.59k
26
T5 Base Japanese
日本語コーパスを用いて事前学習されたT5(テキストからテキストへの変換Transformer)モデルで、様々なテキスト生成タスクに適しています。
大規模言語モデル 日本語
T
sonoisa
13.85k
49
French Albert Base Cased
Apache-2.0
フランス語ウィキペディアで事前学習されたALBERTベースモデルで、大文字小文字の識別をサポートし、フランス語NLPタスクに適しています。
大規模言語モデル Transformers フランス語
F
cservan
38
0
Mluke Large
Apache-2.0
mLUKEはLUKEの多言語拡張版で、24言語の固有表現認識、関係分類、質問応答システムのタスクをサポートします。
大規模言語モデル Transformers 複数言語対応
M
studio-ousia
70
2
Mluke Base
Apache-2.0
mLUKEはLUKEの多言語拡張バージョンで、24言語の固有表現認識、関係分類、質問応答システムのタスクをサポートします。
大規模言語モデル Transformers 複数言語対応
M
studio-ousia
64
6
Bert Base Multilingual Cased Finetuned Polish Squad1
多言語BERTモデルを微調整したポーランド語質問応答システムで、ポーランド語SQuAD1.1データセットで優れた性能を発揮します。
質問応答システム その他
B
henryk
86
4
Roberta Hindi Guj San
MIT
ヒンディー語、サンスクリット語、グジャラート語のウィキペディア記事で訓練されたマルチリンガルRoBERTaタイプのモデルで、3つのインド語族言語処理をサポートします。
大規模言語モデル その他
R
surajp
51
2
Bert Base Japanese
日本語ウィキペディアテキストで事前学習されたBERTモデルで、IPA辞書を使用した単語レベルの分かち書き処理を行い、日本語自然言語処理タスクに適しています。
大規模言語モデル 日本語
B
tohoku-nlp
153.44k
38
Bert Base Japanese Basic Char V2
これは文字レベル分かち書きと全単語マスキング技術を採用した日本語BERT事前学習モデルで、`fugashi`や`unidic_lite`ツールキットに依存しません。
大規模言語モデル Transformers 日本語
B
hiroshi-matsuda-rit
14
0
Bert Base Japanese Char
日本語テキストで事前学習されたBERTモデルで、文字レベル分かち書き処理を採用し、日本語自然言語処理タスクに適しています。
大規模言語モデル 日本語
B
tohoku-nlp
116.10k
8
Bert Italian Finedtuned Squadv1 It Alfa
イタリア語BERTベース版をイタリア語SQuADでファインチューニングし、Q&A下流タスクに使用
質問応答システム その他
B
mrm8488
286
14
Bert Base 5lang Cased
Apache-2.0
bert-base-multilingual-casedの簡素化バージョンで、5つの言語(英語、フランス語、スペイン語、ドイツ語、中国語)のみをサポートし、オリジナルより30%小さくなっていますが、これらの言語の表現はオリジナルと同じです。
大規模言語モデル 複数言語対応
B
amine
31
1
Bert Base Japanese Char V2
日本語テキスト向けに事前学習されたBERTモデルで、文字レベル分かち書きと全単語マスク機構を採用し、2020年8月31日版の日本語ウィキペディアに基づいて学習
大規模言語モデル 日本語
B
tohoku-nlp
134.28k
6
Simcse Model Roberta Base Thai
これはXLM-Rベースのsentence-transformersモデルで、特にタイ語に最適化されており、文や段落を768次元の密なベクトル空間にマッピングできます。
テキスト埋め込み Transformers
S
mrp
69
2
Bert Large Japanese Char
日本語ウィキペディアで事前学習されたBERTモデルで、文字レベル分かち書きと全単語マスキング戦略を採用し、日本語自然言語処理タスクに適しています
大規模言語モデル 日本語
B
tohoku-nlp
24
4
Tiny Roberta Indonesia
MIT
これはインドネシア語に特化した小型RoBERTaモデルで、インドネシア語テキスト処理タスク向けに最適化されています。
大規模言語モデル Transformers その他
T
akahana
17
1
Bert Large Japanese
日本語ウィキペディアで事前学習されたBERT大規模モデル、Unidic辞書による分かち書きと全語マスキング戦略を採用
大規模言語モデル 日本語
B
tohoku-nlp
1,272
9
Distilbert Base En Fr Cased
Apache-2.0
これはdistilbert-base-multilingual-casedの軽量化バージョンで、英語とフランス語の2つの言語を専門に扱い、元のモデルの表現能力と精度を維持しています。
大規模言語モデル Transformers 複数言語対応
D
Geotrend
4,916
1
Chinese Bert Wwm Ext Upos
Apache-2.0
中国語ウィキペディアテキストで事前学習されたBERTモデルで、品詞タグ付けと依存構文解析に使用されます。
シーケンスラベリング Transformers 複数言語対応
C
KoichiYasuoka
21
8
Bert Base Ja Cased
Apache-2.0
bert-base-multilingual-casedを基にした日本語特化の簡素化バージョンで、元の精度を維持
大規模言語モデル 日本語
B
Geotrend
13
0
Distilbert Base En Fr Es Pt It Cased
Apache-2.0
これはdistilbert-base-multilingual-casedの軽量版で、英語、フランス語、スペイン語、ポルトガル語、イタリア語の処理をサポートします。
大規模言語モデル Transformers 複数言語対応
D
Geotrend
24
0
Roberta Base Thai Char
Apache-2.0
これはタイ語ウィキペディアのテキストで事前学習されたRoBERTaモデルで、BertTokenizerFastに適応するために文字レベルの埋め込みを採用しています。
大規模言語モデル Transformers その他
R
KoichiYasuoka
23
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase