モデル選定

小型言語モデル

# 小型言語モデル

Doge 20M Chinese

Dogeモデルは動的マスクアテンションメカニズムを使用してシーケンス変換を行い、多層パーセプトロンまたはクロスドメインエキスパート混合を選択して状態変換を行うことができます。

大規模言語モデル

Transformers 複数言語対応

Llamaアーキテクチャに基づくコンパクトな言語モデルで、英語とポルトガル語をサポート、パラメータ数9600万、4096トークンのコンテキスト長に対応。

大規模言語モデル

Transformers 複数言語対応

Doge 320M Instruct

Doge 320M 指導版は動的マスクアテンションを基にした軽量言語モデルで、教師ありファインチューニング(SFT)と直接選好最適化(DPO)で訓練され、質問応答や対話タスクに適しています。

大規模言語モデル

Transformers 英語

盆栽は5億パラメータの小型三値重み付け言語モデルで、LlamaアーキテクチャとMistralトークナイザーを使用し、トレーニングに使用されたトークン数は50億未満です。

大規模言語モデル

Doge 160M は動的マスクアテンションメカニズムを採用した小型言語モデルで、SmallDoge コミュニティによってトレーニングされ、テキスト生成タスクをサポートします。

大規模言語モデル

Transformers 複数言語対応

Doge 20M Instruct

Doge 20Mは動的マスクアテンション機構に基づく小型言語モデルで、命令追従と質問応答タスクをサポートします。

大規模言語モデル

Transformers 英語

Teenytinyllama 160m Text Simplification Ptbr

これはポルトガル語テキストの圧縮と構造化処理に特化した小型言語モデルで、33万件のポルトガル語テキストで訓練されています。

テキスト生成

Transformers その他

Simple Stories 4M

Simple StoriesはTinyStoriesデータセットでトレーニングされた小型テキスト生成モデルシリーズで、児童向けストーリー生成に特化しています。

テキスト生成

Transformers 英語

CharGPT-96M は文字レベル分かち書きを採用した小型言語モデルで、様々な実験シナリオに適しており、特にBPE（サブワード）分かち書きがタスクのパフォーマンス低下を引き起こす場合に有効です。

大規模言語モデル

Transformers その他

TinyStories-1Mは、TinyStoriesデータセットを使って訓練された小型言語モデルで、子供向けのシンプルな物語を生成するために特別に設計されています。

大規模言語モデル

Minilm L12 H384 Uncased Finetuned Imdb

このモデルはMicrosoftのMiniLM-L12-H384-uncasedをIMDBデータセットでファインチューニングしたバージョンで、主に感情分析タスクに使用されます。

大規模言語モデル

Tiny Roberta Indonesia

これはインドネシア語に特化した小型RoBERTaモデルで、インドネシア語テキスト処理タスク向けに最適化されています。

大規模言語モデル

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase