モデル選定

低リソーストレーニング

# 低リソーストレーニング

ContentVは高効率なビデオ生成モデルフレームワークで、極簡アーキテクチャ、多段階トレーニング戦略、経済的で効率的な強化学習フレームワークを通じて、限られた計算リソースで高品質なビデオ生成を実現します。

nanoVLMは、効率的なトレーニングと実験のために設計された極めて軽量な視覚言語モデル（VLM）です。

画像生成テキスト

Flan T5 Base Peft Dialogue Summary Before

google/flan-t5-baseモデルを基に、対話要約タスク向けにPEFT手法でパラメータ効率的にファインチューニングしたバージョン

テキスト生成

TensorBoard 英語

microsoft/speecht5_ttsを微調整した音声合成モデルで、テキストから音声への変換タスクをサポート

Demo Text To Speech

microsoft/speecht5_ttsをファインチューニングしたテキスト音声変換モデル

benjaminogbonna

Orpheus Bangla Tts Gguf

Orpheus 3B TTSモデルのベンガル語向けファインチューニング版。955の音声サンプルでトレーニングされており、実験的なベンガル語音声合成に適しています

音声合成その他

Bert Practice Classifier

distilbert-base-uncasedをファインチューニングしたテキスト分類モデルで、特定タスク向けにトレーニングされています。

テキスト分類

MMS TTS THAI FEMALEV2

VITSアーキテクチャに基づくタイ語女性音声のテキスト・トゥ・スピーチ(TTS)モデルで、高品質なタイ語音声合成をサポートします。

音声合成その他

Multilingual ModernBert Base Preview

Algomaticチームによって開発された多言語BERTモデルで、マスキングタスクをサポートし、8192のコンテキスト長と151,680の語彙サイズを備えています。

大規模言語モデル

Auroracap 7B VID Xtuner

AuroraCapは画像と動画の字幕生成に特化したマルチモーダル大規模言語モデルで、効率的で詳細な動画字幕生成に焦点を当てています。

ビデオ生成テキスト

Shuka v1は、インド言語の音声理解をネイティブサポートする言語モデルで、独自開発の音声エンコーダーとLlama3-8B-Instructデコーダーを組み合わせ、多言語ゼロショットQAタスクをサポートします。

音声生成テキスト

Transformers 複数言語対応

Biggie SmoLlm 0.15B Base

SmolLM-135Mをベースにしたミニチュア言語モデルのアップグレード版で、パラメータ規模は0.18B、トレーニングシナリオに適しており、優れた推論速度と一貫性を発揮します

大規模言語モデル

Musicgen Melody Lora Punk Colab

これはfacebook/musicgen-melodyモデルをミクロパンクデータセットでファインチューニングしたテキストからオーディオへのモデルです

Musicgen Melody Punk Lora

facebook/musicgen-melodyをベースにLoRAモデルでファインチューニングされ、パンクスタイルの音楽生成に特化

Bitnet B1 58 Xl

BitNet b1.58 3Bは1ビット量子化された大規模言語モデルで、RedPajamaデータセットを使用して1000億トークン訓練され、性能を維持しながら計算リソース要件を大幅に削減しました。

大規模言語モデル

このモデルはsamsumデータセットでgoogle/pegasus-cnn_dailymailをファインチューニングしたバージョンで、主にテキスト要約タスクに使用されます。

テキスト生成

Gugugo Koen 7B V1.1

Gugugo-koen-7B-V1.1 は Llama-2-ko-7b をベースにした韓英翻訳モデルで、韓国語と英語間の高品質な翻訳タスクに特化しています。

Transformers 複数言語対応

Tinystories Gpt2 3M

これはTinyStories V2データセットで事前学習された小型GPT-2モデルで、300万のトレーニング可能なパラメータを持ち、優れたテキスト生成の一貫性を示します。

大規模言語モデル

Transformers 英語

facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、音楽ジャンルを識別するために使用されます

Gender Classification

テキストまたは画像データに基づく性別分類モデルで、具体的なトレーニングデータは指定されていません。

テキスト分類

Tinystories 33M

TinyStoriesデータセットでトレーニングされた33Mパラメータの小型言語モデル、児童向けストーリー生成専用

大規模言語モデル

Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech

Librispeech-clean-100データセットで微調整された性別認識モデルで、テストセットでF1スコア0.9993を達成

Audio Class Finetuned

このモデルはfacebook/wav2vec2-baseをsuperbデータセットでファインチューニングしたオーディオ分類モデルで、評価セットで0.6578の精度を達成しました。

Tiny ImageNetは、コンピュータビジョンタスクのベンチマークテストとモデルトレーニング用の小規模な画像分類データセットです。

Firefly Bloom 1b4

オープンソースの中国語対話型大規模言語モデルで、命令ファインチューニング技術で最適化され、中華文化関連タスクに特化、パラメータ数1.4B/2.6B

大規模言語モデル

Whisper Large V2 Japanese 5k Steps

OpenAIのwhisper-large-v2モデルを日本語CommonVoiceデータセットでファインチューニングした音声認識モデル、5000ステップ訓練、単語誤り率0.7449

Transformers 日本語

Mt5 Small Finetuned 28jan 2

google/mt5-smallを微調整したテキスト要約生成モデルで、多言語テキスト要約タスクをサポートします。

テキスト生成

Gpt2 Finetuned Cnn Summarization V2

GPT-2をファインチューニングしたテキスト要約生成モデル

テキスト生成

Sd Onepiece Diffusers4

Diffusersライブラリでトレーニングされた安定拡散モデル、ワンピースアニメ関連データセットを使用

TensorBoard 英語

Bart Base Few Shot K 256 Finetuned Squad Seed 0

このモデルはfacebook/bart-baseをSQuADデータセットでファインチューニングしたバージョンで、質問応答タスクに適しています。

質問応答システム

これはwav2vecアーキテクチャに基づく音声処理テストモデルで、具体的な用途とトレーニングデータは明記されていません。

Albert Sentiment

ALBERT事前学習モデルをファインチューニングした繁体中国語感情分類モデルで、ネガティブ(0)とポジティブ(1)の2種類の感情分類をサポートします。

テキスト分類

Transformers その他

Wav2vec2 Base Timit Demo Colab53

facebook/wav2vec2-baseモデルをファインチューニングした音声認識モデルで、TIMITデータセットに適しています

T5 Small 6 3 Hi En To En

これはT5-smallアーキテクチャに基づくシーケンス・ツー・シーケンスモデルで、ヒンディー語と英語の混合テキスト(hi_en)を標準英語(en)に翻訳するために特別に設計されています。

Wav2vec2 Base Librispeech Demo Colab

このモデルはfacebook/wav2vec2-baseをLibriSpeechデータセットで微調整した音声認識モデルで、英語音声からテキストへの変換タスクに適しています。

このモデルはfacebook/deit-tiny-patch16-224を画像フォルダデータセットで微調整した画像分類モデルです

このモデルはfacebook/wav2vec2-baseを微調整した音声処理モデルで、具体的な用途は明記されていません

Wav2vec Speech Project

wav2vecアーキテクチャに基づく音声処理モデル、具体的な用途とトレーニングデータは明記されていません

Distilroberta Base Finetuned Wikitext2

このモデルは、wikitext2データセットでdistilroberta-baseを微調整したバージョンで、主にテキスト生成タスクに使用されます。

大規模言語モデル

Wav2vec2 Base Toy Train Data Masked Audio

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、おもちゃデータセットでトレーニングされ、オーディオマスキングタスクをサポート

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase