モデル選定

低リソース言語

# 低リソース言語

Latxa Llama 3.1 70B Instruct FP8

LatxaはLlama-3.1ベースの70Bパラメータのバスク語大規模言語モデルで、命令微調整とFP8量子化を施し、バスク語最適化のために設計されています

大規模言語モデル

これはハイチ・クレオール語のテキスト読み上げモデルで、jsbeaudry/haitian_creoleを基にファインチューニングされています。

Reranker Pho BLAI

これはApache-2.0ライセンスに基づくベトナム語テキストソートモデルで、主にベトナム語テキストのソートタスクを処理するために使用されます。

大規模言語モデル

Safetensors その他

Latxa Llama 3.1 8B Instruct

LatxaはLlama-3.1アーキテクチャに基づくバスク語命令ファインチューニング大規模言語モデルで、バスク語に最適化されており、複数のベンチマークテストで優れた性能を発揮します。

大規模言語モデル

Llama 3.1 Sherkala 8B Chat

Sherkalaは80億パラメータのカザフ語優先の多言語大規模言語モデルで、G42傘下のInceptionとMBZUAIが共同開発し、カザフ語、英語、ロシア語、トルコ語をサポートしています。

大規模言語モデル複数言語対応

Masrawy English To Egyptian Arabic Translator V2.9

Helsinki-NLP/opus-mt-tc-big-en-arをファインチューニングした英語からエジプトアラビア語への翻訳モデル

Transformers 複数言語対応

NER Darija MAR FSBM

BERTアーキテクチャに基づく固有表現認識モデルで、モロッコアラビア語(Darija)テキスト内の人名、場所、組織などのエンティティを識別するために特別に設計されています。

シーケンスラベリング

Transformers 複数言語対応

Urdu Text To Speech Tts

microsoft/speecht5_ttsをファインチューニングしたウルドゥー語TTSモデル、トレーニングデータ量は少ない（4200文）、商用利用には再トレーニングが必要

Transformers その他

M2M100 Sanskrit English

M2M100をファインチューニングしたサンスクリット語から英語への翻訳モデルで、Itihasaデータセットからのサンスクリット語叙事詩の翻訳内容を含んでいます。

Transformers 複数言語対応

Nllb 200 Wo Fr Distilled 600M

これはMetaのNLLB-200モデルをファインチューニングした機械翻訳モデルで、ウォロフ語とフランス語間の双方向翻訳タスク専用です。

Transformers 複数言語対応

Speecht5 Tts Finetuned Nst Da

これはマイクロソフトのSpeechT5モデルをファインチューニングしたデンマーク語テキスト音声合成モデルで、デンマーク語音声合成に特化しています。

Transformers その他

JackismyShephard

Cendol Llama2 7b Chat

仙都（Cendol）は、インドネシア語に対して微調整されたオープンソースの生成型大規模言語モデルの集合で、さまざまなアーキテクチャとパラメータ規模をカバーしています。

大規模言語モデル

Transformers その他

Sanskrit To English

T5-smallをファインチューニングしたサンスクリット語-英語翻訳モデル、itihasaデータセットでトレーニング

Meta社が開発したティグリニャ語テキスト読み上げモデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート

Meta社が開発したフォン語テキスト音声合成モデル、VITSアーキテクチャに基づき、フォン語テキストを自然な音声に変換

Bengali Bn To En

これはベンガル語を英語に翻訳するためのシーケンス・ツー・シーケンスモデルです。

Transformers その他

LatinBERTはBERTアーキテクチャに基づくラテン語事前学習言語モデルです

大規模言語モデル

Model Translate En To Ar From 120k Dataset Ar En Th230111447

これはHelsinki-NLP/opus-mt-en-arをベースにファインチューニングした英語からアラビア語への翻訳モデルで、12万件のデータセットでトレーニングされ、Bleuスコアは20.6264です。

Mt5 Base HunSum 1

mT5-baseアーキテクチャに基づくハンガリー語抽象要約モデル、HunSum-1データセットでトレーニング済み

テキスト生成

Transformers その他

IndoBERTをファインチューニングしたインドネシア語QAモデル、SQuAD2.0データセットで訓練

質問応答システム

Microbert Coptic Mx

これはコプト語向けのMicroBERTモデルで、マスク言語モデリングとXPOSタグ付けの監視による事前学習が行われています。

大規模言語モデル

Transformers その他

Nllb 200 Distilled 600M

100以上の言語と文字をサポートする多言語処理モデルで、世界の主要な語族と文字システムをカバーしています。

大規模言語モデル

Transformers 複数言語対応

Robertaアーキテクチャでトレーニングされたアムハラ語言語モデルで、さまざまな自然言語処理タスクに適しています。

大規模言語モデル

Opus Mt Tc Big Zlw En

これは西スラブ語族(zlw)から英語(en)へのニューラル機械翻訳モデルで、OPUS-MTプロジェクトに属しています。

Transformers 複数言語対応

Wav2vec2 Large Xls R 300m Ur

wav2vec2-large-xls-r-300mアーキテクチャに基づくウルドゥー語音声認識モデル、common_voiceデータセットでファインチューニング済み

Wav2vec2 Large Xlsr 53 Mongolian

facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voiceデータセットを使用してモンゴル語に対して微調整された自動音声認識モデルです。

音声認識その他

これはwav2vec2アーキテクチャに基づく小型のランダムなロバスト性を持つモデルで、MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ABデータセットでファインチューニングされ、自動音声認識タスクに使用されます。

Transformers その他

Mt5 Sinhalese English

mT5-baseモデルを微調整したシンハラ語-英語双方向翻訳モデル

Transformers 複数言語対応

Wav2vec2 Large Xlsr 53 Irish

facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voiceデータセットでアイルランド語にファインチューニングした音声認識モデルです。

Wav2vec2 Base Lang Id

facebook/wav2vec2-baseをcommon_languageデータセットでファインチューニングした音声言語識別モデル

これはGPT2アーキテクチャに基づくモンゴル語テキスト生成モデルで、流暢なモンゴル語テキストを生成することを目的としています。

大規模言語モデルその他

Wav2vec2 Xls R 300m Kh

これはクメール語の自動音声認識（ASR）のためのベースラインモデルで、クメール語音声認識タスクの基礎サポートを提供することを目的としています。

Wav2vec2 Xlsr Chuvash

このモデルはfacebook/wav2vec2-xls-r-1bをCommon Voice 8チュヴァシ語データセットでファインチューニングした自動音声認識モデルです

Transformers その他

Wav2vec2 Large Xls R 300m Guarani Small

このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたバージョンで、グアラニー語音声認識をサポートしています。

Wav2vec2 Large Xlsr 53 Lithuanian

facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットを使用してリトアニア語にファインチューニングした自動音声認識モデルです。

音声認識その他

Takalane Tsn Roberta

これはツワナ語に特化したマスク言語モデルで、南アフリカの低リソース言語のNLP分野における性能向上を目的としています。

大規模言語モデルその他

Wav2vec2 Large Xlsr 53 Kalmyk

これはWav2Vec2アーキテクチャに基づくカルムイク語自動音声認識モデルで、事前学習とファインチューニングを経ており、カルムイク語音声からテキストへの変換タスクをサポートします。

Transformers その他

Wav2vec2 Xlsr 53 Pa In

facebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングしたパンジャーブ語自動音声認識モデルで、16kHzサンプルレート入力をサポートします。

Zabanshenas Roberta Base Mix

Zabanshenasは、Transformerベースのソリューションで、書面文書/テキストの最も可能性の高い言語を識別するために使用されます。

テキスト分類

Transformers 複数言語対応

これはTransformerアーキテクチャに基づくヨルバ語から英語への機械翻訳モデルで、Helsinki-NLPチームによって開発されました。

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase