モデル選定

BERTアーキテクチャ最適化

# BERTアーキテクチャ最適化

Language Detection

BERTベースの多言語検出モデルで、200言語のテキスト分類タスクをサポート

テキスト分類複数言語対応

M2 BERT 128 Retrieval Encoder V1

M2-BERT-128は論文『Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT』で提案された8000万パラメータの検索モデルチェックポイント

テキスト埋め込み

Transformers 英語

Layoutlm Wikipedia Ja

これは日本語テキストを事前学習したLayoutLMモデルで、主に日本語文書のトークン分類タスクを処理するために使用されます。

大規模言語モデル

Transformers 日本語

Environmentalbert Biodiversity

EnvironmentalBERT-baseを微調整した生物多様性テキスト分類モデルで、ESG/自然分野の生物多様性テキスト検出に特化

大規模言語モデル

Transformers 英語

M2 Bert 80M 32k Retrieval

これは80MパラメータのM2-BERT事前学習モデルで、最大32768のシーケンス長をサポートし、長文コンテキスト検索タスクに最適化されています

テキスト埋め込み

Transformers 英語

togethercomputer

GHisBERTはBERTアーキテクチャに基づくモデルで、歴史的ドイツ語データ向けにゼロから訓練され、ドイツ語の全ての文献化された発展段階を網羅しています。

大規模言語モデル

BERTアーキテクチャに基づく固有表現認識モデル、人名、組織名、アメリカ住所情報のアノテーション専用

シーケンスラベリング

Luke Japanese Wordpiece Base

日本語BERTを改良したLUKEモデルで、日本語固有表現認識タスクに最適化されています

シーケンスラベリング

Transformers 日本語

EconoBertはbert-base-uncasedを経済学分野のデータセットでファインチューニングしたモデルで、経済学、政治学、金融学分野のNLPタスクに適しています。

大規模言語モデル

Transformers 英語

Geolm Base Toponym Recognition

GeoLMは、文から地名を検出するための言語モデルで、世界中のOpenStreetMap、WikiData、Wikipediaデータで事前学習され、GeoWebNewsデータセットでファインチューニングされています。

シーケンスラベリング

Transformers 英語

Simcse Indobert Base

IndoBERTベースのSimCSEモデル、インドネシア語文の意味的埋め込みベクトル生成用

テキスト埋め込み

Transformers その他

indolem/indobert-base-uncasedをファインチューニングしたインドネシア語テキスト分類モデルで、評価セットでの精度は79.54%

大規模言語モデル

Sber AIチームとモスクワ国立大学人工知能研究所MLSA研究室が共同で訓練したロシア語BERTモデルで、科学テキスト処理に特化

大規模言語モデル

Transformers その他

Vietnamese Address Embedding

これはsentence-transformersベースのモデルで、ベトナム語の住所文や段落を768次元の密なベクトル空間にマッピングでき、主に住所標準化タスクに使用されます。

テキスト埋め込み

哪吒(NEZHA)は中国語理解向けの神経コンテキスト化表現モデルで、Transformerアーキテクチャに基づき、Huawei Noah's Ark Labによって開発されました。

大規模言語モデル

Bert Ancient Chinese

これはBERTアーキテクチャに基づく中国語事前学習言語モデルで、文語と現代中国語の処理をサポートします。

大規模言語モデル

Transformers 中国語

Sentece Embeddings BETO

sentence-transformersベースのスペイン語BERTモデルで、文や段落の768次元ベクトル表現を生成

テキスト埋め込み

Arabertmo Base V10

AraBERTMoはGoogleのBERTアーキテクチャに基づくアラビア語事前学習言語モデルで、マスキングタスクをサポートします。

大規模言語モデル

Bert Medium Arabic

約82億語のアラビア語テキストリソースを基に訓練された事前学習済みのアラビア語BERT中型言語モデル

大規模言語モデルアラビア語

日本語ウィキペディアデータセットで学習されたBERTベースモデル、日本語テキストのマスク埋め込みタスクに適しています

大規模言語モデル

Transformers 日本語

韓国語事前学習に基づくRoBERTaモデルで、様々な韓国語自然言語処理タスクに適用可能です。

大規模言語モデル

Transformers 韓国語

Klue Bert Base Aihub Mrc

KLUE BERT-baseをファインチューニングした韓国語機械読解モデル、AIHubデータセットで訓練

質問応答システム

Transformers 韓国語

Bert Base Chinese Ws

繁体中国語のtransformersモデル及び自然言語処理ツールを提供

大規模言語モデル中国語

Muril Adapted Local

MuRILはGoogleが公開した17種類のインド言語とその転写版を事前学習したBERTモデルで、多言語表現をサポートしています。

大規模言語モデル複数言語対応

Rubert Base Cased Sentiment

RuBERTアーキテクチャに基づくロシア語短テキスト感情分類モデルで、中立、積極的、消極的の3つの感情分類をサポート

テキスト分類その他

Bert Base Arabertv01

BERTアーキテクチャに基づくアラビア語事前学習言語モデル、様々なアラビア語NLPタスクに対応

大規模言語モデルアラビア語

現在最先端のヘブライ語言語モデル。BERTアーキテクチャに基づいています。

大規模言語モデルその他

Arabertmo Base V3

AraBERTMoはGoogleのBERTアーキテクチャに基づくアラビア語事前学習言語モデルで、マスキングタスクをサポートします。

大規模言語モデル

Transformers アラビア語

Chinese Bigbird Base 4096

BigBirdアーキテクチャに基づく中国語事前学習モデル、4096長のコンテキスト処理をサポート

大規模言語モデル

Transformers 中国語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase