BERT架構優化

# BERT架構優化

Language Detection

基於BERT的多語言檢測模型，支持200種語言的文本分類任務

文本分類支持多種語言

M2 BERT 128 Retrieval Encoder V1

M2-BERT-128是論文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》中提出的8000萬參數檢索模型檢查點

Transformers 英語

Layoutlm Wikipedia Ja

這是一個基於日語文本預訓練的LayoutLM模型，主要用於處理日語文檔的令牌分類任務。

大型語言模型

Transformers 日語

Environmentalbert Biodiversity

基於EnvironmentalBERT-base微調的生物多樣性文本分類模型，專注於ESG/自然領域的生物多樣性文本檢測

大型語言模型

Transformers 英語

M2 Bert 80M 32k Retrieval

這是一個80M參數的M2-BERT預訓練模型，支持長達32768的序列長度，專為長上下文檢索任務優化

Transformers 英語

togethercomputer

GHisBERT是基於BERT架構的模型，專為歷史德語數據從頭訓練而成，涵蓋德語所有有文獻記載的發展階段。

大型語言模型

基於BERT架構的命名實體識別模型，專門用於標註人名、機構名及美國地址信息

Luke Japanese Wordpiece Base

基於日語BERT改進的LUKE模型，專為日語命名實體識別任務優化

Transformers 日語

EconoBert是基於bert-base-uncased在經濟學領域數據集上微調的模型，適用於經濟學、政治學和金融學領域的NLP任務。

大型語言模型

Transformers 英語

Geolm Base Toponym Recognition

GeoLM是一個用於從句子中檢測地名的語言模型，基於全球範圍的OpenStreetMap、WikiData和Wikipedia數據預訓練，並在GeoWebNews數據集上微調。

Transformers 英語

Simcse Indobert Base

基於IndoBERT的SimCSE模型，用於生成印尼語句子的語義嵌入向量

Transformers 其他

基於indolem/indobert-base-uncased微調的印尼語文本分類模型，在評估集上準確率達79.54%

大型語言模型

Bert Base Han Chinese Pos Jindai

提供針對古漢語的詞性標註功能，訓練數據集涵蓋漢語發展的四個歷史時期。

Transformers 中文

由Sber AI團隊與莫斯科國立大學人工智能研究所MLSA實驗室聯合訓練的俄語BERT模型，專注於科學文本處理

大型語言模型

Transformers 其他

Vietnamese Address Embedding

這是一個基於sentence-transformers的模型，能夠將越南語地址句子和段落映射到768維的密集向量空間，主要用於地址標準化任務。

哪吒(NEZHA)是一個面向中文理解的神經語境化表徵模型，基於Transformer架構，由華為諾亞方舟實驗室開發。

大型語言模型

Bert Ancient Chinese

這是一個基於BERT架構的中文預訓練語言模型，支持文言文和現代漢語處理。

大型語言模型

Transformers 中文

Sentece Embeddings BETO

基於sentence-transformers的西班牙語BERT模型，用於生成句子和段落的768維向量表示

Legal Hebert Ft

Legal-HeBERT 是一個面向希伯來語法律及立法領域的 BERT 模型，旨在推動希伯來語法律自然語言處理研究與工具開發。

大型語言模型

Arabertmo Base V10

AraBERTMo是基於谷歌BERT架構的阿拉伯語預訓練語言模型，支持填充掩碼任務。

大型語言模型

Bert Base Italian Xxl Uncased Finetuned ComunaliRoma

該模型是基於意大利語預訓練模型bert-base-italian-xxl-uncased在特定數據集上微調的版本，適用於意大利語文本處理任務。

大型語言模型

Bert Base Chinese Ws

提供繁體中文的transformers模型及自然語言處理工具

大型語言模型中文

基於日語維基百科數據集訓練的BERT基礎模型，適用於日語文本的掩碼填充任務

大型語言模型

Transformers 日語

Muril Adapted Local

MuRIL是谷歌開源的基於17種印度語言及其轉寫版本預訓練的BERT模型，支持多語言表示。

大型語言模型支持多種語言

基於韓語預訓練的RoBERTa模型，適用於多種韓語自然語言處理任務。

大型語言模型

Transformers 韓語

當前最先進的希伯來語語言模型，基於BERT架構

大型語言模型其他

Klue Bert Base Aihub Mrc

基於KLUE BERT-base微調的韓語機器閱讀理解模型，使用AIHub數據集訓練

Transformers 韓語

Rubert Base Cased Sentiment

基於RuBERT架構的俄語短文本情感分類模型，支持中性、積極和消極三種情感分類

文本分類其他

Bert Base Arabertv01

基於BERT架構的阿拉伯語預訓練語言模型，支持多種阿拉伯語NLP任務

大型語言模型阿拉伯語

Bert Medium Arabic

預訓練的阿拉伯語BERT中型語言模型，基於約82億詞的阿拉伯語文本資源訓練

大型語言模型阿拉伯語

Dehatebert Mono German

該模型基於多語言BERT微調，專門用於檢測德語中的仇恨言論，採用單語（英語）訓練數據。

文本分類德語

Hate-speech-CNERG

Chinese Bigbird Base 4096

基於BigBird架構的中文預訓練模型，支持4096長度的上下文處理

大型語言模型

Transformers 中文

Arabertmo Base V6

AraBERTMo是一個基於BERT架構的阿拉伯語預訓練語言模型，支持填充掩碼任務。

大型語言模型

Transformers 阿拉伯語

Arabertmo Base V2

基於BERT架構的阿拉伯語預訓練語言模型，支持填充掩碼任務

大型語言模型

Transformers 阿拉伯語

Arabertmo Base V4

AraBERTMo是一個基於BERT架構的阿拉伯語預訓練語言模型，支持填充掩碼任務。

大型語言模型

Transformers 阿拉伯語

SloBERTa是一個專門針對斯洛文尼亞語優化的單語BERT類模型，基於Camembert架構開發。

大型語言模型

Transformers 其他

Bert Base Arabic Camelbert Da Sentiment

基於CAMeLBERT方言阿拉伯語模型微調的情感分析模型，支持阿拉伯語文本情感分類

Transformers 阿拉伯語

Arabertmo Base V3

AraBERTMo是一個基於谷歌BERT架構的阿拉伯語預訓練語言模型，支持填充-掩碼任務。

大型語言模型

Transformers 阿拉伯語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase