序列標註

2025年最佳 781 款序列標註工具

Indonesian Roberta Base Posp Tagger

這是一個基於印尼語RoBERTa模型微調的詞性標註模型，在indonlu數據集上訓練，用於印尼語文本的詞性標註任務。

Transformers 其他

基於BERT微調的命名實體識別模型，可識別四類實體：地點(LOC)、組織機構(ORG)、人名(PER)和雜項(MISC)

序列標註英語

Deid Roberta I2b2

該模型是基於RoBERTa微調的序列標註模型，用於識別和移除醫療記錄中的受保護健康信息(PHI/PII)。

Transformers 支持多種語言

Ner English Fast

Flair自帶的英文快速4類命名實體識別模型，基於Flair嵌入和LSTM-CRF架構，在CoNLL-03數據集上達到92.92的F1分數。

序列標註英語

French Camembert Postag Model

基於Camembert-base的法語詞性標註模型，使用free-french-treebank數據集訓練

Transformers 法語

Xlm Roberta Large Ner Spanish

基於XLM-Roberta-large架構微調的西班牙語命名實體識別模型，在CoNLL-2002數據集上表現優異。

Transformers 西班牙語

Nusabert Ner V1.3

基於NusaBert-v1.3在印尼語NER任務上微調的命名實體識別模型

Transformers 其他

Ner English Large

Flair框架內置的英文4類大型NER模型，基於文檔級XLM-R嵌入和FLERT技術，在CoNLL-03數據集上F1分數達94.36。

序列標註英語

基於xlm-roberta-base微調的多語言標點符號預測模型，支持12種歐洲語言的標點符號自動補全

Xlm Roberta Ner Japanese

基於xlm-roberta-base微調的日語命名實體識別模型

Transformers 支持多種語言

Gliner Medium News V2.1

基於GLiNER的微調版本，專為新聞實體抽取優化，在18個基準測試中零樣本準確率最高提升7.5%

序列標註英語

EmergentMethods

Fullstop Punctuation Multilang Large

一個用於預測英語、意大利語、法語和德語文本標點符號的多語言模型，旨在恢復轉錄口語的標點結構。

Transformers 支持多種語言

Bert Base Multilingual Cased Ner Hrl

基於mBERT的多語言命名實體識別模型，支持10種高資源語言，能識別地點、組織和人名三類實體。

基於BERT-large微調的命名實體識別模型，在CoNLL-2003數據集上實現最先進性能

序列標註英語

Flair自帶的法語標準4類NER模型，基於Flair詞嵌入和LSTM-CRF架構，在WikiNER數據集上F1分數為90.61。

序列標註法語

Ner German Large

Flair框架內置的德語4類大型命名實體識別模型，基於XLM-R嵌入和FLERT技術，在CoNLL-03德語數據集上達到92.31的F1分數。

序列標註德語

Xlm Roberta Base Romanian Ner Ronec

基於xlm-roberta模型在羅馬尼亞語NER數據集RONEC上訓練的命名實體識別模型，測試集f1-Macro達到95分。

Transformers 其他

Distilbert Base Multilingual Cased Ner Hrl

一個面向10種高資源語言的命名實體識別模型，基於微調的Distil BERT基礎模型，能夠識別地點、組織和人物三類實體。

Wikineural Multilingual Ner

基於神經網絡與知識庫融合的多語言命名實體識別模型，支持9種語言

Transformers 支持多種語言

Roberta Large Ner English

基於RoBERTa-large微調的英語命名實體識別模型，在conll2003數據集上訓練，特別優化了電子郵件/聊天數據的實體識別能力。

Transformers 英語

基於camemBERT在wikiner-fr數據集上微調的命名實體識別（NER）模型，擅長處理法語文本中的命名實體識別任務。

Transformers 法語

Camembert Ner With Dates

基於camemBERT微調的法語命名實體識別模型，新增了日期標籤功能

Transformers 法語

Ner English Ontonotes Large

Flair自帶的英語18類命名實體識別大模型，基於Ontonotes數據集訓練，採用XLM-R嵌入和FLERT技術。

序列標註英語

Ner English Ontonotes

Flair自帶的英文18類命名實體識別模型，基於Ontonotes數據集訓練，F1分數89.27。

序列標註英語

Roberta Large Tweetner7 All

基於roberta-large在tner/tweetner7數據集上微調的命名實體識別模型，專門用於推特文本中的實體識別

採用3層Transformer架構的頂尖句子分割技術，支持多語言文本分割。

Transformers 支持多種語言

segment-any-text

Albert Tiny Chinese Ws

提供繁體中文的transformers模型及自然語言處理工具

Transformers 中文

Ner Dutch Large

Flair自帶的荷蘭語4類命名實體識別大模型，基於XLM-R嵌入和FLERT技術，在CoNLL-03荷蘭語數據集上F1分數達95.25。

序列標註其他

一款閱讀順序預測模型，可將從PDF提取或通過OCR檢測的文本框轉換為可讀順序。

該模型用於識別和移除醫療記錄中的受保護健康信息(PHI/PII)，符合HIPAA隱私標準。

Transformers 支持多種語言

Bert Base NER Russian

基於bert-base-multilingual-cased微調的俄語文本命名實體識別(NER)模型，採用BIOLU標註格式，可識別人名、地點、機構等多種實體類型。

Transformers 其他

Flair自帶的英語標準4類命名實體識別模型，基於Flair嵌入和LSTM-CRF架構，在CoNLL-03數據集上達到93.06的F1分數。

序列標註英語

Piiranha V1 Detect Personal Information

Piiranha-v1 是基於 microsoft/mdeberta-v3-base 微調的模型，專為檢測六種語言中的17類個人身份信息（PII）而設計。

Transformers 支持多種語言

Bert Base Turkish Cased Ner

基於dbmdz/bert-base-turkish-cased模型微調的土耳其語命名實體識別模型，支持識別人名、組織名和地名等實體。

Transformers 其他

Biomedical Ner All

基於distilbert-base-uncased訓練的英文命名實體識別模型，專為識別生物醫學實體（107種實體類別）設計，適用於病例報告等文本語料。

Transformers 英語

Bpmn Information Extraction V2

基於bert-base-cased微調的BPMN流程信息抽取模型，用於從文本化流程描述中提取執行者、任務等關鍵元素

Zh Wiki Punctuation Restore

一個用於中文維基百科文本的標點符號恢復工具，支持恢復6種常見標點符號。

Transformers 支持多種語言

Xlm Roberta Large Finetuned Conll03 English

基於XLM-RoBERTa-large模型在英語conll2003數據集上微調的命名實體識別模型

序列標註支持多種語言

Bert English Uncased Finetuned Pos

一個用於中文詞性標註的模型，支持常見的17種詞性標籤。

Bert Spanish Cased Finetuned Ner

基於西班牙語BERT大小寫版本（BETO）在NER-C數據集上微調後的版本，專用於命名實體識別（NER）任務。

序列標註西班牙語

Bert Fa Base Uncased Ner Peyma

基於Transformer的波斯語理解模型，重構詞彙表並在新語料庫上微調，拓展了多領域應用功能

序列標註其他

Gliner Multi Pii V1

GLiNER 是一種命名實體識別（NER）模型，能夠識別多種類型的個人身份信息（PII）。

PyTorch 支持多種語言

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase