B

Bert Chunker 3

由tim1900開發
基於BertForTokenClassification的文本分塊器,適用於結構化和非結構化文本,特別優化用於RAG場景
下載量 1,226
發布時間 : 2/9/2025

模型概述

bert-chunker-3是一個基於BERT的文本分塊模型,能夠預測文本塊的起始標記,並通過滑動窗口將任意大小的文檔切割成文本塊。特別適用於檢索增強生成(RAG)等場景,對非結構化和雜亂文本有良好處理能力。

模型特點

非結構化文本處理
專門優化用於處理非結構化和雜亂文本的分塊需求
滑動窗口機制
採用滑動窗口技術處理任意長度的文檔
概率閾值調節
可通過prob_threshold參數靈活控制分塊粒度
LLM標註數據
訓練數據由大語言模型標註,提高模型穩定性

模型能力

文本分塊
文檔分割
非結構化文本處理
RAG場景支持

使用案例

檢索增強生成(RAG)
文檔預處理
為RAG系統準備文檔分塊
提高檢索效率和準確性
文本分析
技術文檔處理
分割技術文檔為邏輯段落
便於後續分析和處理
廣告內容分析
分割廣告文本為有意義的塊
支持內容分類和特徵提取
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase