🚀 ATC - 飞行员发言者角色分类模型
这是一个二分类序列模型,旨在仅基于文本,判断给定的空中交通通信话语是来自飞行员还是空中交通管制员(ATC)。传统上,空中交通通信中的发言者角色归属依赖于声学特征,如语音特性和信道分离。该模型突破了这一传统,完全在文本领域处理此任务,使用基于 Transformer 的架构进行微调,以进行发言者角色预测。
🚀 快速开始
本模型可用于对空中交通通信话语进行分类,判断其发言者是飞行员还是空中交通管制员。以下是使用示例:
Input: "CLEARED FOR TAKEOFF RUNWAY ONE ONE LEFT"
Prediction: "ATC"
Input: "REQUESTING PUSHBACK"
Prediction: "PILOT"
✨ 主要特性
- 文本领域分类:完全基于文本进行发言者角色分类,突破了传统依赖声学特征的方式。
- 高性能表现:在测试集上取得了较高的准确率、精确率、召回率和 F1 分数。
- 可扩展性:可用于多种相关任务,如发言者角色标记、多模态 ATC 系统预处理等。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
Input: "CLEARED FOR TAKEOFF RUNWAY ONE ONE LEFT"
Prediction: "ATC"
Input: "REQUESTING PUSHBACK"
Prediction: "PILOT"
📚 详细文档
任务描述
该模型对单轮话语进行二分类,以分配以下两种发言者角色之一:
PILOT
ATC
它使用 DeBERTa - v3 - large 模型在手动处理和标记的空中交通通信转录本上进行微调。
评估性能
该模型在测试集上取得了以下结果:
- 准确率:96.64%
- 精确率:96.40%
- 召回率:96.91%
- F1 分数:96.65%
预处理与训练设置
使用了自定义的预处理管道来准备训练数据,包括:
- 基于已知呼号和短语模式的发言者归属启发式方法
- 短语归一化
- 文本标准化
- 过滤无关话语
- 数据集平衡
每个话语都被独立处理并标记,用于发言者角色分类。
模型架构
- 基础模型:
microsoft/deberta - v3 - large
- 任务类型:
SequenceClassification
(num_labels = 2
)
- 训练设置:
- 在 2x H100 80GB SXM5 上训练
- 带有预热(10%)的余弦学习率调度
- 批量大小:128
- 基于 F1 分数的提前停止
- 最大序列长度:256 个标记
- 混合精度训练(FP16)
- 每 200 步进行一次评估
预期用途
本模型旨在用于:
- 空中交通管制通信转录本中的发言者角色标记
- 多模态 ATC 系统的预处理
- 为下游任务过滤或构建大型航空文本语料库
局限性
- 仅对单轮话语进行操作;不使用轮次级或对话上下文。
- 像 "ROGER" 或 "THANK YOU" 这样的模糊传输可能仅使用文本难以分类。
- 可能需要额外的模态(如音频特征、元数据)进行完全消歧。
基准比较
本模型在仅基于文本的发言者角色分类方面优于先前基于 Transformer 的模型。为作比较,[Juan Zuluaga - Gomez](https://huggingface.co/Jzuluaga/bert - base - speaker - role - atc - en - uwb - atcc) 的相关模型基于 BERT - base,取得了以下结果:
- 准确率:89.03%
- 精确率:87.10%
- 召回率:91.63%
- F1 分数:89.31%
此处展示的微调后的 DeBERTa - v3 - large 模型明显优于此基线:
- 准确率:96.64%
- 精确率:96.40%
- 召回率:96.91%
- F1 分数:96.65%
包含 Jupyter 笔记本以重现和比较评估:
evaluate_juans_model.ipynb
evaluate_jacks_model.ipynb
这些笔记本使用相同的测试集评估两个模型,并打印详细的分类指标。
参考资料
- [Juan Zuluaga - Gomez – Hugging Face 模型](https://huggingface.co/Jzuluaga/bert - base - speaker - role - atc - en - uwb - atcc)
- DeBERTa: 具有解纠缠注意力的解码增强 BERT
- [GitHub 仓库 – ATC 飞行员发言者角色分类任务](https://github.com/jack - tol/atc - pilot - speaker - role - classification - task)
🔧 技术细节
本模型使用自定义的预处理管道处理训练数据,包括基于已知呼号和短语模式的发言者归属启发式方法、短语归一化、文本标准化等。以 microsoft/deberta - v3 - large
为基础模型,在 2x H100 80GB SXM5 上进行训练,采用余弦学习率调度和提前停止策略等。
📄 许可证
本项目采用 MIT 许可证。
属性 |
详情 |
模型类型 |
二分类序列模型 |
训练数据 |
手动处理和标记的空中交通通信转录本 |
基础模型 |
microsoft/deberta - v3 - large |
评估指标 |
准确率、精确率、召回率、F1 分数 |