数据标注的基本概念
数据标注类(语音)MDD
MDD即口语评测,通过精准检测句子、单词、汉字音素级别的发音。用于提高纠正人们的发音方法。
数据标注类(语音)TTS
TTS语音合成技术,将文字转为语言的技术。
数据标注类(语音)ASR
ASR自动语音识别。结合音频事件检测分句、标点、ITN(逆文本标准化)、自动纠错等方式做预处理和后处理。用于协助AI识别语义,在精准的位置打标点,顺滑语气词和多余的部分。
常见的质效问题
语音类:有效性、文本、截取错误以及工具使用等;
视图类:标注框类、区域标注类、关键点类等错误;
文本类:文本筛选、关键词标注、情感标注、翻译、分词标注等错误。
人工智能的学习方式
监督学习、无监督学习、半监督学习、强化学习
图像标注流程
图像获取、图像前期处理、图像预识别、图像标注、结果输出。
视频标注流程
标注、质检、初验、终验、返修至保存退出
文本标注流程
预处理、标注、质检、验收、数据预处理、数据交付
语音标注流程
预分析语音数据、制定标注规则、设计标注平台、标注语音数据、质检语音数据、输出
数据采集
1、数据采集分类:视频、图像、语音、文本
2、数据采集类型:结构化、非结构化、半结构化
3、数据采集原则:全面性、多维性、高效性
数据采集方案的质量衡量指标
准确性、完整性、适用性、简洁性
数据采集方案的主要内容
确定数据源、数据采集的时间和频率、数据采集的采集、处理、储存的技术和方法、数据采集安全、数据采集交付周期、数据采集的量级
常见数据采集方法
系统日志采集、分布式订阅分发、ELT(从其他数据库整合)、网络数据采集
采集数据后的数据处理方式
1、基于特征参数的语音数据分析
2、基于特征抽取的图像数据分析
3、基于运动特征的视频数据分析
4、多策略融合的文本数据分析
5、多源数据关联集成
数据清洗的主要内容
对缺失值、异常值、重复值以及需要类型转换的数据进行处理
标注规则必备特性
渐进明细性、目的性、临时性、独特性
标注规则常见问题
规则多次修改、规则过于简陋、较多专业术语
数据质检方法
实时检查、抽样检查、全样检查
数据质检流程
质检点确认、质检人员培训、输出质检报告、解决质检问题、项目质量总结
数据质检的基础术语
质量:产品或服务满足项目特征需求
质检量:标注过的数据进入质检池的大小
轮次:质检同一批数据的轮次
diff:被质检标注过错误的数据
再质检数据:对已经质检过的数据,再次抽检
申诉:被质检判定错误的数据,标注人发起的申诉
数据打回:质检人对不合格数据打回重新标注
数据质检的模式
抽检:所有数据先审一轮,再随机抽检一部分数据
全检:两轮全检
盲审:预审一轮,抽中的数据再审1-3轮
全审:所有数据审核2-3轮
联系我们
虚位以待 静候卿来