中企动力网站建设方案厚街响应式网站设计
文章目录
- 一、异常种类
 - 1. 对于移动对象的数据异常
 - 2. 对于时序数据的异常检测
 
- 二、异常数据清洗流程
 - 三、数据预处理
 - 四、异常检测算法
 - 五、异常修复算法
 - 六、漂移数据清洗
 
一、异常种类
不同的研究对象,有着不同的异常分类方式
1. 对于移动对象的数据异常
异常数据信息,包括重复数据、无序数据、缺失数据、 无效数据、漂移数据、模糊数据。
| 类型 | 描述 | 
|---|---|
| 重复数据 | 由于设备或其他因素问题 导致的数据重复存储造成的 | 
| 无序数据 | 是网络传输延迟造成的不正确的数据存储顺序 | 
| 缺失数据 | 通过比较两个数据之间的时间差和数据收集的频率来确定的 | 
| 无效数据 | 由数据的纬度或经度是否超出范围来确定 | 
| 漂移数据 | 是指不符合行驶规则,明显偏离行驶轨迹的数据记录 | 
| 模糊数据 | \ | 
2. 对于时序数据的异常检测
除了重复数据、无序数据、缺失数据、 无效数据。
 又可以将数据的异常精确地分为:
- 点异常值:相对于全局其他数据的异常实例。
 - 上下文异常值:上下文异常值通常在它们自己的上下文中具有相对较大/较小的值,但不是全局的。
 - 集体异常值:被定义为相对于整个数据集异常的相关异常数据实例的集合。
 
以上这些异常的检测难度也较大。
再细分的话,集体异常值又可以分类为:
- shapelet outliers (异常的局部子序列): 。
 - seasonal outliers (异常周期性的局部子序列): 。
 - trend outliers (异常趋势的局部子序列):

 
二、异常数据清洗流程

三、数据预处理
- 是否要排序
 - 是否要规定索引
 - 是否要填充缺失值、删除重复值
 - 是否要调整数据格式(列位置调换、提取所需数据)
 
四、异常检测算法

五、异常修复算法
- 均值填充
 - 最大似然估计
 - NNF
 
近邻数据填充 NNF(Nearest Neighbor Fill)算法
 
 NNF 算法不仅具有 MA 算法均等填充数据的优势,而且对于逐渐演化的数据也有很好的填充优 势,在变化的数据中,NNF 比 MA 有更好的填充效果。
- 。。。
 
六、漂移数据清洗
一种结合范围约束和最大似然估计的算法
- 修复漂移较大的数据异常:范围约束
 - 修复漂移较小的数据异常:滑动窗口统计
 
