网络故障检测中的探测路径选择方法研究
The study of detection path selection methods in network fault detection
通讯作者:
收稿日期: 2021-11-22
基金资助: |
|
Received: 2021-11-22
关键词:
Keywords:
本文引用格式
齐小刚, 马文超, 李家慧.
Qi Xiaogang, Ma Wenchao, Li Jiahui.
现代网络的规模和复杂性的增加使网络管理具有挑战性,故障检测和满足用户的服务质量需求是高效网络管理面临的两个主要问题[1].随着关键任务和实时应用程序对提高网络可用性的要求越来越高[2-3],意外故障和常规操作降低了网络可用性[4],故障检测的重要性日益凸显.现代网络需要及时的故障检测和恢复措施以确保网络的正常运行,保证系统的生存能力和可靠性.故障检测技术分被动监测、主动监测和网络层析.被动监测是经典的故障检测工具,通过使用故障组件发送的警报来监控网络的运行状态并检测故障的存在,检测到故障后,被动方法根据故障信息进一步定位故障位置,它的主要限制在于对网络组件的高度依赖,每个网络组件在出现故障时都要发出警报[5].主动探测是在网络中主动发送探针来推断网络组件的健康状况,探针通常用于获取端到端的统计信息,如延迟、吞吐量、损失和路由可用性[6].主动探测分两种:预计划探测和自适应探测.图1和图2是预计划故障探测和自适应故障探测的图例.Brodie et al[7]提出预计划探测来解决单节点故障定位问题,在给定的网络拓扑条件下寻找合适的探测路径,根据不同路径返回的信息判断网络状态,定位网络故障.Xuan et al[8]的基于预计划探测的算法可以在大型稀疏网络中定位多个链路故障,先间断性地发出能够覆盖网络所有节点的探针,然后根据返回的信息推断网络各组件的状态.但是该方法需要使用大量探针,且大部分探针会被浪费,另外,在发送和接收探针时由于时延会造成信息不完整,导致判断产生误差.自适应探测方法选取一小部分能够覆盖网络中所有节点的探针进行探测,所以探测结果只能确定网络故障是否发生,不能确定具体组件故障,必须进一步探测,每次探测都根据以前的探测结果在可能的故障区域进行信息的获取.和预计划探测相比,主动探测有效减少了探针数量.因为探针是从探测站发送的,所以不论是预计划探测还是自适应探测都需要确定探测站和选择探针集.现有的文献提出了多种方法来选择探测站和探针,希望利用最小数量的探针集来探测整个网络状态[9-10].一旦确定了探测站,接下来就是选择合适的探针集来检测和定位故障,同时,选择合适的探针可使检测和定位时间最短[11-12].网络层析[13-15]是检测网络中链路性能的一种方法,从端到端测量中推断链路状态和包延迟情况,监控网络以保证服务质量.Li et al[16]重点研究动态网络的优先链路层析成像问题,解决如何分配最小数量的监视器以识别所有可能也会改变的拓扑的链接.Ma et al[17]开发一种算法来放置最少数量的监视器来识别所有的链接指标.Feng et al[18]提出一种部署新监控器的方法以最大限度地减少总错误范围.Geng et al[19]提出一种新的混合链路保护(HLP)方案,保护失败的链路,以非常高效的方式提供完整的网络保护.
图1
图2
本文基于主动探测方法对故障检测中的探测路径选择进行研究,根据节点的最短路径权重、节点的最短路径数和节点度来定义节点的权重(用来衡量节点的数据传输能力,即传输价值).在探针集的选择上考虑路径长度对探测成本的影响,选择一组探针长度不超过
1 相关概念
假设网络拓扑已知,将其建模为一个无向加权连通图
其中,
其中,
探针选择是从候选探针集中选择覆盖所有节点的探针的过程,每个探针的成本定义如下:
其中,
故障检测的目的是确定网络中可能出现故障的区域,从而减少进一步准确定位故障节点的探针数量.探测站选择问题是NP完备的,因此常用贪婪算法来近似求解,不从整体最优上考虑,而是在某种意义上寻求局部最优解.使用
已知给定探测站以及候选探针集,选择的探针满足其未覆盖节点数大于等于
假设探测站
算法迭代地选择探测站和探测路径直到网络中所有的节点都至少被一条路径覆盖,如果一个节点发生故障,则经过该节点的探针历经的所有节点都将不被探测到.因此,沿着探测路径发送的探针能够缩小故障可能发生的区域,可进一步探测以确定故障点.
2 探测路径选择方法
本文提出的故障检测的探测路径选择算法(Detection Path Selection Algorithm,DPSA)给出了故障检测过程的细节.算法1将网络节点权重图
故障检测的探测路径选择算法
输入:网络
输出:探测站集
step1.初始化
step2.对
step3.当
step4.将
图3a是八个节点的简单网络图,可以帮助理解算法1的故障检测算法.在图3a所示的简单网络中放置两个探测站.将探针长度
图3
3 结果和分析
3.1 实验设置
通过对随机生成的网络拓扑和真实网络拓扑进行仿真来评估本文提出的算法,使用前面定义的两种节点权值的参数生成节点的权值.DPSA1表示使用第一种参数定义节点的权值
(1)MaxFD:选择节点度最大的部分节点作为探测站并选择探针;(2)MinFD:选择权值最小的部分节点作为探测站并选择探针;(3)RandomFD:随机选择部分节点作为探测站并选择探针.首先在随机生成包含少量节点的网络上比较了这四种算法的探针数量和探测成本,然后在真实网络拓扑上进行性能评估,选择的真实网络拓扑是从Rocketfuel项目[20]导出的Internet Service Provi⁃der (ISP)拓扑.将DPSA算法与其他三种算法的探针数量和探测成本进行比较,以显示考虑节点权值的故障检测方法的优势.
3.2 随机生成拓扑
图4是节点数量从7到10的四个小规模网络.因为网络规模小,设置探针最大长度
图4
表2 故障检测的探针数目
Table 2
Network | DPSA1 | PDSA2 | MaxFD | MinFD | RandomFD |
---|---|---|---|---|---|
(a) | 3 | 4 | 4 | 4 | 4 |
(b) | 4 | 4 | 5 | 3 | 4 |
(c) | 4 | 5 | 4 | 4 | 4 |
(d) | 4 | 5 | 4 | 5 | 5 |
表3 故障检测成本
Table 3
Network | DPSA1 | DPSA2 | MaxFD | MinFD | RandomFD |
---|---|---|---|---|---|
(a) | 26 | 30 | 28 | 35 | 35 |
(b) | 26 | 27 | 45 | 30 | 36 |
(c) | 39 | 39 | 39 | 41 | 39 |
(d) | 42 | 43 | 42 | 60 | 55 |
3.3 真实网络拓扑
表4 真实网络拓扑
Table 4
AS | Nodes | Edges |
---|---|---|
3967 | 79 | 147 |
6461 | 141 | 374 |
3257 | 161 | 328 |
1239 | 315 | 972 |
表5 故障检测后的可疑节点数
Table 5
AS | DPSA1 | DPSA2 | MaxFD | MinFD | RandomFD |
---|---|---|---|---|---|
3967 | 20 | 19 | 51 | 49 | 53 |
6461 | 31 | 34 | 57 | 63 | 68 |
3257 | 45 | 49 | 64 | 71 | 78 |
1239 | 53 | 57 | 161 | 153 | 179 |
是故障检测后的可疑节点数,图5表示了用于故障检测的探针数量.从比较结果可以看出,本文算法总能使故障检测后的可疑节点的数量最少,说明与其他算法相比,本文算法选择的探针对具有高传输价值的节点们的影响较小,更适用于现实通信网络中的故障检测.在大规模的网络拓扑中,DPSA算法在探针数量上有明显的优势,可以有效提高网络管理的效率.
图5
图6
图7
4 结论
通信网络中一些负载很高的节点更重要且容易受到额外流量的干扰而造成性能下降,本文旨在研究故障检测过程中根据节点传输价值的差异和探针长度的限制来放置探测站和选择探针的问题.提出的故障检测的探测路径选择算法DPSA是一种有效的算法,可以减少被发送的探针对具有高传输价值的节点们的影响.为了减少探针的探测时间,设置探针的最大长度为
参考文献
Traffic dynamics⁃aware probe selection for fault detection in networks
Fast recovery for single link failure with segment routing in SDNs
∥
Sentinel:Failure recovery in centralized traffic engineering
TEAVAR:Striking the right utilization⁃availability balance in wan traffic engineering
∥
Efficient active probing for fault diagnosis in large scale and noisy networks
∥
Efficient probe selection algorithms for fault diagnosis
Active probing strategies for problem diagnosis in distributed systems
∥
Efficient multi⁃link failure localization schemes in all⁃optical networks
Adaptive monitoring:Application of probing to adapt passive monitoring
The strategy of probe station selection of active probing in WSNs
∥
Probe station placement algorithm for probe set reduction in network fault localization
∥
Probe station selection algorithms for fault management in computer networks
∥
Taming both predictable and unpredictable link failures for network tomography
Robust and efficient monitor placement for network tomography in dynamic networks
Estimating traffic and anomaly maps via network tomography
Preferential link tomography in dynamic networks
Inferring link metrics from end⁃to⁃end path measurements:Identifiability and monitor placement
Bound inference in network performance tomography with additive metrics
A hybrid link protection scheme for ensuring network service availability in link⁃state routing networks
Rocketfuel:An ISP topology mapping engine
.
/
〈 |
|
〉 |
