网络瘫痪事件的诊断与恢复

2010-3-22    来源:中国IT实验室    我要评论
   | |

导读:针对上海某百货局域网出现的网络通讯中断事故,本文展开了详细的调查和案例分析,深入查访故障源,一步步将把问题范围缩小,最终把问题解决了。

关键词:网络瘫痪诊断与恢复 通讯中断事故 ARP 网络流量

 
正在加载数据...

  故障地点:上海某某百货局域网

  故障现象:严重通讯障碍,客户机之间ping包掉包严重,甚至POS机也不能正常通讯,用户很难完成付款操作。

  详细描述:

  整个网络间断性出现网络通讯中断,造成经常性的客户机应用延迟和上网缓慢。在主机房中进行ping包测试时发现,主机房客户机对主交换机的管理地址的ping包也会发生间隙性掉包。主机房客户机对各个楼面交换机通讯的通讯中断情况更加严重。

  初步经验性问题判断为:

  1)ARP表更新问题;

  2)广播故障;

  3)路由表更新故障;

  4)病毒攻击及其他安全状况。

  需要获取的进一步信息是:

  1) ARP表信息;

  2) 交换机负载;

  3) 通讯数据捕获。

  进行了简单的ARP测试,发现更新ARP正常; 由于交换机反应缓慢,操作超时,无法准确获得当前负载数据。

  选择主交换上一网络端口接入测试用笔记本,启动协议分析工具。

  接入端口没有做镜像,接入后发现每秒钟接收到数据报文数量平均8000个,最高达到每秒14000个。按此推算,每台交换机背板每秒可能交换336000多个封包,这可能是造成交换机处理器被严重占用,造成间歇性丢包的直接原因。

  由于交换机端口没有做镜像,可以认为当前的接收到的数据主要为广播通讯。利用协议分析工具捕获解码后,可以得到以下结果。

网络瘫痪事件的诊断与恢复 1

  主要的协议通讯都是广播通讯。包括ARP 广播、SMB广播和Name SVC广播。

网络瘫痪事件的诊断与恢复 2

  几乎所有的封包大小都小于255字节。所以尽管封包数量很大,但是总体字节数不多,吞吐量较小,在一些只记录流量的软件系统中,不能准确发现这个问题的危害。

网络瘫痪事件的诊断与恢复 3

  从解码角度察看,可以看到一段时间内,主要为某一台主机的疯狂通讯。往往一台主机的通讯在瞬间占据当时总体通讯的50%以上。

  到此,问题原因曾经被导向到个别流量特别大的主机,怀疑其由于病毒/蠕虫的侵害而造成大流量的产生。但是在进一步分析的过程中,我们注意到了这些在通讯中有一个特点,例如在NetBIOS 的Name SVC广播为UDP协议,UDP为IP之上封装的通讯,在IP包头包含了IP Identification信息(缩写IPID),一般每台主机在主动发送一个数据包时,会对IPID这个值进行递增。例如第一个包IPID为 10000,第二个发送包就可能是10001,第三是10002,依次类推,不同的主动发送的报文的IPID应当是不同的。但是在解码中可以发现在一段时间内,IPID是在大量简单重复。换言之,这些大量的广播报文,通常不应当是某台主机主动引起,而是被交换机发复转发造成。

网络瘫痪事件的诊断与恢复 4

  在此情况下,为了正式这一现象,我们作了一次试验,让某台主机以每三秒一次的频率发送请求到一个不存在的地址(为了引起ARP广播),但是每三秒一次的广播,在网络中捕获的结果是在一秒钟内形成了7991次反复转发,造成了大量的网络流量。经过这些过程,我们确认这一问题是由于交换机环路造成。

  通常交换网络中会打开Spanning Tree协议以保障不发生交换机环路的现象,如果不使用Spanning Tree Protocol (以下简称STP),当两台交换机发生同时被两条线缆互联时候,会形成环路,交换机无法自我侦测这一情况,其结果是把广播报反复转发。

  如果启用STP,各个交换机会发送优先度很高的BPDU数据封包,进行线路检测,当发现发送的BPDU包被不恰当的转发回来时候,交换机可以相互协商,关闭某一条环路路径。保障任意两个交换机中只有一条耦合链路。问题确认得到以后,我们试图解决。

  采用二分法,临时断开东楼和西楼的光纤链路。断开后发现故障立即消除,所有超时现象不再出现,流量平复正常。 以此可以判断,环路发生在西楼和东楼之间,或在老楼内部。

  恢复光纤链路之后,我们前往老楼进一步查访故障源。由于老楼交换机放置地点条件较差,经过整理和分析,到18:45分左右,在老楼发现故障源也已经消失。由于时间因素,进一步的定位工作没有继续,但是由于已经把问题缩小到老楼局部以及能够定位了故障类型本身,对之后的维护保障工作应当有比较好的帮助。

  结论

  在诊断该故障同时,还发现有一些网络扫描的现象,网内还伴随一些病毒和蠕虫的征兆,因此网络维护任重道远,仍然需要更多的努力和投入。

 
 
 
 
 
 

安全事件管理

 
当IT安全人员试图使用RBAC和IAM技术来帮助提供更好的信息授权访问控制时,他们发现他们当前的IAM部署并没有合理地配置,因而无法帮助定位SIM技术……
 
SIM技术是安全管理者识别违反策略活动时所使用的集中化工具。SIM和IAM这两种迥然不同的技术是如何协同工作来降低组织的风险的呢?
 
通常情况下,IT组织在公司内部通过它们管理的身份管理进程和技术来管理用户访问和授权,与此同时,IT安全组织已经通过自己的一系列策略、流程以及技术来降低风险。
 
在缺少人手的情况下,我们应该如何确定安全事件响应过程呢?本文中,我们将概述如何利用非安全部门的员工组成一个能够制定数据泄漏响应计划的电脑安全事件响应小组。
 
在那儿...墙上的小插孔连接着互联网和你公司的薪水系统。只要网线插入这个插座,他们就开始工作!谁开始工作?你可能会问。什么是真正的问题,你怎么对付他们呢?

热门技术手册排行

 

虚拟专用网络 VPN(Virtual Private Network )能通过公用网络Internet建立一个临时的、安全的连接,是一条穿过混乱的公用网络的安全、稳定的隧道。VPN是对企业内部网的扩展,它可以帮助远程用户、公司分支机构、商业伙伴及供应商同公司的内部网建立可信的安全连接,并保证数据的安全传输。许多公司使用VPN向公司外部的员工提供企业网络接入。本手册将围绕VPN进行全方位的讲解。

 

“最佳实践”来自英文Best Practice。维基百科对最佳实践的定义是一个管理学概念,认为存在某种技术、方法、过程、活动或机制可以使生产或者管理实践的结果达到最优,并减少出错的可能性。学习应用IT企业安全的最佳实践,其实就是借鉴别人成功的经验,让自己在保护企业安全方面少走弯路。在本手册中,将集合IT业内关于企业安全的最佳实践,并不断更新,以期在企业安全防护方面提供帮助。

 

虚拟化是数据中心的流行技术,它起源于20世纪60年代。它是把昂贵的计算机资源的利用最大化的方式。典型的服务器的利用率不足40%,虚拟化可以更有效地利用技术资源,并节约固定费用。虚拟化的最大优势是,它允许管理员从中央区域为个人电脑和客户设备提供软件。虚拟化不需要管理员对一般任务进行分别考虑。服务器的关机可以带动多用户的关机。

 

黑客策略和技术一直都在进步。黑客还在继续开发新的攻击工具和黑客方法,来恶意访问系统并攻击你的网络,这样企业在开发和采取恰当的方法防御黑客的攻击就变得非常困难。《黑客攻击技术和策略》的技术指南将介绍黑客的内心想法,并帮助你理解恶意攻击者的动机,也提供了一些黑客攻击具体信息的方式,采用的方法以及企业应该采用的保护敏感数据的方法。这里将会提供大量黑客技术和策路的信息,例如允许黑客获取网络系统或者文件访问的系统特征探测。

 

假如你正在寻找一个漏洞扫描器,你可能已经遇到了大量的非常昂贵的商业解决方案,这些方案都有一长串的性能和优点。不幸的是,如果你和我们之中大部分人的情况一样的话,你一般根本没有运行这些奇特的系统的预算。你可能已经退而求其次,转向考虑使用像SATAN或Saint的免费工具。然而,你可能觉得使用这些工具是一种折衷的办法,因为它们的性能设置不能与商业解决方案相比。这时候你就应该学会使用Nessus! 2005年12月Nessus背后的公司Tenable Network Security Inc.发布了Nessus 3,引进了对该产品的全面检查。在写这篇文章时候的最近版本,Nessus 3.2是在2008年3月发布的。Nessus现在可以在多种平台上使用,包括Windows、各种版本的Linux、FreeBSD、Solaris和Mac OS X。以下是这次Nessus3中的重大变化: 下面将介绍如何使用Nessus工具以及Nessus工具的更新。

查看更多
 
 

登录TechTarget中国

关闭
本服务仅向TechTarget中国的会员开放,请登录或立即免费注册
登录Email
请输入您的登录Email
密码
下次自动登录