2011年12月22日,在工业信息化部、信息化推进司、中国数据中心产业联盟的支持下,中国IDC产业联盟网承办2011中国数据中心建设与运维高层论坛开幕了,此次论坛以“领先科技,缔造未来”为主题,与会将就新一代数据中心规划,建设,运维,和安全等实质性问题进行广泛探讨和互动交流。机房360对本次高层论坛做了全程直播。以下是王加东演讲的全文实录:
王加东:各位来宾大家下午好,现在由我给大家介绍一下SNA存储网络故障,排错方案。我们这个主题跟今天上午,包括今天下午大部分主题发言范围,可能差距比较大一些,并没有涉及到一些基础系统建设,包括运维。我们这个
系统解决方案是用户的
服务器,网络设备,包括存储系统已经上线以后,他的各种业务系统已经上线以后,如果出现后端
服务器跟存储系统之间性能比拼,就可能用到我们SNA的解决方案。所以,还是一个比较细分的市场,我是负责数据存储网络这块业务在亚洲的市场拓展。
我们本次大概会有下面几个部分,一个是国内外大型机构数据中心系统及维护模式不同,包括部署工具之前和之后的场景。另外,我们会简单介绍一下存储网络分析几个典型应用场景,最后就我们的解决方案做一个简单介绍,包括也会提到我们目前在上海,包括北京、上海的客户案例。首先我们看一下大型机构数据中心在国内外系统维护模式不同,这是一个ESG创始人讲的一段话,现在IT系统越来越复杂,问题也越来越多,在应用各个当中也提出越来越多的挑战,我们需要使用一些好的工具,或者是维护的解决方案定义出问题来。
这个是国外大型机构跟国内大型机构目前一些不同,我们在国内跟很多机构用户做过很多交流,国外目前,其实我们发现他税金规模已经相当庞大,不说现在,即便10年以前。我们发现包括美国,在欧洲并不是一些很知名类似于金融,证券,运营商这种客户,他的数据中心与我们10年以后,中国很多大型机构基本上还要大很多。因为这几年国内数据机房建设也越来越大,规模也越来越大,部署的系统和业务越来越大,也有赶超的趋势。目前来讲,相对是小一些。
那么,国内因为规模比较大出的问题也非常多,目前相对来讲,国内因为规模的问题相对还小一些。我们跟很多金融企业沟通起来,很多问题还是仅限于线,包括链路的问题等等,很多问题可能通过应用跟系统本身提供的一些管理软件也可以得到解决,碰到非常复杂的问题前几年并不是特别多。这几年规模慢慢大起来以后,问题也慢慢出来了。在国外的话,他的用户碰到问题的时候,除了使用像系统厂商提供的一些管理系统,还有一些
服务器的管理系统,网络设备与网络设备的管理系统,智能设备与智能设备的管理系统。除此之外,还有很多第三方网管工具,或者是管理工具,包括比方说我们上了这种业务系统以后,我们碰到这种应用性能的问题,我这个业务系统,对终端用户连上来以后觉得非常慢,打开一个页面查一个东西,可能几十秒钟出不来结果,这就是性能的问题。
实际上来讲,国外的公司现在已经越来越多利用第三方整个工具,包括我下面提的应用性能管理的问题,典型代表像美国一些公司,大家可能对Snifer都比较熟悉,对你以太网进行监控和分析。国内目前来看,我们碰到大部分问题,尤其企业一些基本客户还是比较倾向于碰到问题的时候,尤其稍微复杂的问题都还是叫厂商过来,他们也买了厂商7×24小时的服务,一个电话就过来,厂商也非常重视,因为是大的机构用户。所以,出现问题的时候,像包括
服务器,数据库,中间件,交换机,存储设备都会过来,不行就做多方会诊解决问题,目前这种情况还是比较多一些。
那么,自己独立配置一些第三方诊断,运维工具来进行诊断,目前这种情况还不是非常多。这个就是刚才我提到的,这是通过美国一个公司生成业务拓扑图,从这个图上面可以容易让你知道,一个用户请求经过每一步的研究,会很方便找到问题在哪一个点。但是,我们知道一旦问题点,比如这张图里面最右边的数据库,
服务器跟系统之间的时候,这个时候带来的问题就两个方向。一个方向你如果查数据库内部资源,比如
服务器内部像CPU,内存,网络,各种资源进程如果都非常正常的话,你数据库
服务器对客户端请求仍然非常慢。那问题就在什么地方呢?肯定跟后端存储网络有关系。
但是,即便刚刚提到的数据库
服务器本身都有正常,并不一定是后端存储的问题。所以,我们这个分析工具就应该在这个地方,用在数据库
服务器跟交换机,存储之间这个环节。我们通过相应的数据,进行一定的分析,并且非常明确的告诉用户,性能的慢或者不稳定,各种问题,根源到底是不是存储系统,是不是交换机,或者是不是我这个
服务器。所以,这是我们适用的范围。
那么,一个典型的部署,我们这个产品是Xgig,一般是终端用户报告我的业务系统慢,我用的ERP慢,计费系统慢,供应链管理系统慢,慢可能就会联络到存储管理员,可能会怀疑存储系统慢及存储网络慢。那么存储管理员第一步会使用一些存储资源管理,或者SNA的管理人员进行定位。如果你找到了很简单,你可能通过一个手段消除这个问题的根源,应用性能的丰富。如果找不到问题,就进一步通过设备管理工具进行定位,如果找到了OP,找不到可能这个时候就没办法联系厂商。但是,用户自己可能会觉得是
服务器问题,有一个初断,或者是存储的问题,相应会把厂商叫过来。当然先通过电话,电话不行再通过上门服务。你怀疑这个节点确实有问题解决了,结果不了就得叫另外一个长上过来。
如果大家都看不到问题的话,把大家都叫在一起进行多方会诊。但是有些问题,刚才谈存储网络复杂以后有些问题不是这么简单的,可能从某一方,从
服务器自身来看,看你上面记录,进程资源情况都很好,交换机也好的,存储系统能力也很好,可能存储厂商人员可能会通过密码登入内部,这也是好的。这个问题怎么办呢?最终结果,往往还是说要部署我们第三方工具,来抓一些数据进行一个分析,最终进行定义。如果数据中心里面事先部署了SNA的分析工具,这个情况就跟刚才不大一样。一般如果有问题打给存储管理员,存储管理员如果找到问题就OK,如果觉得一看性能没问题,直接就进行排除,应用慢就找其他环节,就不是我后台存储网络的问题。如果通过工具一看,如果慢的根源就在存储网络,我们就抓一些数据来进行分析,这个问题在什么地方,可能是什么原因,包括存储网络存储和
服务器的理解情况,使问题得到解决,如果解决不了,我也可以很快把抓的数据发给厂商。因为这些厂商都会看的懂我们抓的数据,他们很快就会对一些问题,给客户一个解释。
当然,没必要等用户跑到现场来抓数据进行分析,也耽误了很多时间。我们前面谈到存储网络分析工具,目前常用的几个场景有这么几个地方,一个因为业务慢,这可能是我们碰到最多问题,你等到业务上线以后,可能平常应该很正常。在某些时段,或者某些场合下面你会发现性能不好,刚才讲了你可以联通,但是大家体验不好,查个东西,写个数据很难忍受,他这种情况比较容易解决。还有业务系统没有规律的,包括不稳定的情况,这两种情况是更好使用我们的产品。下面会谈四种常见案例,第一种就是我们看到应用系统的可用性。应用系统一般都在
服务器上面,访问后端存储系统,如果慢的话?我们可以把我们工具通过光纤分路器拿出来进行分析,来判断是不是在存储网络这一侧出现问题。
第二向一些,如果大的数据中心我们就会做远程灾备,建灾备中心。灾备中心两端设备会定期进行备份,这个时候我们就可以来看,相当于复制的性能到底怎么样。还有我们会做一些对数据中心存储系统一侧进行监测,当然这还不止电子商务网站,一般企业应用,只要把存储这一侧监测起来,所有业务系统,访问存储这一端如果慢很快就可以找到根源,进行集中监控。
还有现在很多集成系统厂商把老的东西和新的东西整合在一起,所有
服务器都通过存储网络统一访问存储信息化系统,有他来分配数据整体到哪些具体上面。往往这个时候,我们发现很多用户也碰到一些快慢问题,你反而没上信息化之前是好的,上了信息化之后反而问题更多。这种场合也非常适合用我们这个东西,我们在虚拟化系统前端和后端都把这个抓下来进行分析,我们就要比较一下,比方说前端后端延迟到底怎么样,很容易得到问题的答案。
下面我们稍微简单看一下捷迪讯公司一些业务,包括我们产品的情况。捷迪讯公司是99年加拿大JDS和美国Uniphase合并而成,总部设在美国硅谷Milpitas,NASDAQ上市公司。2009年7月15日收购美国Finisar公司协议工具部门,踏入存储网络测试领域,我们涉及FC协议分析,SAS,SATA协议,iSCS,CIFS,NFS协议都非常擅长,我们有一个MedusaLabs实验室,进行一些测试服务。这是使用我们这个产品的客户,基本上可以看到,业界从做存储网卡到存储交换机,到存储系统,甚至包括存储硬盘都是我们客户。
我们现在这个产品还抓了数据格式,各个厂商,基本上用户数据中心里面涉及的主机,交换机等等都会认识,他们的工程师也都会用我们这个工具进行分析。这个展品就是我们前面提到Xgig的产品,其实是一个硬件设备。当然了,我们具体的配置,管理,分析也是通过软件来做的,设备的主要目的是为了把存储网络链路上的数据拿下来存在里面,然后我这个电脑装的软件,把系统设备找出来进行分析,找出问题根源。
这是几个协议,一个是FibreChannel,还有存储交换机,还有主力系统,现在都有8G,还有厂商正在研究16G协议,真正用户部署还得2年以后。以太网这块,包括像1个3,10个G,40G都可以进行分析,另外还有SaaS的协议也都可以做分析。这是我们软件的一个运行界面,通过界面可以看到,这是XgigFC协议分析解码界面,左下角基本上类似于Xgig的界面,从这当中进行解码出来。这个是对抓的数据进行一个系统专家分析,告诉你什么地方有什么问题,红色的表示出错,红色是警告。前面也提到为了应用我们解决方案,首先第一步要从链路上把这个拿下来,要经过高密度分光路器,这是一个实际图,这是一个机架设备,4个小模块,每个模块有四组,每一组有三个端口,其中前面两个端口相当于一进一出。第三个端口把两个方向数据,可以拿出来,跟我们工具的连接是这样的。
我们可以看到第三个端口,出来的两个链路数据直接可以接到我们工具这两个端口上。右上角这个图,如果接在交换机和传统设备之间的话,高密度分装器如何连接的。下面举两个案例,这是国内银行间互联机构。他们今年3月份出了一个问题,每天晚上9点多钟,基本上这个时间,跨行间交易,业绩就会堵住,在交易大屏幕上可以看到瞬间业务订单就堵塞在那边,下不下去。
这左边是一个数据库
服务器,IBM,中间四台是光纤通道存储交换机,右边这台是一个OEM的高端存储,你看走的双链路,
服务器是两条链路连两个交换机,两个交换机连另外两个交换机,这两个交换机互相做灾备。当时其实用户没有用这个功能之前,找这个问题已经分析了两三个月,总会担心会不会有根源的问题发现。为此,用户这边包括很多战略管理人员经常通宵达旦把厂商的人叫过来分析,也分析不出来,一个IBM,每个人看自己系统都完全没有问题,都非常正常,但是这个问题基本上每天都出现。当然,也不是一定某一个时间点出现,但都会出现。所以,这个问题比较复杂。
我们实际上现在,当然这个解决方案没有用到分装器,我们通过交换机上做端口竞相,分别把
服务器连两个交换机的两个链路,以及右边这两个交换机连存储两个链路应该竞相出来,连在我们这个设备,把数据抓起来,抓了之后就可以进行分析。他这个系统里面也是一个多路径,
服务器端是负载均衡的两条链路到这个系统里来。这个我们抓过来以后做一定分析,找到这个流量图,右边红线这个地方流量基本上就消失了,没地方要了。这边是我们专家分析的一些结果,顺着这个结果去找根源,发现他是在第二套链路,右边交换机连存储系统,这个链路上面,在某一个时刻,多少,多少秒,过来的32个访问存储命令全部都挂在那边,什么意思呢?我读写存储系统的命令,存储系统完全没有响应,挂的时间是2.6秒钟。因为正常来讲的话,你要发一个毒的命令到存储系统,存储系统应该回第一个数据,第二个数据回来,一个写命令,写在存储系统上,存储系统就说你可以写了,下面存储器就把这个写出来。所以,这些存储系统都没有响应,我们判断存储系统这个时候内部是挂掉的。当然,挂的时间不是很长,2.6秒钟,但是对业务影响非常关键,我们同时发现他跨行间的交易一下子就堵塞了,所以这是很严重的问题。
这是我们具体某一个命令,你看这上面是读的命令,下面这行是2.588的地方,这是一个具体展示。刚刚讲的这个例子问题是在存储设备,存储系统内部的问题。我现在讲这是一个北京四大行之一,这个是今年6月份的时候,他们要上第三方交易平台,有一个上限结果出问题上不了。因为这个服务者考虑这个系统连起来之后,超过三个多小时磁盘找不到了,盘掉了。这个问题根源是存储系统那端发了一个正常的数据包,就是我们现在上面这个线停在这个地方,发了一个包,发了一个主机,结果主机存储门槛碰到这个包可能有问题,就挂掉了。操作系统过了几秒钟之后就提醒应用,磁盘也看不见。
去年还是前年在上海有一个证券交易中心,在这个地方也出现问题,当时部署我们系统也是15分钟没有搞定,之前也是IBM跟EMC重组,大概将近1个多月也是不知道怎么回事,分析完以后从三个点一看就是这个分析系统性能问题,美国研发也确认存储系统里面有问题,他自己看设备管理器原来都是很正常的。那么,这个是我们在国外比较多的一些大型客户成功案例,包括从运营商经营,证券,大的企业,超算中心也算的非常多。我的介绍就到这里,大家如果以后对存储网络这块新的排错,调优有什么问题可以联系我们在各地的分支机构,谢谢大家。