| 一 前言
Bras(宽带接入服务器)位于数据城域网汇聚节点,主要作用是对各类用户进行控制、管理,是电信运营商实现网络盈利、强化运营手段的关键设备。而设备的稳定、可靠是运营商提高服务水平,保持盈利水平长期稳定增长的必要条件。
中兴UAS5000是一款典型应用于城域网汇聚层的Bras设备,主要向各类用户提供高速网络接入管理控制、专线互联业务及安全保证等。设备主要由主控板、交换板、终结板、UNI线路卡、NNI线路卡等组成,并且主控、交换采用冗余设计。UAS5000系统MTBF≥74233小时,MTTR≤0.5小时。中兴UAS2500是一款适用于园区汇聚节点的Bras设备,沿用高端设备UAS5000的设计思路及理念,提供更丰富的业务接入及管理手段;系统MTBF≥253277小时,MTTR≤0.5小时。
目前,中兴UAS系列产品均获得了德国TUV颁发的CE认证证书,获得了欧洲市场的准入证,并于2001年11月获得国内第一张信息产业部入网证。该系列产品的稳定性和可靠性,均得到了运营商的一致好评。
二 稳定性及可靠性保证控制
产品稳定性、可靠性保证,是一个过程,这个过程贯穿于中兴宽带接入服务器产品的研发、调试、生产等各个阶段,以保证产品在整个生存周期内满足通信产品的运行、使用要求。
1.产品开发阶段
中兴UAS系列产品属于电信级网络接入服务器,要求具有高可靠性、高稳定性,主处理器、主存和电源等要求双机冗余备份。按照通信行业标准《网络接入服务器(NAS)技术规范》(YD/T 1045-2000),对Bras设备有明确的要求:MTBF(平均故障间隔时间)>69000小时,MTTR(平均维修时间)<l小时。
为了实现设备能够长期稳定运行的高可靠性,从方案论证开始,中兴通讯就在UAS系列产品研制规范中对可靠性提出要求,在系统设计之初就考虑了可靠性问题。并制订了两个纲领文件:《系统可信性设计说明》和《产品可靠性试验方案》,保证了产品可靠性水平。
产品的稳定性设计,分为硬件、软件两个主要方面,项目组对这两方面分别进行质量控制及可靠性保障。
(1)硬件方面
首先,在硬件系统设计上,采用背版、插件板、子卡每种单板功能独立,便于故障隔离。
为保证Bras产品MTBF>69000小时,MTTR<l小时的硬性指标,中兴UAS项目组按国家军用标准GJB450-88装备研制与生产的可靠性通用大纲,建立了系统级任务可靠性模型,用评分分配法把可靠性指标69000小时分配到各个单板。把可靠性定量要求落实到单板级,可靠性设计与性能设计同步进行。
中兴UAS的交换板和主控板是系统的核心部件,占据十分重要的地位,而它所用的元器件较多,规模较大,特别存在对发热及时序的严格要求。所以,为了实现可靠性指标,系统设计考虑交换板、主控板、电源采用冗余备份。
其次,为确保系统的可靠性指标,对即将使用的元器件制订了详细要求,约束各单元/部件的设计。具体要求是:
● 单板所选用电阻、电容、电感以及微电路,严格按中兴通讯颁布的《元器件优选手册》选择,尽量选用在其它产品中得到可靠使用验证的通用元器件。
● 优先选用符合国标、国军标和行业标准并有可靠性指标的元器件,并尽可能压缩元器件的规格、品种及生产厂家。
● 优先选用时间稳定性好、抗电磁干扰性能好、参数散布离散性小的元器件。
● 尽量用大规模、高集成度的IC器件替代分立器件,优先考虑选择使用套片,以降低硬件设计中的不稳定人为因素。
● 器件选用工业级产品,工作温度范围-40℃~85℃,以保证低温与高温启动特性。
● 元器件的使用遵照国家军用标准GJB/Z35-93《元器件降额准则》执行,降额等级特别是业务板采用II级降额,以保证系统余量。
另外,在中兴UAS系列产品的维修性设计、测试性设计、热设计、EMC设计方面,开发组也严格把关。
由于中兴UAS系列产品的部件密集度高,对热设计要求较高,项目组在详细设计前对系统进行了热仿真,单板发热功率总计280W。因此,系统散热决定采用鼓风方式,六个直流风机,并且3个为一组互为主备用,从下往上直接对单板鼓风,下进冷风,后上出风。
电磁兼容设计中的可靠性保证:
● 从电源、信号线到接口,全部设计有防护和保护电路。对外连接的信号线、电源进线,要求承受2级雷击浪涌和脉冲串干扰。
● 为防止元器件间干扰,单板尤其是背板,对外的部分尽量接地或采用低速/直流信号。辐射较大且易受干扰的器件,如OCXO外壳要求良好接地。
● 高速信号线走内层的两层地之间,并良好匹配,以降低EMI值。
● 对集成电路实施被动安全保护,如在去耦电容两端并接钽电容。
为保证中兴UAS系列产品的系统可测试性,对每块设备单板设计有测试孔,支持JTAG测试的芯片引出测试插座;对核心和关键芯片,如交换结构、网络处理器、FPGA、RAM、ROM等提供自检功能,各单板均有自检与告警接口,通过网管可以远程监测及主备切换。
(2)软件方面
在软件开发过程中,始终按CMM要求,采取严格的配置控制或者是回归政策保证产品开发和修改的受控,从而保证产品的可靠稳定运行。
软件可靠性设计,主要采用模块化设计,保证模块之间相互独立,对每部分质量分散控制,进而提高系统软件的可靠性。
● 在模块设计时,严格定义完成各个模块之间的接口方式,以及具体接口涉及的数据结构,明确各个模块实现的详细功能划分。
● 保证内部程序功能流程清楚,特别是内部的有效管理,在软件操作系统部分进行主要控制,如内存调度控制等,软件各个分系统使用的内存采用静态分配,避免动态申请内存造成的调度错误。
● 在各软件模块整合为系统时,各个模块首先进行模块内部的自测,保证向外提供的接口可靠稳定,整合系统后再进行系统测试及整体调试。
此外,中兴UAS系列产品的软件系统提供对设备整体稳定性、安全性进行弥补的功能。如在硬件某端口发生故障时,系统能检测到并关闭该端口,不影响其它端口正常工作;对用户操作命令进行合法性检查,防止用户的误操作影响系统运行;对数据库操作采用加锁机制,同时只允许一个对象访问数据库,保证数据库的一致性等。
(3)手段及方法
在整个产品开发过程中,中兴UAS项目组及质量部成员始终运用先进的管理手段及工具,以提高质量控制效率及水平。
在产品详细设计的原理图、PCB图阶段,采用Cadence软件进行严格详细的信号完整性分析仿真,重点保证高速时钟信号和数据信号的时序和抗噪能力,再经过可靠性工程师严格审核,才能投版制作,进入下一个工序。其中单板可靠性设计师由开发工程师兼任,系统可靠性审核由专职可靠性工程师负责。
在详细设计完成后的性能样机评审阶段,按照中国可靠性权威单位信息产业部电子第五研究所编制的可靠性工程软件CARMES-2000,用应力分析法对整个UAS系统进行评估,其中进口器件按美军标MIL-HDBK-217F,MIL-HDBK-217F2预计,国产器件按中国国家军用标准GJB/Z299B-98预计。评估结果需超出国家Bras可靠性指标要求,才能通过评审。
产品开发的各阶段,开展可靠性设计评审。可靠性评审主要着重对可靠性设计准则、建模、分配、预计、分析及可靠性技术措施进行审查,发现可靠性和维修性设计上的疑点和薄弱环节,对系统最终形成的可靠性设计文件进行评审,包含可靠性检测或试验报告。只要可靠性试验项目一项不通过,即判可靠性试验不通过。可靠性在各类评审中位置相当重要,拥有一票否决权。
中兴UAS项目组早在2002年就通过CMM3级认证,在整个开发过程中,坚持采用CMM4的体系要求,严格控制开发过程;并且采用6Sigma的方法和手段,大大提高工作效率,节约了成本,提高了产品质量。如在“软件承载平台”质量改进过程中,质量控制团队采用6Sigma的方法,经过半年的质量控制,将该系统模块故障率下降一个数量级,将故障解决时间由10天降低为3天,节约80%的故障维护成本。
2.产品投产阶段
可靠性试验是对产品的可靠性进行调查、分析和评价的一种手段,成为衡量产品可靠性水平的硬指标。中兴UAS系列产品在研制生产过程中,必须通过一系列可靠性试验。
其中“环境试验”依据GB/T 2423 电工电子产品环境试验规程,GJB150-86军用设备环境试验方法等;“电磁兼容试验”依据国际标准IEC61000-4系列抗扰性标准,CISPR22信息设备骚扰性标准;“安全性试验”依据IEC60950。并且还对研制生产各阶段的可靠性试验要求和项目作了明确规定,必要时还进行摸底测试等专项试验。
为满足产品在各种复杂多变的应用场所都能稳定工作,产品在设计定型之前要经过高低温试验、机械振动试验和多项电磁兼容性试验等十多个试验项目,在批量生产时还要进行老练筛选试验、模拟运输试验。特别是批量生产前,还要在中兴通讯总部可靠性检测中心最终测试。中兴通讯的可靠性检测中心,投资达数千万,有完整、全面、标准的试验手段,已经获中国国家实验室CNACL认可。经过中兴通讯可靠性检测中心的千锤百炼,中兴UAS系列产品有如炼出了钢筋铁骨,可以适应各种恶劣环境。
三 结束语
经过严格质量控制的中兴UAS系列产品在实际应用中表现出了良好的稳定性、可靠性。2001年10月应用在山东电信(现山东通信)的UAS5000设备,一直稳定运行至今,期间最大数据流量曾几乎达到UAS的标称值;2002年间,中兴UAS系列产品分别在世界屋脊的西藏、山脉纵横的福建、沿海之滨的上海等地开局,稳定性及可靠性受到了运营商的一致好评。 |