某机载远程接口单元上电FLASH 校验失败故障分析
作者: 于方春 高伟 刘杨 呼明亮
摘要:作为飞机机电管理系统(UMS) 的核心设备之一,某机载远程接口单元(RIU) 在使用过程中频繁出现上电FLASH校验失败故障,影响了飞机任务出动。文章运用故障树分析法,排查了RIU上电FLASH校验失败的根本原因:看门狗测试触发NMI后未对中断标志位进行清除,NMI重复执行期间NvRAM的“写”操作被CPU的复位终止,造成FLASH校验值被改写。通过在软件中增加“中断标志清除”操作和增加“CPU等待复位”操作,解决了RIU上电FLASH校验失败问题。
关键词:机电管理系统;远程接口单元;FLASH校验;故障树分析;中断标志清除
中图分类号:V243 文献标识码:A
文章编号:1009-3044(2025)09-0103-03 开放科学(资源服务) 标识码(OSID) :
0 引言
在飞机的机电管理系统中,远程接口单元扮演着至关重要的角色[1-2],它负责收集机电设备的状态信息并执行机电管理计算机(UMC)的输出控制,从而成为连接飞机上传感器、作动器与UMC之间信息的枢纽。基本的机电管理系统拓扑结构如图1所示[3]。当RIU 发生故障时,传感器收集的实时数据无法准确传输至UMC,导致飞行员无法获取飞机当前的真实状态,进而影响飞行决策。作动器的输出控制也将受到影响,可能导致飞机的某些系统如环控系统等机电设备无法正常工作,严重时甚至引发飞行事故。本文分析并解决了RIU上电FLASH校验失败问题,显著提高了飞机的出勤率和安全性。
1 问题概述
RIU投入使用以来,飞机在地面上进行通电检查时多次发生监控设备报告RIU“FLASH 校验失败故障”,RIU无法进入“正常工作模式”。通过对故障数据的综合分析,发现了在RIU上电自检过程中,其CPU内部应用程序所计算的校验和与预先固化于非易失随机存储器(NvRAM) 中的校验和不匹配。一旦出现这种故障,会导致RIU无法进入“正常工作模式”,同时监控设备报告RIU发生“FLASH校验失败故障”。
2 工作原理
2.1 看门狗测试原理
RIU在上电自检阶段软件会首先做看门狗测试,然后做FLASH检验测试。看门狗测试的目的是检测在看门狗叫的情况下,应用软件是否可以正常被复位。如图2所示为看门狗测试原理框图,其步骤如下。
①看门狗在100 ms内未收到“喂狗指令”时,微处理器监控电路(MSC) 将产生“喂狗超时信号WDO”。
②FPGA查询到“喂狗超时信号WDO”有效时,产生非屏蔽中断(NMI)“ 看门狗中断WDG_I”。
③应用软件记录中断服务程序后,通过“复位指令RST_OUT”复位MSC。
④MSC 发出“ 系统复位指令 SYS_OUT”复位FPGA和CPU。
当RIU上电自检进行看门狗测试时,“看门狗中断WDG_I”使软件进入NMI进程,流程如图3所示,该进程会对NvRAM进行读和写操作。
2.2 校验电路及原理
FLASH大小为256 kB,集成在CPU内部,用于存储RIU软件。NvRAM存储空间为32 kB,用于在RIU 下电时存储RIU工作时间等重要信息。如图4所示,CPU与NvRAM通过SPI接口进行数据读写。RIU上电自检时,首先读取NvRAM中的校验和A,然后读取CPU内部FLASH的数据按4字节累加计算校验和B,校验二者是否匹配。
3 故障原因分析
通过故障诊断[4]和RIU工作原理分析,NvRAM中FLASH校验和A被改写的原因可能为:一是NvRAM 功能异常造成存储的数据错误,二是NvRAM在RIU 下电的正常写入时数据错误,三是NvRAM在看门狗测试NMI中写操作使数据错误。因此,以“NvRAM中的FLASH校验和A被改写”为顶层事件,“NvRAM功能异常”“NvRAM在RIU下电的正常写操作异常”和“NvRAM在看门狗测试NMI中写操作异常”为底层事件开展故障树分析,故障树如图5所示。
3.1 NvRAM功能异常
NvRAM功能异常可能会造成非易失存储单元或SRAM存储的数据被改写。使用示波器检测VCC供电电源在建立过程中不存在抖动等异常情况,检测NvRAM的片选信号CS、保持信号HOLD信号正常,检测SPI对NvRAM读写操作时序符合设计手册要求。在高低温试验箱对NvRAM进行读写测试和上下电数据保持测试,NvRAM 功能均正常。因此可以排除“NvRAM功能异常”的底层事件。
3.2 NvRAM在RIU下电的正常写操作异常
NvRAM在RIU下电的正常写操作如图6所示,CS 为低有效,分别写入“写使能指令0x06”“写操作指令0x02”“高8位地址”“低8位地址”和“数据”。该过程发生异常可能造成数据被改写。经过清查,该NvRAM写操作为Burst模式,若要将32kB地址空间全部改写,需要按地址遍历操作,必然需要相应的软件分支才可以完成。经查询应用软件,未发现具备该功能的分支。因此可以排除“NvRAM在RIU下电的正常写操作异常”的底层事件。
3.3 NvRAM在看门狗测试NMI中写操作异常
NvRAM在看门狗测试NMI中写操作异常,可能导致NvRAM中数据被改写。如图7所示,以CPU响应系统复位信号SYS_OUT为触发,捕捉到看门狗测试中NMI被重复执行的现象。从图中可以看出,喂狗超时信号WDO 发出到CPU 复位的时间Td 约为58.07 μs,NMI进程执行时间为Ti约为21.09 μs,完整地重复执行了2次,第3次执行未完成。CPU手册中对NMI触发过程约定:CPU内部进入NMI进程中必须清除“中断标志”,否则当退出中断服务进程时,会重新被请求而重复执行。
清查RIU软件,未对“中断标志”进行清除,故从MSC复位指令发出到CPU响应复位信号的时间内存在重复执行NMI进程的问题,第3次执行未完成造成NvRAM写操作中断,因此无法排除该底层事件。
3.4 故障定位结论
依据故障树分析,故障定位结论为:看门狗测试触发NMI后未对中断标志位进行清除,NMI重复执行期间NvRAM 的“写”操作被CPU 的复位终止,造成NvRAM中FLASH校验和A被改写。
RIU上电自检时首先读取NvRAM中的校验和A,然后读取CPU内部FLASH区域的软件,按字节累加计算其校验和B。校验和A为被改写,与校验和B不匹配,RIU自检结束后转入“降级工作模式”,并通过总线将“FLASH校验失败故障”上报至监控设备。
4 解决措施及验证
综上所述,解决RIU上电FLASH校验失败故障的措施是:RIU软件在上电自检看门狗测试中进入NMI进程后,增加对“中断标志”的清除操作。同时在MSC 发出系统复位后,使CPU内部处于等待复位状态,不进行其他操作。由于“FLASH校验失败故障”发生在RIU上电过程中,因此将修改后的软件固化至RIU后,连续进行了大量的上电、下电试验[5],“FLASH校验失败故障”未再发生,因此故障定位准确,解决措施验证有效。
5 结束语
通过对RIU上电FLASH校验失败故障的分析,研究制定了针对性的解决措施,彻底解决了RIU上电FLASH校验失败问题,提高了飞机机电管理系统的可靠性和飞机出动的效率,对保证飞行任务的完成具有积极意义。未来研究将继续聚焦在深入研究NvRAM 存储器特性,优化校验算法以提高其适应性和鲁棒性,以及探索新型存储技术,为飞机FLASH校验提供更加可靠、高效的解决方案等方向。