• (笔记)一场由SD卡引发的灾难


    一场由SD卡引发的灾难
     
    注:此文章转自“https://user.qzone.qq.com/63915185/blog/1512562541”。
     
    Flash里面的数据在使用过程中莫名改变或不翼而飞?程序丢失可能无法正常运行,从而造成整个系统崩溃。Flash,说好的数据去哪了?

    今天,笔者要为大家分享一个由SD引发的灾难,以及该灾难被我们项目组攻克的技术案例。

    去年上半年,我们公司承接了某大型广告公司的电梯广告显示屏的项目,该产品使用了飞思卡尔的IMX6系列芯片作为主控CPU,具备媒体人机触摸互动、媒体投放、远程升级、录像监控等功能。其中很重要的一项功能就是监控和保存功能,因客户的报价较低,我们理所当然的选择了SD卡作为录像数据的保存介质。

    没想到,灾难半年后就降临了,半年前发货的10K机器,每个月都有10%的损坏率,损坏的机器90%都是SD卡损坏了!关键的监控视频信息全部丢失,客户不但要求我们赔偿SD卡的损失,延长质保期,而且威胁一个月内不解决将终止合作,客户是老板的唯一大客户,丢失这个客户我们离解散就不远。老板甚至放下狠话:一个月内不解决,你们跳槽,我跳楼。

    项目组首先从客户的使用的电梯的场景入手,场景的特点如下:

    1、电梯内部布满各种通信线、音视频线、电力线,互相之间的干扰非常严重

    2、电梯内的广告机每天晚上12点至早上6点回自动断电,白天自动上电

    3、广告机只要开机就需要一直录像,保存到本地的SD卡中。

    于是我们首先模拟现场的应用场景,第一个场景公司内部无法模拟,于是先模拟第二和第三个场景,事设备上电10分钟,掉电5分钟,只要一上电就开始录像,提高上下电的频率。样本数量使用了50台。

    实验第一天,SD卡损坏0张;

    实验第二天,SD卡损坏1张;

    实验第三天SD卡损坏3张,一直到实验到第6天,SD卡一共损坏8张。

    我们基本找到SD卡损坏的原因:就是设备上下电导致的。于是大家分头行动,从硬件和软件、驱动着手,分析掉电可能引起的原因。

    首先是驱动工程师查阅MMC的规范“JESD84-B45”时有发现,如下图1所示

    图1 :JESD84-B45规范中掉电的要求。

    文中大概的意思就是,主机在掉电关闭设备前,应该通知SD卡控制,由控制判断掉电的紧迫性,从而进入对本身设备的保护模式,并且在这之前,应该保持设备的电源处于工作范围之内。

    继续查阅SD卡2.0规范中,SD卡的标准只保证在读数据过程中,意外断电和移除可以对数据进行保护,对写和擦除过程中的掉电的,完全没有把握保护数据,也就是SD卡内部的本身固件、用户数据都是有可能丢失的。

    图2:SD 2.0标准中对SD卡的保护阐述

    通过查阅相关的规范,我们知道了原因的所在,就是我们的设备在断电的时候,还在录像保存数据,进行不断的写和擦除SD卡的操作。

    经过讨论,我们采用了如下的方案。.其中,方案的核心主要有3个

    第一:掉电检测电路;

    第二:超级电容继续供电电路

    第三:掉电后软件处理机制。

    图3:SD卡掉电保护的处理过程

    下图4是掉电检测电路,可以精准的检测一旦电压跌落至10V(电源为12V供电),马上送掉电信号给CPU。

    图4:掉电检测电路

    下图5是超级电容的充放电电路,增加该电路可以使掉电后继续维持2秒钟的时间,使CPU完成掉电后的保护处理工作。

    图5:超级电容充放电电路

    经过了上述的整改,我们生产了50台设备,进行连续7天24小时,10分钟一个循环的上下电测试,没有一台设备的SD卡损坏,证明了上述方案可行。老板的楼,终于不用跳了。

    经验总结,其实CPU原厂提供的DEMO参考设计,基本都是处在能用的状态,离真正的高可靠应用,还有很大的距离,需要我们工程人员的不断挖掘和积累。才能设计出高可靠性的产品。

    创易栈小编点评:

    上述案例Flash的损坏是供电系统不稳定造成,电源电压的异常可能会导致系统单片机系统工作异常的现象,如输出电压小于单片机系统工作所需的最小电压,输出电压不干净,噪音严重等,这些很容易引起单片机内部电路的逻辑紊乱。

    Flash的读写信号处于不稳定状态,可能产生满足Flash的写操作,从而给系统带来严重的损害。针对以上情况,可以在系统中加入电源监控芯片或使能MCU本身的电源监控电路,在电源异常的情况下禁止对Flash区域操作。

    除了电源失效,会造成Flash损坏的常见原因还有以下几种:

    1、用户代码对Flash的误操作不当引起程序丢失或被错误改写

    例如,在有对Flash写入或擦除操作的代码中,如果用户误调用了写入或擦除函数或者由于程序跑飞而恰好执行了Flash擦除或写入函数,这自然会导致数据丢失或改变。

    针对以上情况,可以在程序中设置多个允许操作的变量,当执行写入或擦除操作时,对这些变量进行判断,只有条件全部满足时,才执行相应的操作。

    在一些不需要进行擦除或写入操作的系统中,对存储区进行写保护或擦除保护设置,能有效的防止数据被意外修改。做到了写入或擦除的可控性,基本可以避免此种情况发生。

    2、系统时钟不稳定

    无论对于内部Flash还是外部Flash,系统时钟的不稳定,都将导致MCU得不到可靠的工作时序信号,从而在读写Flash时产生不可预料的后果。

    3、环境干扰

    环境干扰的可能原因很多,如生产过程中的高温焊接、静电、使用环境的温湿度,强磁场等,都可能影响到Flash或整个系统的稳定。环境干扰的因素很多,在此不展开讨论。

  • 相关阅读:
    rowkey设计原则和方法
    ubuntu安装及使用
    sqoop数据迁移
    Hive 自定义UDF操作步骤
    hive之数据导入导出
    MySQL优化
    MongoDB、Redis、elasticSearch、hbase的对比
    数据库基本操作
    count(*) 和 count(1)和count(列名)区别
    BigDecimal的运算——加减乘除
  • 原文地址:https://www.cnblogs.com/tdyizhen1314/p/8037082.html
Copyright © 2020-2023  润新知