• 发布时间:2024-07-16 23:15:31•浏览次数:120
互动视频。
哈喽大家好,今天来研究一张1080TI。本期视频也是一期互动视频,中间会有两个选项,选对了这张卡就修好了,选错了就提桶跑路。
这是一张1080TI卡主描述,开机黑屏,上电看一下什么情况。现在开机看一下,通过检测卡可以判断现在B2卡住了,B2卡住一般都是供电齐全,是核心或者是显存有问题。跑一下显存测试程序看一下,花了一点时间,显存测试有结果了,放大看一下什么情况。
可以看到显存全报错,而且这个报错信息最左边这一侧报错,说明核心挂了。中间如果报错说明显存问题,右边报错说明核心、显存都有可能有故障,它是直接左边核心报错了。这怎么办?现在这张卡显存测试核心位置报错,接下来该怎么搞?这又是一个硬骨头,现在有几种方案。
·第一种就是三把斧,直接干核心,遇事不决干核心。
·第二种就是拆开查一下供电,花了点时间将核心加焊了一下。这个左下角怎么这么奇怪?这是鼓包了,兄弟们抓紧提桶跑路,我先溜了。这位卡主已经提着刀赶过来了,大家跑路之前先三连一下,给我凑个路费。
·现在来查一下各项供电,像那种能卡到B2应该供电问题不大,5伏也有12伏,核心供电有没有?核心供电0.8。看一下显存供电,显存供电为0吗?有的时候显存供电没有也是会造成那种能卡B2能认到卡,但是显存测试会全报错,确实显存供电为0。
·查一下显存供电的电路,这个很小的芯片在显存供电旁边,它就是显存供电的主控芯片了。来查一下它的开启信号有没有,很大可能就是开启信号没有导致的。看下,确实开启信号直接为0。这种情况应该就比较好办了,只需要把控制开启信号的MOS管给拆掉就行了。可以看到现在只有0.2、0.3,正常应该是3.3的。
花了一点时间研究了一下图纸,这张卡的显存供电开启信号并不是通过MOS管来控制的,而是通过核心供电好信号来控制的。刚才已经测过了,核心供电0.8伏,非常标准。它们可能中间的传输出现了问题,它是通过这一颗0欧姆电阻来转成显存供电的开启信号的。
然后查了一下,发现电阻的阻值已经明显变了,来量一下。现在来量一下这两颗电阻,它俩都是0欧电阻,起到导线或者是保险的作用,0.6这一颗是没问题的。看下面这一颗,这一颗25,注意下单位,右上角单位是m,一般的不可能出现这么大的电阻,一般的都是多少k、多少欧的。
25M说明保险可能熔断了,0欧电阻直接熔断了,更换一颗0欧电阻试一下,那颗电阻换了一颗。现在开机看一下显存供电有没有产生?可以看到1.35,非常标准。上电看一下是否能点亮?现在大家准备好,开机看一下能否点亮。开机,像这种某个供电不出,B2卡住,成功点亮。
各位维修佬厉害,各项测试都非常稳定。如果选对了就点个赞,通过点赞和播放率的对比就能看出来有多少人选对了。这是上期视频的数据,完播率竟然高达80%,说明大部分人都是看完了的,但是点赞率大概只有5%、6%,很有可能很多人都选错了。
这张卡感觉维修难度还是比较高的,相对于上张卡,如果选对了就点个赞,如果选错了也没关系,点个关注,一起来增长一下经验。以后我会经常更新这种互动视频,下期见。
网络是数据中心里是最为重要的组成部分,也是技术最为复杂的部分,要对网络运行进行日常维护,故障处理需要掌握不少本领才行。数据中心网络分为存储网和数据网,存储网采用的是光纤通道协议,数据网采用的是以太网协议。与以太网协议相比,光纤通道协议要简单得多,只要完成二层互通即可。以太网协议相对要复杂,各种协议标准琳琅满目,让人丈二和尚摸不到头脑,一个人要将所有协议吃透、吃精通根本不可能。那么,面对数据中心里复杂的网路世界,怎么才能做好维护呢?本文总结出了网络维护的三把斧,用好这三把斧,就有能力成为数据中心网络技术专家。
通常做网络维护工作有两大块,一是日常的检查,发现隐患及时消除;二是故障处理,出现故障能够及时恢复业务,同时还能定位出原因,避免相同的故障再出。日常的检查比较简单,就算应付了事也能过关。不过有句成语叫“千里之提,溃于蚁穴”,很多故障正是因为平时的疏忽,对各种小的隐患不重视,最终患酿成大事故。干网路维护进行故障处理,是比较有含金量的工作,也正是这样,网络故障排查专家非常受人欢迎。想要成为一名资深的网络维护专家,需要在故障分析和诊断上有手段。大多数的网络维护人员都是通过查设备、查线路、抓包、找故障点,累得烦死、掉大把头发还不能解决各种网络故障问题,这是因为没有找到这其中的门道。做网络维护要做网路设备监测、网络设备定位和故障定位报警、网络流量分析三点,这里称为三把斧。用好这三把斧头可以在网络技术世界里披荆斩棘,所向无敌。
第一把斧:网络流量分析
数据中心网络并不关心应用层的内容,只完成数据流量的交互,这样对流量的走向分析尤为重要。要对整个数据中心网络里所有链路流量进行监测,当故障发生时,能够迅速锁定故障范围和位置,这些故障最早在流量图上就可以反映出来,所以流量分析软件,对于数据中心网络维护必不可少。选择一两款使用广泛的流量分析软件部署到数据中心网络中,灵活启动不同层面(接入层、汇聚层、核心层)的网络设备进行流量信息采集,不需要改动现有的网络结构,实现对数据中心网络流量信息统计和分析功能,能够及时了解各种网络应用占用的网络带宽,各种业务消耗的网络资源,可以帮助网络维护人员及时发现网络瓶颈,防范网络病毒的攻击,并提供丰富的网络流量分析报表。学会从网络流量图中发现问题并解决问题,是网络维护的基本技能,必须要掌握。
第二把斧:网络监测分析
数据中心网络只要确保流量送达目的设备,就完成了自己的使命,这个运送过程是否有问题,需要通过监测手段来确定。一般我们判断一个网络是否有问题,往往需要借用一些探测工具,比如:PING、TRACERT、SNMP、SYSLOG等工具。通过PING和TRACERT可以快速确认故障位置和设备,以便对故障设备进行深入分析。通过SNMP和SYSLOG可以获取到故障设备运行的基本信息,很多时候通过设备报出的SYSLOG信息就可以确认设备故障的原因。很多数据中心将这些工具都固化到网络监测软件中,这样可以有效地预防或发现故障,警报将通过声音、短信、微信等方式显示报警框、发送Mail等方式及时发送相关人员,或自动运行相应的程序进行故障处理,提供全方位的告警监测、统计分析和报警定位。
第三把斧:网络故障分析
当用了前两把斧,故障分析依然没有头绪,就需要用上这第三把斧,对故障进行深入分析。这时还是要借助于从以上两点获得的网络基本情况,对故障表现有了基本了解。网络故障表现反映到PING业务上无非三个现象:不通、丢包、延迟大。三个现象衍生出来各种各样的网络问题,根据三个故障现象接着分析。首先,不通那一定是转发表项或者数据通路上出了问题,要沿路检查二三层转发表项、端口、VLAN、链路这些设备信息,看是否有设置错误的地方,再有就是不通也可能是连接设备直连的链路出现了断路,这个不仅指设备外部之间连接的链路、模块,也包括设备内部的连接,有的框式设备内部流量要经过很多块板卡,内部互连出了问题也会影响到转发,有的盒式设备,流量进入设备后,还没有处理就在端口的连接器上将报文丢弃掉了,这些都会造成不通;其次,丢包一定是转发表项不稳定或者数据通路上不稳定造成的问题,还是要将转发表项和数据通路都检查一遍,但是更加关注的是转发表项的稳定性,是否有变化,数据通路上更加关注是否有错包、MAC地址迁移、STP切换等故障表现;第三,延迟大那一定是数据通路上出现了拥塞,数据流量超过了网络通路上能提供的最大带宽,这时要沿路查转发通道,看是否有拥塞丢包,端口流量是否有超线速、限速情况,这些故障会导致业务层面延迟大,延迟大对应用业务伤害蛮大的,访问体验感超级差,尤其是视频业务,会导致画面不流畅,观赏性变差。
做数据中心网络维护要用好这三把斧。这三把斧头说起来简单,可用起来就有很多门道,不同的人对此都有不同的理解,表现出来的就是每个人的网络技术水平。真正对这三把斧都理解透彻,往往需要大量时间经验积累。将每一把斧头展开谈的话,都会涉及到很多的网络技术,这需要在网络维护工作中不断地消化理解,慢慢地认识到,掌握了这三把斧,就可成为数据中心网络维护的专家。
在蚂蚁技术体系中,活跃着一支特别的队伍,他们专搞“破坏”,被称之为“技术蓝军”,蓝军的任务就是不断地攻击系统,而防守方则被称为“技术红军”。
给红军团队不停的制造“麻烦”已成为技术蓝军的“常态”,据说这样的技术攻防演练每周都在进行,除了每年5月底的“期中考试”周,12月第三个星期为年度技术“期末考试”周,“技术蓝军”随时也会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点来牵引红军进行能力升级。
蚂蚁集团技术风险部负责人陈亮
这是9月25日“Inclusion·外滩大会”技术风险分论坛上,蚂蚁集团技术风险部负责人陈亮分享的真实故事。在他看来,“技术驱动+攻防演练,始终是促进蚂蚁技术风险能力自主持续增长的最重要方式。”
确实如此,对于蚂蚁这种每秒能够处理百亿、千亿级资金的平台来说,技术风险的管控是生死攸关的大事,更何况是金融级的,且是基于互联网开展的,这对技术风险提出了兼具稳定和快速的更高要求,它的难度远超其他单纯的互联网或者金融机构。
也正是为了应对这种独特的挑战,蚂蚁在国内率先组建了第一支SRE团队,这支团队不仅锤炼出了技术风险防控平台TRaaS(Technological Risk-defense as a Service)这样的解决方案,更探索出了与众不同的基于技术风险管理的一整套体系和文化,真正为蚂蚁集团支撑起了一条无形的、牢不可破的技术防线。
宝剑锋从磨砺出背后
对于蚂蚁集团资深技术专家李铮来说,SRE团队组建前后的经历直到今天仍然让他“记忆犹新”。
他说:“技术风险之于蚂蚁而言非常重要,互联网业务要求快速,而金融业务又十分强调稳定,但我们则要求又快又稳,这种挑战如果还是沿用过去常规的、传统的方式来应对,肯定是没有办法实现的,这就必须把技术沉淀到风险管理中,去保障蚂蚁业务和应用的稳妥创新。”
毫无疑问,系统的业务连续性保障和资损风险监控,始终是每一位蚂蚁技术人员的工作中的“重中之重”,如同每一笔交易支付中要始终确保安全一样,技术风险的管控也要确保系统和应用不能够出现任何的故障和风险,这种保障压力尤其在每年的“双11”和“双12”中就显得更加的突出。
在这样的背景之下,2013年,蚂蚁技术团队开始沉淀故障检测等方面的平台化能力;2014年,技术质量部正式成立,并在次年升级为技术风险部,专注应对技术风险问题,从全域视角落地相应的解决方案;2016年,蚂蚁技术风险部再度升级为SRE团队,该团队主要由研发、运维和测试人员组成,这个概念最早由国外提出,在蚂蚁内部则被进一步诠释为“Site Risk Engineer”。
李铮认为,之所以有如此之高的要求,是因为蚂蚁有金融级业务的属性,每一笔支付背后都对应着上百个系统,背后的技术风险管理难度可想而知。因此,解决技术风险的挑战,本质上还是要回归到技术创新这条道路上来,即需要用软件或者说代码的方式化解这些难题,同时还要把这些技术能力抽象和沉淀出来,以平台化的方式更好地管理风险。
以“变更”为例,它指的是代码上线到实际生产环境的过程,这就要求SRE团队需要围绕变更建立各种技术手段,减少变更导致的故障,并研发变更相应的平台,为此,该团队建立了一系列制度保证系统内的任何变更都符合可监控、可灰度、可回滚的“三板斧”要求,并且构建了一套变更防御的微服务让“三板斧”能力系统化实时检测,变更风险秒级拦截。
其实,类似“变更”这样的操作,只是蚂蚁SRE团队日常技术风险创新工作中的“缩影”,也正是得益于这样对日常技术风险工作的长期的沉淀和积累,蚂蚁打造出了技术风险防控平台TRaaS,该架构被称之为“免疫系统”,具备三大特性,包括高达99.999%的高可用性;万亿级资金秒级实时核对;5分钟发现,5分钟自愈的免疫能力。
这种强大的技术创新能力,正是蚂蚁集团在金融科技领域所独有的“杀手锏”。更为关键的是,这也让蚂蚁的SRE团队不仅仅是一个工种、一个岗位,更是一种能力,它的价值不仅能增强团队的整体风险意识,更成为了蚂蚁技术创新体系中的“新引擎”。
可以看到,今天身处蚂蚁SRE团队,不仅要负责全面业务风险分析、线上风险应急处置、业务变更防线研发、资金安全防线研发等工作,更担负着智能监控应急、纵深变更防御、全局容量调度,以及还需要解决世界级的分布式系统处理难题,识别和解决潜在的技术风险等,这也就催生了文章开头中所提到的红蓝攻防演练机制等等。
对此,李铮表示:“今天蚂蚁构建起来的这种稳妥创新的技术风险管理体系,背后既有技术创新的支撑,也有团队组织的保障,更有将技术风险融入日常研发、融入技术平台的文化,三者缺一不可。”
我们常说,宝剑锋从磨砺出——经历过极限洗礼和考验的蚂蚁SRE团队,可以说真正打造出了自身不断创新、并随技术风险演变而不断进化的基因,这是其能够支撑蚂蚁在金融级的业务场景中实现“稳妥创新”关键价值所在。
为技术转型“保驾护航”
事实上,这种“稳妥创新”机制今天已经贯穿到蚂蚁的技术风险体系之中。以云原生架构转型为例,今天蚂蚁大量的业务也开始大量转向更具可靠性和扩展性、更加易于维护的云原生应用。
但在此过程中,随着云原生应用、容器、微服务以及DevOps开发流程的倍速发展,越来越多的应用基于云原生构建,并与核心系统深度集成,由此也带来了前所未有的挑战。
这些挑战包括:产品需求变更频繁、软件开发速度也越来越快,这个过程中带来风险的可能性和频率也越来越高;基础架构的迁移要求系统进行全面的测试,带来了巨大的测试工作量;原有的技术风险基础设施和中台部分系统不适应云原生架构,需要重新研发等等。
蚂蚁集团资深技术专家李铮
李铮形容说:“技术架构的云原生化,这种转变意味着蚂蚁的技术体系需要做大量的变革,可以比喻成“为高速飞行中的飞机换引擎”,那么作为守门员的技术风险团队,不仅仅只是做一名守护者,同时也要对技术创新的成败负责,这就要求SRE团队发挥更加重要的协同创新作用。”
首先,作为技术风险的“守护者”,SRE团队的工作就是要把好“上线关”。此前,蚂蚁就开始尝试使用安全容器,但在正式上线之前,SRE团队就必须对安全容器进行灰度验证,并且要反复的进行压测。比如系统的性能,加上安全容器之后系统的性能也需要要有稳定、持续的保证,如果性能指标下降超过某个规定的“阈值”,那么SRE团队只能要求技术研发人员把容器安全应用重新回炉“再造”。
“我们在这个过程中,就会投入比较大的精力去做前期的评估和验证,以确保云原生应用中的每个技术组件到底有没有问题,到底跟当前的业务系统运行是不是契合,性能是不是能够得以保证,这些都是十分关键的点,也是非常重要的工作。”李铮表示。
其次,SRE团队也要发挥协同创新的能力,包括进行容器应用的前瞻性判断,也要基于现有的技术风险体系做出决策和分析,最终保证云原生应用的高效落地。
以Service Mesh应用为例,我们知道业务容器内独立进程的好处在于与传统的部署模式兼容,易于快速上线;但独立进程强侵入业务容器,对于镜像化的容器更难于管理,而云原生化,则可以将Service Mesh本身的运维与业务容器解耦开来,实现中间件运维能力的下沉,但要让Service Mesh大规模的落地,就必须做好充分的技术风险管理和保障工作。
李铮认为,“要完成这项工作,除了为Service Mesh落地配备专属的SRE团队,还要基于成本、运维效率、稳定性做全面的评估和保障,构建一套支撑Service Mesh大规模无人值守变更和秒级故障定位和应急处置的稳定性服务,最终让Service Mesh的落地更加高效和可靠。”
最后,SRE团队更要积极主动的释放自身的技术创新红利。从某种程度上来说,蚂蚁在走向云原生架构的转型时,其技术风险能力也在经历着云原生化的“升级”。
如今,蚂蚁基于云原生技术稳定性实践方面也积累了很多的经验。例如,从不可变基础设施到极速恢复能力的构建;通过统一变更的标准接入,强制系统化“三把斧”,构建了无人值守的变更防御体系;此外,通过云原生统一调度+变更防御+数据算法驱动,蚂蚁SRE团队实现了全局大规模容量可靠托管,大幅减少了运维成本等等。
由此可见,蚂蚁SRE团队技术风险能力云原生化的“升级”, 不仅保证了其业务创新的高效可落地,同时也把国内的技术风险能力再次提升到了一个全新的高度。
创新筑基与智赋未来
正所谓高度决定视野,视野决定格局。李铮认为,技术风险在各业务领域中不是横向的,而是“自上而下的贯穿”:从最底层的云原生到最上层的具体业务场景,无处不在,一以贯之。因此,面向未来,蚂蚁的SRE团队的工作也将在两个方向展开:
一方面,就是针对下一代技术风险体系持续做好技术创新,其重点包括三个方面:在智能化方面,SRE团队重点关注如监控点自动生成、阈值调整、容量提前预测等技术,最终让技术风险的管理走向“无人值守的变更”。
在云原生方面,SRE团队也会找到属于自己的生态位,为原本以“外挂式”居多的技术能力内置到架构中提供更多的可能;在精细化方面,SRE团队会力争每一笔业务中可能存在的资金问题、技术问题、稳定性问题都得到快速识别和全面防控,进一步夯实业务“稳妥创新”的基础。
李铮强调,智能化是未来技术风险领域最重要的方向之一,以监控应急和故障定位来说,目前最重要的挑战就在于既要更好的数据分析能力的前提下,还要把运维人员排查故障的经验沉淀到系统和平台中,最终发现问题的根源,实现自动驾驶的基础设施,自动来保障技术风险体系的落地,这些都是SRE团队目前正在“攻克”的关键领域。
此外,SRE团队也正在构建一套“仿真环境”的测试系统,其作用在于把预发布的应用在该环境中模拟“Run”一遍,相比目前采用的灰度测试方法,“仿真环境”能够把线上请求数据同步复制到一个完整的虚拟环境中,由此去考验应用上线和技术架构的健壮性及技术人员的应急能力,从而全面地提升系统的高可靠性和高可用性。
另一方面,站在整个金融行业数字化转型的重要关口,蚂蚁SRE团队也在积极思考如何把沉淀了多年的技术风险能力赋能给更多的金融企业客户,进一步提升技术风险管控水平,应该说这既是SRE团队自身的优势,也是其使命所在。
对此,李铮表示:“目前SRE团队已经沉淀出了一些产品化的解决方案,更多基于技术风险的产品和方案也在不断打磨之中,目前国内其实也有部分金融客户在参考和借鉴了我们的这套体系,未来除了向更多的金融客户共享我们的经验之外,SRE团队也会在时机成熟时,通过技术输出的方式赋能更多的金融客户,让整个行业都能受益于蚂蚁在技术风险领域创新的独特价值。”
总的来说,在技术风险这条创新之路上,蚂蚁SRE团队既是创新的探索者,也是落地的实践者,更是未来的引领者,这种坚持用不断的技术创新来提升技术风险的“免疫力”,在为蚂蚁构筑了坚实的技术风险“护城河”的同时,还可以为更多的产业和行业赋能,最终为业务的落地和用户体验的提升更好的“保驾护航”。
正如蚂蚁技术风险部负责人陈亮所言:“新的技术为我们带来了新的能力,但同时也会带来新的风险。技术风险的宗旨,就是用技术创新构建风险免疫系统,让每笔业务精准可靠,让每次体验丝般顺滑。”
DFx的意义:为x而设计(Designfor X DFX )指出可以为了某一个焦点来当做主题,从而发展出设计改良的方案。同时也可以发展成一套设计的原则。
X表示一种自由选择, 自由发挥,它可以是
•为装配而考虑的设计(DFA, Design For Assembly)
•为质量而考虑的设计((DFQ, Design For Quality)
•为成本而考虑的设计(DFC, Design For Cost)
•为可靠性而考虑的设计(DFR, Design For Reliability)
•为包装而考虑的设计(DFP, Design For Packing)
•……………
从操作层面上来说:DFx技术是并行工程的支持工具之一,是一种面向产品全生命周期的集成化设计技术。这里的并行工程,指的是:在设计阶段尽可能早地考虑产品的可靠性、性能、质量、可制造性、可装配性、可测试性、产品服务和价格等因素,对产品进行优化设计或再设计。例如可维修性设计,不是在维修的时候再考虑可维修性,而是在需求和设计阶段,有针对性地做一些可维修性的设计。
DFx的具体执行,有很多文章和文档,但是其实说得都比较“虚”,偏于理论和思想介绍。那我来“解构”一下,实操的过程中,如何“面向产品全生命周期”。
(1)在每一个环节设置,DFx专题
例如需求分析阶段,应该针对DFx,专门讨论和评审需求。例如在需求跟踪表中,除了功能描述之外,专门增加DFx的分类:启动时间、可测试需求、螺钉种类、散热器拆装方式、远程升级等等需求,都写入需求跟踪的列表。同样,在设计阶段,有专门的DFx的设计文档、和需求满足度评审。
(2)问题前置
例如,如果有项目发现的一些问题,或者一些有效的经验,应该在更早的环节提出;例如:可采购性设计,采购思考前置,我们在做需求和设计的时候应该充分考虑元件是否易于购买、成本、供货周期、样品、器件本身的生命周期、量产时间、停产时间,等等。可维修性设计,也就是维修思考前置,在做需求和设计的阶段,充分考虑维修时的痛点;同样的,可测试性设计、可维护性设计都是这个原理。这也充分体现了“并行工程”这个词的含义。
(3)问题总结回馈
在一些大公司,一般会有DFx的考核指标、成熟的DFx 评审Checklist;大家只需要学习、执行、优化,即可以出色地完成工作;这样的DFx方面的文档一般都是来自于前人的积累、咨询公司导入。而初创团队、中小企业往往不具备这样的条件,DFx的完成度完全取决于人的水平。所以,往往产品的各项指标不是靠体制保证,而是靠人来保证。所以,往往会导致经验流失,技术不具备可复制性,工程变更繁琐。高水平的人的疏忽,也会导致问题。人力不足的时候,问题凸显。
而小公司往往就会延续这种小作坊的方式,持续进行,主要依靠技术骨干的技术能力。小公司也会总结,而往往总结都是针对人,而不是通过总结建立起机制,来避免问题重复。所以,每次的项目总结的结论应该是形成指导下次研发活动的依据。并且应该设立项目节点,在项目节点针对过往的错误进行Checklist检查。小公司既然很难做到不犯错误,那么就应该努力做到“不重复犯错误”。进行持续改进之后,让团队达到新的高度。问题总结回顾流程如图所示。
(4)DFx应该做单维度深度思考
在大公司,由于角色设置众多角色,在各个项目节点,通过多角色参与,进行评审,围堵问题流入后续环节。例如,在需求阶段,各种代表会出席评审会议:生产代表、采购代表、客户代表、技术服务代表等等等等。各个维度的负责人,对自己的维度进行死守,公司通过KPI直接进行管控。而小公司不具备这样多的角色进行设置,那么在执行过程中,就会出现研发人员去考虑这些维度的时候,挖掘的不够深入,思维还没发散即可进行收敛。因为攻防为一个人,所以不会产生剧烈的讨论和冲突,在设计过程中直接给出折衷的操作办法。所以即使是小公司,如果想把DFx做好,也应该在关键阶段,进行关键DFx设计的会议讨论。
其实,我们的设计团队如果人数、人的素质、人的水平确定之后,是否执行DFX,发生的问题总量是不会变化的。但是通过DFX设计思考,DFX设计评审,能够把认知范围内的问题前置。这样避免,问题在后续环节发现,导致更多的返工和更恶劣的影响。
我的一位老师曾经说过:小孩跟大人的区别在于,扫地不扫墙角根,洗脸不洗耳朵根。其实也就是用一种通俗的说法表达成熟的衡量标准:看问题的全面性,以及会后续可能发生的结果的预判和措施。
同样,一位成熟的工程师,与一位初级工程师的典型差异在于DFx方面的能力和素养。
DFR 可靠性设计
可靠性设计涉及的内容比较多,也比较广。我们将安排专门的书籍展开可靠性设计的内容。
可靠性的内容太多,即使只说硬件可靠性内容,也太多内容。
想了解的朋友点击《可靠性合集》,此处不展开,更多内容,我们硬十会单独出一本书。
可靠性合集(2021.5.11更新)思维导图整理如下。
当然还有更多可靠性相关内容,不仅于上图。
系统的可维护性是衡量一个系统的可修复(恢复)性和可改进性的难易程度。所谓可修复性是指在系统发生故障后能够排除(或抑制)故障予以修复,并返回到原来正常运行状态的可能性。而可改进性则是系统具有接受对现有功能的改进,增加新功能的可能性。
因此,可维护性实际上也是对系统性能的一种不可缺少的评价体系,它主要包括两个方面:首先是评价一个系统在实施预防型和纠正型维护功能时的难易程度,其中包括对故障的检测、诊断、修复以及能否将该系统重新进行初始化等功能;其次,则是衡量一个系统能接受改进,甚至为了进一步适应外界(或新的)环境而进行功能修改的难易程度。
事实上,可维护性是可信性属性中一项相当重要的评价标准。可维护性的优劣可能直接影响到系统的可靠性和可信性。
曾经我在华为的一段经历是:华为先是只开发运营商产品,我们所有的工程师都是做运营商产品的,后来华为开始搞三个BG,运营商、企业网、个人消费终端。
由于运营商产品利润高,合同额高,所以人员到现场维护支持,这些费用都可以忽略不计。但是企业通信设备就不一样,客单价低,利润率也低。如果产品的易用性不好,可维护性不好,则会导致很高的后期费用。
曾经被借调到企业网的市场部门,写过一篇文章《企业产品需要像家用电器一样便于使用,才能降低我们维护成本》。
由于企业网一些产品从运营商产品借用过来的,包括一些软件架构、硬件架构都不适用于企业网,同时一些细节也没有做到企业用户可用的程度。
当时,用了两天时间搭建了一个企业的业务环境。过程中可谓历尽艰辛。我们碰到一些产品远程维护的问题,打400、800热线电话或者问到技术支持人员,都不能给予解答,一般是需要问到研发人员。所以客户自行维护路径也就比较复杂,客户如果每个问题都不能通过说明书解决问题的话,都需要研发支持的话,则维护成本太贵了。
一方面硬件的配置还是比较复杂,即使是web的配置界面还是需要客户太多的专业知识,另一方面软件升级还是依赖命令行。软件升级能否像“电视机顶盒”一样简单,点击确定键即可。(当然现在华为的企业网产品发展到什么情况已经不了解了,毕竟离开很多年了)。
由于企业市场一般依赖于渠道商、施工方等,所以客户返还路径也比较复杂。
客户不能自己解决问题,或者代理商不能自己解决问题,那么问题就会走到研发或者直接单板返还。这样的例子屡见不鲜。而企业产品的维护人员也是深陷维护泥潭,不能自拔,也没有时间做什么技能提升,持续改进。
我们给客户的命令说明是怎样的?
个人理解,企业产品需要像家用电器一样便于使用,销售渠道应该可以打通网络销售,如同终端产品一样,在欧洲小规格的企业产品就是在电商进行销售的,类似于京东和淘宝的销售渠道。首先我们现在紧盯的是我们的类运营商市场,这没有错误,但是这块是我们的优势,那么我们的为什么不能走类消费者市场与渠道呢?
如果我们走电商渠道,客户会不会因为不会用我们的设备而把我们的800热线打爆掉?
当时产品的复杂的安装,配置,设置,维护,是不能走“无技服”的渠道的一个原因。我们的产品必须要技术支持,研发支持,才能维护,才能完成安装,也许这是吃掉了我们最大的利润的地方。
维护的三把斧是:“复位”、“下电”、“插拔单板”。可维护设计,本质是利于设计者在远程能够实现:“复位”、“下电”、“插拔单板”,同时支持一些接口的测试,和功能模块的隔离。
为了提高客户满意度,降低维护成本,必须要能快速、准确、方便地定位问题和解决问题。通信的单板由于做了数据帧的产生与测试功能,用服人员开局时可以不用携带仪表。
例如:
不需要特殊线缆(miniUSB)。
不需要特殊转接头DP转VGA。
不需要特殊工具,六角螺丝刀。
不需要特殊仪表,示波器、万用表。
为了方便运维和研发人员不用到现场就可以定位问题,可维护性设计需要考虑以下需求:
(1)故障检测
系统进行线上设备的定时检测,用于发现线上设备可能出现的故障。
(2)有效获取定位信息
能够实现故障分模块检测功能,实现了故障的快速检测和定位。
(3)获取网上应用场景
通过搜集网上在线设备的业务资源等信息,分析用于网络规划、产品内部测试场景分析、业务模型分析。
可维修性设计(Designfor Serviceability; DFS)在于研究产品的维修瓶颈,用以改进设计组合、简化拆卸步骤、权衡零件寿命与维修困难度,确保使用者的满意度及降低产品维修成本。而产品维修之难易度主要取决于能否迅速断定哪一个零组件需要维修,同时是否能容易地拆装该维修零件,产品维修性分析可从六个方面来探讨。
可维修性的评价维度
重要性(Importance):组件故障将导致产品部分机能失效,而其组件之重要性应由该组件对产品机能及顾客需求的影响性来决定。
出现性(Occurrence):组件在生命周期中失效的机率需权衡零件成本与维修成本,提升零件质量可降低失效机率,减少维修成本,但须衡量对零件成本的影响。
易诊断性(Diagnoseability):产品故障维修的第一步骤在诊断是哪一个组件失效,可诊断性乃指不藉助特殊昂贵的检测设备,诊断出问题所在的难易度。
可达性(Accessibility):失效机率较高的组件应安排在产品较外层的位置,并且需提供足够的工具维修空间,否则须拆解影响维修的零件,导致维修时间加长。
易拆卸性(Reassemblibility):零件的接合方式决定更换该零组件所需的时间、工具与技术。当零组件常因产品故障而需维修时,应采用适宜反复拆装的接合方式。
可修复性(Repairability):若组件只需调整或清理,而不需更换整个零件时,其调整或清理的容易度称为可修复性。若该零件必须特殊的修复技术,或不能修复需要整个更换,则其可修复性较差。
对智能硬件产品来说,设计的首要任务是应用的安全,其次就是利润。而利润的产生有两个途径:开源和节流。开源是为了让产品具有更多的附加值,使产品多销售,这样的方法包括了可使用性的设计,通过便捷舒适的操作客户体验、时尚的外观增加客户的购买欲望;而节流的核心则是可维修性,因为维修产生的成本支出蚕食的都是产品的纯利润,这里的花费包括了维修人员的工资补助支出和差旅费用、备品备件的库存、维修工具仪器仪表等。因此,可维修性的设计宜从这几方面入手降低其费用。
可维修性设计的通用准则:
设计时,要对产品功能进行分析权衡,合并相同或相似功能,消除不必要的功能,以简化产品和维修操作。在满足规定功能要求的条件下,构造简单,减少产品层次和组成单元的数量,简化零件的形状。产品的调整机构设计简便,以便于排除因磨损或飘移等原因引起的常见故障。对易发生局部耗损的贵重件,设计成可调整或可拆卸的组合件,以便于局部更换或修复,避免或减少互相牵连的反复调校。合理安排各组成部分的位置,减少连接件、固定件、使其检测、换件等维修操作简单方便,做到在维修任一部分时,不拆卸、不移动或少拆卸、少移动其他部分,以降低对维修人员技能水平的要求和工作量。
原则主要有:
通用化、标准化、模块化设计原则
上述原则可以提高产品的互换性,降低产品成本,简化生产工艺,便于维修过程中的拆、拼、换、装,提高产品的维修速度和维修质量。
设计时,优选标准化的设备、元器件、零部件和工具,且减少其品种、规格。
故障率高、容易损坏、关键性的零部件或单元具有良好的互换性和通用性。
可互换零部件,须完全接口兼容,既可功能互换,又可安装互换。
可互换的零部件,修改设计时,不要任意更改安装的结构要素,破坏互换性;
产品应按其功能设计成若干个具有互换性的模块(或模件),维修时可在现场更换的部件更应模块(件)化。
模块(件)从产品上卸下来以后,应便于单独进行测试、调整。在更换模块(件)后,应不需要进行参数调整;
模块(件)的尺寸与质量应便于拆装、携带或搬运。质量超过 4kg 不便握持的模块(件)应设有人力搬运的把手。
(2)简化设计原则
在满足使用需求的前提下,尽可能简化产品功能。包括取消不必要的功能,合并相同或相似的功能,尽量减少零、部件的品种和数量。
(3)良好的可达性
所谓维修可达性是指产品维修时接近维修部位的难易程度。用通俗的话讲,可达性可以用三句话表达:看得见(视觉可达) ;够得着(人手或借助于工具能接触到维修部位) ;有足够的操作空间。
需要维修的零件部件,都应具有良好的可达性;
对故障率高而又需要经常维修的部位及应急开关,应提供最佳的可达性;
为避免产品维修时交叉作业,可采用专柜或其他适当形式的布局。整套设备的部(附)件应相对集中安装。
产品的易损件、常拆件和附加设备的拆装要简便,拆装时零部件进出的路线最好是直线或平缓的曲线;各分系统的检查点、测试点、检查窗、润滑点、添加口以及燃油、液压、气动等系统的维护点,宜布局在便于接近的位置上。
需要维修和拆装的产品,其周围要有足够的操作空间。
维修时要求能看见内部的操作,其通道除了能容纳维修人员的手或臂外,还留有供观察的适当间隙。
(4)易损件的易换性设计原则
尽管在设计中采用了高可靠性的零部件,但受寿命和恶劣环境的影响,产品中一般仍然会有一部分零部件属于易损件,需要更换。
(5)贵重件的可修复性设计原则
产品的关键零部件、贵重零部件应具有可修复性,失效后可调整、修复至正常状态,这样能降低产品的维修费用,减少维修时间,提高维修效率。
(6)测试性设计原则
产品的测试性是指产品能够及时而准确地确定其工作状态,并隔离其内部故障的一种设计特性。
测试点的种类与数量应适应各维修级别的需要。
测试点的布局要便于检测,并尽可能集中或分区集中,且可达性良好,其排列应有利于进行顺序的检测与诊断。
测试点的选配优选适应原位检测的需要。产品内部及需修复的可更换单元还应配备适当数量供修理使用的测试点。
测试点和测试基准不应设置在易损坏的部位。
选择检测方式与设备的原则:
优选原位(在线,实时与非实时的)检测方式,重要部位采用性能监测(视)和故障报警装置,对危险的征兆应能自动显示、自动报警。
复杂系统,采用机内测试(BIT)、外部自动测试设备、测试软件、人工测试等形成高的综合诊断能力,保证能迅速、准确地判明故障部位;注意被测单元与测试设备的接口匹配。
(7)防插错措施及识别标志
从结构上消除发生差错的可能性,装错了就装不上;增加明显的识别标记。
设计时,应避免或消除在使用操作和维修时造成人为差错的可能,即使发生差错也应不危及人机安全,并能立即发觉和纠正。
外形相近而功能不同的零部件、重要连接部件和安装时容易发生差错的零部件,应从构造上采取防差错措施或有明显的防止差错识别标志。
产品上应有必要的为防止差错和提高维修效率的标志。
应在产品上规定位置设置标牌或刻制标志。标牌上应有型号、制造工厂、批号、编号、出厂时间等。
测试点和与其他有关设备的连接点均应标明名称或用途以及必要的数据等,也可标明编号或代号。
对可能发生操作差错的装置应有操作顺序号码和方向的标志。
间隙较小、周围产品较多且安装定位困难的组合件、零部件等应有定位销、槽或安装位置的标志。
标志应根据产品的特点、使用维修的需要,按照有关标准的规定采用规范化的文字、数字、颜色或光、图案或符号等表示。标志的大小和位置要适当,鲜明醒目,容易看到辨认。
标牌和标志在装备使用、存放和运输条件下须经久耐用。
(8)维修性的人机环工程要求
设计时,按照使用和维修时人员所处的位置、姿势与使用工具的状况,并根据人体量度,提供适当的操作空间,使维修人员有个比较合理的姿势,尽量避免以跪、卧、蹲、趴等容易疲劳或致伤的姿势进行操作。
噪声不允许超过相关标准的规定;如难避免,对维修人员应有防护措施;
对产品的维修部位应提供自然或人工的适度照明条件。
应采取减震或隔离措施,减少维修人员在超过振动标准规定的条件下进行检修维修。
设计时,应考虑维修人员在举起、推拉、提起及转动物体等操作中人的体力限度。
设计时,应考虑使维修人员的工作负荷和难度适当,以保证维修人员持续工作能力、维修质量和效率。
(9)易拆卸性设计原则
① 最少拆卸时间。一般产品是由多种不同材料制成。材料回收价值低、拆卸费时是造成资源浪费和环境污染的主要原因。减少使用材料种类和改进产品设计结构,可使产品得到更好的回收。例如,可拆卸的机夹式硬质合金车刀比焊接式的材料回收性要好。
② 可拆卸。产品最好采用简易的紧固方法,尽量减少固定件数量。同时对零件之间的连接,使用同一类型固定件,避免拆卸时零部件的多方向复杂运动,避免金属材料嵌入塑料零件。
③ 易操作。产品留有可抓取表面,避免非刚性零件,在产品单元结构内密封有害物质(如废液等) ,防止污染环境,构成危害职业健康的根源。
④ 易拆散。产品设计时,避免二次光洁产品表面(如油漆、涂层等),同时避免零件材料拆卸时本身的损坏和损坏产品的其他结构。
⑤ 减少变异。产品在设计过程中,减少紧固类型,同时尽量使用标准零部件。尤其在新产品设计时,零部件在设计结构与功能上应具有良好的设计继承性和通用性。
(10)预防性维修设计
装备应设计成不需要或很少需要进行预防性维修,即使维修也要避免经常拆卸和维修。
避免采用不工作状态无维修设计的产品;不能实现无维修设计的产品,应减少维修的内容与频率,并便于检测和换件。
(11)维修安全要求
①一般原则
设计时,应使系统在故障状态或分解状态进行维修是安全的。
在可能发生危险的部位上,应提供醒目的标记、警告灯或声响警告等辅助预防手段。
严重危及安全的组成部分应有自动防护措施,不要将被损坏后容易发生严重后果的组成部分设置在易被损坏的位置。
凡与安装、操作、维修安全有关的地方,都应在技术文件、资料中提出注意事项。
②防机械伤害
维修时肢体必须经过的通道、孔洞,不得有尖锐边角;边缘都须制成圆角或覆盖橡胶、纤维等防护物。
维修时需要移动的重物,应设有适用的提把或类似的装置;需要挪动但并不完全卸下的产品,挪动后应处于安全稳定的位置。通道口的铰链应根据口盖大小、形状及装备特点确定,通常应安装在下方或设置支撑杆将其固定在开启位置,而不需用手托住。
③防静电、防电击、防辐射
设计时,应当减少使用、维修中的静电放电及其危害,确保人员和装备的安全。
对可能因静电或电磁辐射而危及人身安全、引起失火或起爆的装置,应有静电消散或防电磁辐射措施。
对可能因静电而危及电路板的,应有静电消散措施。
装备各部分的布局应能防止维修人员接近高压电;带有危险电压的电气系统的机壳、暴露部分均应接地;维修工作灯电压不得超过36V。
高压电路(包括阴极射线管能接触到的表面)与电容器,断电后 2s 以内电压不能自动降到36V 以下的,均应提供放电装置。
为防止超载过热而损坏器材或危及人员安全,电源总电路和支电路一般应设置保险装置。
复杂的电气系统,应在便于操作的位置上设置紧急情况下断电、放电的装置。
④防火
可能发生火险的器件,应该用防火材料封装。尽量避免采用在工作时或在不利条件下可燃或产生可燃物的材料;必须采用时应与热源、火源隔离;产品上容易起火的部位,应安装有效的报警器和灭火设备。
关于其他DFX
所谓DFX是Design for X(面向产品生命周期各/某环节的设计)的缩写。其中,X可以代表产品生命周期或其中某一环节,如装配(M-制造,T-测试)、加工、使用、维修、回收、报废等,也可以代表产品竞争力或决定产品竞争力的因素,如质量、成本(C)、时间等等。
DFA Design for Assembly 可装配性设计 针对零件配合关系进行分析设计,提高装配效率。
DFA Design for Availability 可用性设计 保证设备运行时,业务或功能不可用的时间尽可能短。
DFC Design for Compatibility 兼容性设计 保证产品符合标准、与其他设备互连互通,以及自身版本升级后的兼容性。
DFC Design for Compliance 顺从性设计 产品要符合相关标准/法规/约定,保障市场准入。
DFC Design for Cost 为成本而设计
DFD Design for Diagnosability 可诊断性设计 提高产品出错时能准确、有效定位故障的能力。
DFD Design for Disassembly 可拆卸性设计 产品易于拆卸,方便回收。
DFD Design for Discard 可丢弃性设计 用于维修策略设计,部件故障时不维修,直接替换。
DFE Design for Environment 环境设计 减少产品生命周期内对环境的不良影响。
DFE Design for Extensibility 可扩展性设计 产品容易新增功能特性或修改现有的功能。
DFEE Design for Energy Efficiency 能效设计 降低产品功耗,提高产品的能效。
DFF Design for Flexibility 灵活性设计 设计时考虑架构接口等方面的灵活性,以适应系统变化
DFF Design for Fabrication of the PCB 为PCB可制造而设计
DFH Design for Humanity/ Ergonomics 人性化设计 强调产品设计应满足人的精神与情感需求。
DFI Design for Installability 可部署性设计 提高工程安装、调测、验收的效率。
DFI Design for International 国际化设计 使产品满足国际化的要求。
DFI Design for interoperability 互操作性设计 保证产品与相关设备的互连互通。
DFL Design for Logistics 物流设计 降低产品包装、运输、清关等物流成本,提升物流效率。
DFM Design for Migrationability 可迁移性设计 通过设计保证系统的移植性与升级性。
DFM Design for Maintainability 可维护性设计 确保高的维护能力、效率。
DFM Design for Manufacturability 可制造性设计 为确保制造阶段能够实现高直通率而开展的设计活动。
DFP Design for Portability 可移植性设计 保证系统更容易从一种平台移植到另一种平台。
DFP Design for Performance 性能设计 设计时考虑时延、吞吐率、资源利用率,提高系统的性能。
DFP Design for Procurement 可采购性设计 在满足产品功能与性能前提下物料的采购便捷且低成本。
DFP Design for Postponement 延迟性设计 设计支撑将客户差异化需求延迟到供应的后端环节来满足。
DFR Design for Recycling 可回收设计 保证产品易于回收处理。
DFR Design for Reliability 可靠性设计 在产品运行期间确保全面满足用户的运行要求,包括减少故障发生,降低故障发生的影响,故障发生后能尽快恢复。
DFR Design for Repair 可维修性设计 在设计中考虑为产品维修提供相关便利性。
DFR Design for Reusability 可重用性设计 产品设计/模块能够被后续版本或其他产品使用,提升开发效率。
DFS Design for Safety 人身安全设计 在产品设计中考虑产品使用中保护人身的安全。
DFS Design for Scalability 可伸缩性设计 有效满足系统容量变化的要求。
DFS Design for Security 安全性设计 最大限度地减少资产和资源的脆弱性,包括机密性,完整性, 可用性、访问控制、认证、防抵赖和隐私保护等方面。
DFS Design for Serviceability 可服务性设计 提高系统安装调测与维护管理能力,提高服务效率。
DFS Design for Simplicity 简洁化设计 减少产品零部件与复杂度,降低物料、供应、维护成本。
DFSC Design for Supply Chain 可供应性设计 提升供应效率,提高库存周转率,减少交付时间。
DFT Design for Testability 可测试性设计 提高产品能观能控、故障检测与定位隔离的能力。
DFU Design for Upgradeability 易升级性设计 产品运行中的升级容易操作。
DFU Design for Usability 易用性设计 用户使用的方便性、有效性、效率。
DFV Design for Variety 可变性设计 管理产品多样化需求,平衡客户多样性需求和规模供应效益。
今天我们来解释一下:
首先,自上世纪80年代以来, 市场竞争越来越激烈, 促使制造、研发等企业不断寻求产品开发的新思路、新方法并应用于有竞争力的产品的开发。例如,降成本设计的需求,这就是来自于竞争力的增加;可生产性,解决产能问题,在一些大单来临的时候,是非常重要的竞争力。
一个典型的例子是美国企业在承受着日本70年代以后在汽车、半导体等行业逐步确立的世界市场优势地位的压力下, 积极调整产业结构, 学习和采用新的产品开发思想、策略、方法, 如并行工程、虚拟制造、敏捷制造、精良生产等等, 为美国经济在90年代的振兴产生了重要的促进作用。
第二,全球化带来了机遇、也带来了挑战。
供应链全球化:可供应性设计的需求,是由于我们的供应链越来越复杂,一些设备的所有芯片、结构件、内存条、硬盘、包装盒来自于世界各地,供货周期、供货的风险也原来越复杂。这些原因会导致我们制造和销售一个产品的必要条件变得要求比较高。
销售全球化:由于各个国家的语言、安规要求、EMC要求、环保要求的不同,对产品的各个维度的思考,就需要进行充分的验证,以满足多国销售。
例如:我们之前在做企业通信产品的时候,一个支持多国语言的需求在产品早期并不为人所重视,心想我们支持中文和英文已经可以涵盖全球绝大多数国家了。这种想当然的做法,在项目签下沙特石油这样的巨型订单的时候,就尝到了苦果。需要在系统里面增加阿拉伯语的提示音等需求,可能会导致软件极大的挑战,甚至导致硬件的改版增加存储容量。
第三,DFx是面向生命周期的,随着产品复杂度正价,需求的极大丰富,生命周期中涵盖的内容也变得复杂而丰富。
产品生命周期:正如生物的诞生、成长直至消亡构成其生命周期一样,人类有意识地创造出来的人工物,包括各种产品也被赋予了生命,亦即也有诞生、成长、消亡的过程,分别对应其开发过程、使用过程和报废回收处理过程。这些过程构成了产品的生命周期。
上面这张简略图已经可以看出,产品在研发之后,需要做的工作还是非常多的。我们如果采用串行工程的方法,在设计过程中并不需要考虑产品整个的生命周期:长期以来产品开发工作一直采用传统的串行工程方法,先进行市场需求分析,将分析结果交给设计部门,设计人员进行产品设计,然后将图纸交给工艺部门进行工艺设计和制造准备,采购部门根据要求进行采购,一切齐备后进行生产加工和测试,结果不满意时再修改设计与工艺,如此循环直到满意。
串行方法设计在设计中各个部门独立工作,设计中不能及早考虑制造及质保等问题,造成设计与制造脱节,导致产品开发成为设计改动量大、开发周期长、成本高的大循环。
“并行”是相对传统产品开发的“串行”而言,其实还是有时间先后的。由于这种方法能够较好地兼顾产品生命周期中的各阶段的需求,并将它们在设计中加以考虑,因此也称为“生命周期工程”。随着产品的功能复杂、供应链的复杂、销售情况的复杂,产品生命周期的内容也变得复杂,同时并行设计需要考虑的维度和内容变得极大增长。
本文内容已经整理收录在,硬十第二本书《硬件十万个为什么(研发流程)》
相关的内容在书中有更多的内容阐述。
目前书籍在三审,预计出版时间大约在2022年3月份左右,敬请期待。
维修师傅服务态度很好,快速的解决了问题,维修速度很快很专业
不知道是因为什么原因,师傅上门来给我检查了,告诉我了是什么原因,什么问题,然后我就让他修了,修理的很好,价格收费什么的也很合理
师傅服务态度很好,按约定好的时间很准时到了,维修很专业,一会儿功夫就给修好了,现在终于可以正常运作了
师父上门维修特别快,很仔细很认真,工作态度端正,而且其他问题也能帮忙处理没有收其他费用很满意
预约了师傅马上来上门来了,费用还是可以接受的,师傅态度做事不错
有专业的技术的人员,都拥有专业的培训,服务质量好,态度满意,价格合理
收费合理,师傅上门准时。态度挺好
找了师傅上门,检查后说是线路故障了,换了一下,半个小时就修好了,很专业
下单后师傅很快就联系我了,跟师傅电话聊好价格就上门了,换了显示面板、目前没有再继续乱响。
已修好,师傅服务周到,态度很好