歡迎進入糖心VLOG在线观看儀器設備有限公司網站!
糖心VLOG在线观看儀器 - 產品展示
yipin instrument-Products
4糖心LOGO免费观看中心
您的位置:首頁  ->  糖心LOGO免费观看中心

可靠性” 與 “可用性,可靠性實驗的必要性


​可靠性” 與 “可用性,可靠性實驗的必要性

相信點開這篇文章的讀者,一定或多或少接觸過“高可靠”“高可用”這些字眼,但是往往或語焉不詳,或羅列術語(MTBF、MTTR ...),那麽糖心VLOG在线观看到底應該如何定量描述係統的可靠性和可用性指標呢,這些看著很上流的術語到底意味著什麽呢?也許,看完這篇文章,您從此也可以和小夥伴們愉快地拽術語了!

1) 軟件過程(代碼評審、單元測試等)
2) 軟件複雜度
3) 軟件規模
4) 開發團隊經驗
5) 可複用代碼比例(久經考驗的代碼)
6)  產品交付前的測試
比如正在運行中的100隻硬盤,1年之內出了2次故障,則故障率為0.02次/年。
上文提到的關於MTBF和Failure Rate關係值得細細體會,在現實生活中,硬件廠商也的確更熱衷於在產品上標注MTBF(個人猜測是因為MTBF往往高達十萬小時甚至百萬小時,容易吸引眼球)。Failure Rate伴隨著產品生命周期會產生變化,因此,隻有在前述“浴盆曲線”的平坦底部(通俗點說就是產品的“青壯年時期”)才存在如下關係:
MTBF = 1/λ
一般來說,服務器的主要部件MTBF,廠商標稱值都在百萬小時以上。比如:主板、CPU、硬盤為100wh,內存為400wh(4根內存約為100wh),從而可以推算出服務器整體MTBF約25wh(約30年),年故障約3%,也就是說,100台服務器每年總要壞那麽幾台。
上麵的理論計算看著貌似也沒啥問題,感覺還挺靠譜。但如果換個角度想想,總覺得哪裏不太對勁:MTBF約30年,難道說可以期望它服役30年?先看看希捷的工程師如何解釋
比如應用升級或者程序CORE掉,往往借助所謂“秒起”來完成服務恢複,有些更極端的甚至攔截”段錯誤”一類信號。其實,無論如何秒起,總歸會有部分用戶受影響,另外,如果是由於程序錯誤導致的意外重啟,誰能保證共享內存的數據仍然處於正確狀態呢?
此外,如果出現機房搬遷、空調故障、供電故障等意外,所謂的共享內存+秒起也隻能幹瞪眼。
因此,正如上文所說的,通過容災備份+路由切換實現優雅無縫重啟才是好的設計。一般來說,“可重啟”進程具備如下特征:
  • 無論exit還是kill,都可以正確重啟
  • 不使用生命期大於進程的IPC(共享內存、跨進程的mutex等)
  • 不使用難以重建的IPC(父子進程共享FD通信等)
那麽又該如何優雅重啟呢?一般分為兩種場景:
  • 有計劃的重啟(如版本升級)
首先將節點從服務列表中摘除,等待節點流量跌零,發起重啟過程(更新文件等),確認服務啟動正常後,重新將節點添加至服務列表,逐步引流進行正確性驗證(若發現異常,及時摘除)。服務節點依次分批處理,真正實現無縫重啟
  • 意外故障發生
服務訪問方支持Failover,自動切換備用節點,或者通過Name Service一類設施自動摘除故障節點,人工介入恢複。
當然,前麵一些看法並非“放之四海而皆準”,在實際設計係統的時候,還是應該因地製宜,選擇最適合當時環境的方案。

[返回]   
Copyright © 2017 東莞市糖心VLOG在线观看儀器設備有限公司 版權所有 本站素材及相關資源均來源互聯網,如有侵權請速告知,糖心VLOG在线观看將會在24小時內刪除*【Gmap】 訪問量:後台管理 粵ICP備90596718號
服務熱線
0769-84393814
產品符合ISO、ASTM、DIN、EN、GB、BS、JIS、ANSI、UL、等國際測試標準
專注試驗設備多年
關閉
點擊這裏給我發消息
在線谘詢
點擊這裏給我發消息
技術谘詢
網站地圖