• <dd id="hdgin"><track id="hdgin"></track></dd>
  • <em id="hdgin"><tr id="hdgin"></tr></em>
  • <th id="hdgin"><track id="hdgin"><noframes id="hdgin"></noframes></track></th>
        <rp id="hdgin"><ruby id="hdgin"></ruby></rp>

        <legend id="hdgin"><noscript id="hdgin"><video id="hdgin"></video></noscript></legend>
          <dd id="hdgin"><track id="hdgin"></track></dd>
            首頁 運維干貨硬盤什么時候壞?基于AI的科學算命告訴您

            硬盤什么時候壞?基于AI的科學算命告訴您

            運維派隸屬馬哥教育旗下專業運維社區,是國內成立最早的IT運維技術社區,歡迎關注公眾號:yunweipai
            領取學習更多免費Linux云計算、Python、Docker、K8s教程關注公眾號:馬哥linux運維

            硬盤

            硬盤什么時候壞?基于AI的科學算命告訴您插圖1

            作者簡介

            董唯元
            資深存儲技術專家,國際存儲工業協會個人會員。作為連續創業者,擅長把握最新技術動態并快速實踐應用。多次帶領產品技術團隊把握趨勢先機,領跑于國內其他廠商,率先推出NAS產品(2002年)、存儲虛擬化產品(2007年)、CDP產品(2011年)、超融合產品(2014年)等。

            分享的主題是使用人工智能的機器學習的引擎來實現智能化精準預測磁盤故障。下面將按照三個方面進行講解:

            1. 被動式故障應對的局限和隱患
            2. 故障預測的原理、方法和工具
            3. 主動式故障應對的價值和意義

            一. 被動式故障應對的局限和隱患

             

            磁盤故障

            數據中心的意外故障,有超過60%都是直接或間接由磁盤故障造成。

            磁盤故障時,用戶最關心兩個問題:

            • 一是應用性能影響
            • 二是數據可靠性影響

            然而系統資源有限的時候,二者不可兼得。希望盡快修復數據,就必然占用很多資源,影響前端應用性能;而如果盡量保證前端應用性能,就會延長數據修復時間,增大數據丟失風險。

            這個棘手的問題在磁盤陣列年代就一直存在,到了軟件定義存儲時代仍然沒有得到解決,甚至沒有得到合理的正視。

            目前存儲產品廠商只能提供一個Rebuiding Priority選項,讓用戶自己在性能和可靠性之間做出權衡選擇。這實質上并不是解決問題,只是在推卸責任而已。

             

            數據

            除了上述性能可靠性互斥難題,數據可靠性本身也有不為人知的隱患。

            隨著存儲系統規模增大,RAID乃至多副本技術,對數據可靠性的保護會變得很脆弱。

            圖中的公式是個系統可靠性的簡單計算模型。

            以磁盤廠商提供的平均無故障時間可以計算出單盤健康概率,以此為基礎,可以知道2副本可以保護的系統中,磁盤總數不能超過96顆磁盤,如果超過這個上限,系統總體可靠性就會低于99.999%這個企業級可靠性基線。3副本的情況會好一些,但是上限也不過才512顆磁盤。

            在今天動輒上PB級的系統中,幾十、幾百顆磁盤的上限,顯然是嚴重的瓶頸。

            綜上,要解決性能與可靠性互斥問題,以及大型系統的數據可靠性問題,傳統的冗余保護思路已經越來越艱難,需要開辟另外的思路。

            我們公司的思路方向是:利用智能技術,提前預判故障的發生,從而把隨機出現的意外事件,變成可計劃的事件。這樣就變被動為主動,所有修復工作可以事前從容安排,對冗余度的要求也沒有那么高。

            二. 故障預測的原理、方法和工具

            SMART

            我們的磁盤故障預測原理是基于磁盤SMART信息和系統性能負載分析。單純的SMART信息只能回答“磁盤是否該更換”這個問題,必須復合實際應用負載情況,才能回答“磁盤還可以活多久”的問題。

            磁盤故障

            再深入的原理,其實就是標準的機器學習機制,搭建神經網絡,并用大量數據去訓練這個神經網絡。

            我們的分析預測引擎訓練過程用到了超過10萬顆磁盤在累計4年時間里的狀態信息,總共樣本數超過6千萬。經過這些樣本的訓練。我們已經可以達到比較理想的預測準確率。具體可以看下圖的實際檢驗結果。

            公有云

            我們的DiskProphet產品在Cisco的公有云中測試運行3個月,每天提供故障預測報告,累計90份報告。報告內容是系統中磁盤的預期壽命,精確到天。在±1天的誤差內,最終檢驗下來,預測平均準確率96.1%,最低也在95%以上,完全可以指導運維人員準備應對手段,甚至可以基于此實現無人值守的故障修復。

            三. 主動式故障應對的價值和意義

            • 串行化修復 VS. 并行化預防:
              • 感知能力提升
              • 技術手段開放
              • 簡化操作流程
              • 解耦依賴關系
            • 被動式故障修復 vs. 主動式故障預防:

            硬盤什么時候壞?基于AI的科學算命告訴您插圖7

            我們對故障的懼怕,其實是對不可測不可知的恐懼,就像徒手走進黑暗的山洞,無奈之下只能拼命用冗余度保護自己,防范任何可能出現的危險。但是實際上,我們真正需要的是照亮黑暗的火炬,故障預測能力正是幫你洞見未來的火炬。

            故障并不可怕,只要不再是意外故障。

            原文來自微信公眾號:高效運維

            本文鏈接:http://m.abandonstatusquo.com/23219.html

            網友評論comments

            發表評論

            您的電子郵箱地址不會被公開。

            暫無評論

            Copyright ? 2012-2022 YUNWEIPAI.COM - 運維派 京ICP備16064699號-6
            掃二維碼
            掃二維碼
            返回頂部
            久久久久亚洲国内精品|亚洲一区二区在线观看综合无码|欧洲一区无码精品色|97伊人久久超碰|一级a爱片国产亚洲精品