- 相關(guān)推薦
網(wǎng)絡(luò)故障管理何去何從
網(wǎng)絡(luò)性能取決于連接用戶(hù)到應(yīng)用的網(wǎng)絡(luò)的類(lèi)型和容量。本地用戶(hù)可能通過(guò)以太網(wǎng)或無(wú)線(xiàn)網(wǎng)絡(luò)連接,遠(yuǎn)程用戶(hù)則通過(guò)各種WAN技術(shù)連接,包括公共互聯(lián)網(wǎng)或蜂窩網(wǎng)絡(luò)等。每種連接都需要專(zhuān)門(mén)的方法來(lái)維持所需的性能。任何這些位置(應(yīng)用或網(wǎng)絡(luò))的故障都可能降低客戶(hù)滿(mǎn)意度。
云故障檢測(cè)
很多拓?fù)浣Y(jié)構(gòu)和設(shè)計(jì)(其中包括虛擬化服務(wù)器、多個(gè)虛擬局域網(wǎng)和覆蓋網(wǎng)絡(luò))讓云故障檢測(cè)和網(wǎng)絡(luò)故障管理變得更加復(fù)雜。一個(gè)租戶(hù)的應(yīng)用出現(xiàn)性能問(wèn)題可能與影響另一個(gè)租戶(hù)的問(wèn)題并沒(méi)有什么關(guān)聯(lián),但它們可能來(lái)自同一來(lái)源。每個(gè)租戶(hù)的應(yīng)用可能在相同超載或配置錯(cuò)誤的服務(wù)器上執(zhí)行,或者兩個(gè)租戶(hù)的覆蓋網(wǎng)絡(luò)通過(guò)相同超載或故障鏈接來(lái)路由。
海量的服務(wù)器、網(wǎng)絡(luò)組件和鏈接是故障的一大來(lái)源,F(xiàn)代硬件極為可靠,盡管每個(gè)組件有多年故障平均時(shí)間,但對(duì)于數(shù)千獨(dú)立的設(shè)備來(lái)說(shuō),依舊會(huì)有硬件故障發(fā)生。
配置錯(cuò)誤是另一個(gè)問(wèn)題來(lái)源,該問(wèn)題可由網(wǎng)絡(luò)故障管理進(jìn)行跟蹤。服務(wù)器和網(wǎng)絡(luò)設(shè)備不斷添加、升級(jí)或取代。大型云計(jì)算通常包括來(lái)自不同供應(yīng)商的組件,甚至來(lái)自同一供應(yīng)商的相同組件也可能運(yùn)行著不同的軟件版本。在這種環(huán)境中,任何變更都可能導(dǎo)致錯(cuò)誤的出現(xiàn),同時(shí),對(duì)一個(gè)組件的改變還可能影響到其他組件。
簡(jiǎn)單地檢測(cè)和報(bào)告錯(cuò)誤已經(jīng)不夠,每個(gè)錯(cuò)誤可能導(dǎo)致幾十份錯(cuò)誤報(bào)告。鏈路故障會(huì)在鏈路兩端的交換機(jī)生成硬件故障指示,并且每次鏈路故障和恢復(fù)時(shí)都會(huì)發(fā)出新報(bào)告。2層和3層網(wǎng)絡(luò)協(xié)議路由會(huì)改變,在備用路由流量水平接近最大數(shù)值時(shí)鏈路流量監(jiān)控也會(huì)變化。同時(shí),應(yīng)用性能監(jiān)控器會(huì)從通過(guò)該鏈路路由流量的每個(gè)應(yīng)用報(bào)告問(wèn)題。
故障相關(guān)性及其在網(wǎng)絡(luò)中的作用
沒(méi)有哪個(gè)網(wǎng)絡(luò)管理員能夠整理完單一故障生成的海量報(bào)告,并快速發(fā)現(xiàn)其根本原因。對(duì)此,故障相關(guān)性軟件很重要,這是每個(gè)主流系統(tǒng)供應(yīng)商網(wǎng)絡(luò)管理產(chǎn)品的重要組成部分。
故障相關(guān)性產(chǎn)品利用各種機(jī)制來(lái)發(fā)現(xiàn)問(wèn)題,其中包括SNMP trap、TL1消息、應(yīng)用日志和SYSLOG條目。SNMP和特定產(chǎn)品輪詢(xún)監(jiān)控器運(yùn)行在服務(wù)器、交換機(jī)和鏈路。相關(guān)性工具還可監(jiān)控設(shè)備問(wèn)題、電源電壓和磁盤(pán)可用空間來(lái)預(yù)測(cè)未來(lái)的問(wèn)題。
網(wǎng)絡(luò)故障管理軟件必須提供對(duì)網(wǎng)絡(luò)準(zhǔn)確的且最新的視圖。該軟件必須保持更新(無(wú)論是通過(guò)手動(dòng)或者通過(guò)網(wǎng)絡(luò)映射),以追蹤添加的、移除的或更新的組件。它必須維護(hù)每種組件的內(nèi)部型號(hào),介紹其配置和功能,并包含網(wǎng)絡(luò)運(yùn)營(yíng)政策的描述。當(dāng)添加應(yīng)用時(shí),還必須更新服務(wù)水平協(xié)議(SLA)等信息。
此外,故障相關(guān)性軟件必須與云編排軟件來(lái)交互,追蹤正在運(yùn)行的應(yīng)用、它們?cè)谀男┓⻊?wù)器運(yùn)行和VLAN以及與每個(gè)租戶(hù)相關(guān)的覆蓋網(wǎng)絡(luò)。網(wǎng)絡(luò)故障管理軟件還必須不斷根據(jù)SLAN監(jiān)控應(yīng)用性能水平。
當(dāng)出現(xiàn)問(wèn)題時(shí),相關(guān)性軟件會(huì)獲取所有接收到的故障指示,并利用有關(guān)的網(wǎng)絡(luò)拓?fù)湟约霸诠收铣霈F(xiàn)前數(shù)據(jù)如何移動(dòng)的信息來(lái)確定根本原因,并為網(wǎng)絡(luò)管理人員提供簡(jiǎn)要的報(bào)告。
SDN網(wǎng)絡(luò)
云計(jì)算與SDN技術(shù)管理的數(shù)據(jù)中心面臨著與依靠傳統(tǒng)技術(shù)的數(shù)據(jù)中心相同的潛在問(wèn)題。它們都需要故障相關(guān)性軟件,但SDN架構(gòu)需要將相關(guān)性軟件內(nèi)置到網(wǎng)絡(luò)控制器或與其緊密連接。
這種差異的原因是Spanning Tree和Open Shortest Path First等傳統(tǒng)協(xié)議在網(wǎng)絡(luò)設(shè)備內(nèi)部部署。它們?cè)阪溌坊蚨丝趩?wèn)題阻止流量時(shí)根據(jù)需要重新路由流量。通過(guò)SDN,所有路由都由控制器來(lái)確定,故障相關(guān)性軟件必須告知控制器問(wèn)題的類(lèi)型,以便它能夠確定備用路由。
OpenFlow兼容的白盒交換機(jī)支持各種供應(yīng)商的操作系統(tǒng),每個(gè)都有自己的檢測(cè)和故障報(bào)告方法。Big Switch和Pica8的操作系統(tǒng)都支持SNMP,但Big Switch的控制器和交換機(jī)操作系統(tǒng)利用OpenFlow消息來(lái)與設(shè)備進(jìn)行通信。相關(guān)性軟件通過(guò)接口與控制器通信,從設(shè)備處接收消息,并輪詢(xún)其狀態(tài)。
無(wú)線(xiàn)網(wǎng)絡(luò)和廣域網(wǎng)
Wi-Fi依靠一組專(zhuān)門(mén)的工具來(lái)診斷問(wèn)題。Wi-Fi連接可受到很多問(wèn)題的影響,例如信號(hào)干擾、墻壁或阻止信號(hào)的固態(tài)物體,以及安全漏洞,F(xiàn)在有各種故障排除產(chǎn)品,包括免費(fèi)軟件和專(zhuān)業(yè)的軟件產(chǎn)品。還需要專(zhuān)門(mén)的硬件產(chǎn)品來(lái)診斷某些類(lèi)型的問(wèn)題。
在網(wǎng)絡(luò)服務(wù)提供商擁有和管理的WAN連接的情況下,關(guān)鍵參數(shù)是吞吐量和往返時(shí)間,這方面也有免費(fèi)和專(zhuān)業(yè)產(chǎn)品可供選擇。
滿(mǎn)足最終用戶(hù)性能要求需要應(yīng)用性能的各方面都正常運(yùn)行。在出現(xiàn)問(wèn)題時(shí),網(wǎng)絡(luò)故障管理和故障檢測(cè)產(chǎn)品必須能夠查明原因,使它們可快速被修復(fù)以及恢復(fù)正常運(yùn)作。
【網(wǎng)絡(luò)故障管理何去何從】相關(guān)文章:
常見(jiàn)的幾種網(wǎng)絡(luò)故障與診斷方法09-03
巧用ping命令檢查網(wǎng)絡(luò)故障12-05
網(wǎng)絡(luò)故障自上而下的修復(fù)方法04-11
使用Ping命令來(lái)判斷網(wǎng)絡(luò)故障的技巧07-16
常見(jiàn)的計(jì)算機(jī)網(wǎng)絡(luò)故障及診斷方法09-05
項(xiàng)目管理中的風(fēng)險(xiǎn)管理05-18
品質(zhì)管理之預(yù)防管理07-04