從表面上看,提供網(wǎng)絡托管服務似乎是一項相當簡單的工作。托管服務提供商擁有一組服務器(本質上是非常強大的計算機),它租給在其上存儲網(wǎng)站的網(wǎng)站所有者。服務器永遠不會關閉,網(wǎng)站可以 24/7 訪問。從那時起,托管服務提供商所要做的就是支付電費并確保其托管的網(wǎng)站不違反規(guī)則。
當然,還有很多事情要做。服務器必須為托管在其上的網(wǎng)站提供穩(wěn)定且安全的環(huán)境。它需要以一種能夠確保所有應用程序運行良好并且不會以任何方式受到抑制的方式進行配置和維護。這是一個巨大的挑戰(zhàn),需要仔細的計劃、協(xié)調和大量的專業(yè)知識。
如果服務器要正常運行,需要檢查的不同指標的數(shù)量實際上是無窮無盡的,托管服務提供商必須確保如果服務器的健康受到威脅,其技術專家團隊會知道這一點立即做出反應,并在為時已晚之前做出反應。今天,我們將介紹服務器管理員經(jīng)常監(jiān)控的一些最關鍵的方面,以確保提供可靠的服務。
正常運行時間
這是客戶最感興趣的。在線開展業(yè)務的主要優(yōu)勢之一是與實體辦公室或商店不同,該網(wǎng)站全天候 24/7 可用。托管服務提供商的工作是確保盡可能多地訪問服務器。
這并不像讓所有東西都插上電源那么容易。一個由硬件和軟件組成的極其復雜的生態(tài)系統(tǒng)對于您的網(wǎng)站托管環(huán)境的存在至關重要,而且不可避免地,事情時不時會出錯。不過,將中斷保持在最低限度是必不可少的。
為確保他們能夠及時采取適當?shù)拇胧掌鞴芾韱T密切關注服務中斷的時間,理想情況下,仔細消除每次中斷的原因,以最大限度地降低未來服務的風險中斷。一般來說,低于 99%的正常運行時間百分比被認為是應該研究的,如果它低于 95%,那么肯定有理由擔心。
并發(fā)用戶數(shù)和每秒請求數(shù) (RPS)
對于許多人來說,檢查網(wǎng)站運行情況的最佳方法是確定它可以同時支持多少用戶。事實上,訪問者的數(shù)量是衡量網(wǎng)站受歡迎程度的最終標準 ,在評估項目需求時應該發(fā)揮關鍵作用。
在壓力測試期間,管理員會模擬 大量同時進行的會話,以便粗略估計服務器一次可以處理多少訪問者。應該密切關注用戶數(shù)量的統(tǒng)計數(shù)據(jù),因為如果一個網(wǎng)站變得太受歡迎,它可能會影響性能甚至 導致整個服務器停機。
但是,并發(fā)用戶的數(shù)量與服務器上的負載沒有直接關系。例如,點擊大量鏈接并在每個頁面上花費不超過幾秒鐘的用戶將比閱讀冗長文章但同時不與網(wǎng)站交互的用戶對服務器造成更大的壓力。
用戶的每一次點擊都會產(chǎn)生多個不同的請求,這些請求需要由服務器處理。如果該網(wǎng)站很受歡迎,我們每秒可能會討論數(shù)千個請求。這是服務器必須能夠處理的實際負載。
太多的同時請求可能會減慢它的性能并完全降低它的性能,這就是為什么服務器管理員必須弄清楚每秒的最大請求數(shù)是多少,然后他們必須密切監(jiān)控這個指標,以確保如果真正-世界負載接近它,他們可以采取適當?shù)男袆印?/p>
錯誤率
服務器上的負載越大,用戶收到錯誤消息的機會就越大。處理請求的偶爾失敗并不是真正令人擔憂的主要原因,但仍然應密切監(jiān)視服務器生成的錯誤數(shù)量。
更具體地說,管理員應該根據(jù)請求的總數(shù)來查看它。越來越多的錯誤可能意味著一個嚴重的問題,應該徹底調查其原因。服務器錯誤會生成 5XX 代碼,并且有一些機制可以在記錄到更多錯誤時提醒管理員。
線程數(shù)
用戶看到的錯誤百分比可能與服務器在任何給定時間需要處理的線程數(shù)直接相關。在配置階段,管理員通常會限制每個進程可以生成的線程數(shù),如果超過該限制,請求可能會被擱置。如果他們保持太久,他們最終會超時,并且用戶將收到一條錯誤消息。
密切關注活動線程的數(shù)量是評估在任何給定時間使用了多少服務器容量的重要部分,它可以說明當前托管在其上的項目的需求。這可以幫助管理員確定他們需要對硬件或軟件配置進行哪些更改以優(yōu)化性能。
系統(tǒng)級性能指標——CPU 和內存利用率以及磁盤使用率
我們不能忘記,服務器本質上是一臺大型計算機。它有一個操作系統(tǒng),進程在其上運行并利用底層硬件。監(jiān)控有多少資源在使用中應該始終是系統(tǒng)管理員的優(yōu)先級列表。高 CPU 或 RAM 使用率會顯著降低網(wǎng)站速度,如果服務器存儲空間不足,它將無法記錄新信息,這可能會阻礙某些任務并給最終用戶帶來很多挫敗感。
大多數(shù)托管服務提供商都會為您提供易于使用的工具,幫助您密切監(jiān)控這些指標。盡可能多地利用它們至關重要,因為它們可以為您提供對于減少停機時間和限制可能尚未對所有人可見的問題的影響至關重要的信息。例如,處理器和 RAM上的負載增加可能意味著服務器上托管的項目之一占用了太多資源,但這也可能表明硬件組件本身存在潛在問題。
平均響應時間 (ART) 和峰值響應時間 (PRT)
您可能會爭辯說,從用戶的角度來看,這些是所有指標中最重要的指標。每當您訪問網(wǎng)站時,您都會發(fā)送請求,服務器必須響應這些請求。發(fā)送請求和響應所花費的時間是網(wǎng)站的實際加載時間。與網(wǎng)站的每次交互都會產(chǎn)生多個請求(針對 HTML 文檔、CSS 表、圖像、JavaScript 文件等)。有些請求的處理時間比其他請求長,當他們測試服務器時,管理員尋找的主要數(shù)據(jù)點之一是平均響應時間 (ART)。
它的計算方法是將響應所有請求所需的時間除以請求數(shù)。這是服務器在負載下執(zhí)行情況的一個很好的指標,如果它太高,則可能意味著存在問題。不過,體面的 ART 并不一定意味著一切都很好。管理員在測試服務器性能時還會記錄峰值響應時間 (PRT) ,以找出處理時間較長的請求。這樣,他們可以更輕松地識別潛在問題。
例如,假設您有一臺看似運行良好的服務器,在每秒被數(shù)百個請求轟炸后,顯示出相對較低的 ART。然而,仔細查看統(tǒng)計數(shù)據(jù)可能會發(fā)現(xiàn)一些數(shù)據(jù)庫查詢需要更長的時間,因此會產(chǎn)生較高的 PRT。即使整體性能良好,高 PRT 也可能表明存在問題,應該進行調查。
安全相關指標
客戶往往更關注正常運行時間和速度,他們經(jīng)常忘記,如今與運行網(wǎng)站相關的最大挑戰(zhàn)之一是保護網(wǎng)站免受黑客攻擊。服務器管理員不應該犯同樣的錯誤。為獲得最佳性能和正常運行時間而 優(yōu)化網(wǎng)站和服務器的所有工作都可能被分布式拒絕服務 (DDoS)攻擊所破壞。服務器所有者必須制定措施和嚴格的協(xié)議,以便在任何潛在攻擊造成重大停機之前有效緩解它們。
可悲的是,DDoS 遠非唯一的安全問題。數(shù)十個進程在生產(chǎn)服務器上同時運行,這通常意味著檢測惡意活動可能很困難。除了確保已應用所有安全補丁外,服務器管理員還必須有適當?shù)臋C制來跟蹤和記錄與文件修改和配置更改相關的活動。預防和早期發(fā)現(xiàn)對于確保人們的網(wǎng)站安全至關重要。
其他指標
你會認為檢查我們已經(jīng)提到的所有指標可以保證完美的性能,但你錯了。有時,問題并非源于物理機或其配置。過時或有問題的應用程序、主題和插件也會極大地降低網(wǎng)站速度,并且有可用的工具可以有效地查明問題。應用程序性能監(jiān)控是維護服務器和托管在其上的網(wǎng)站正常工作的主要部分。
很可能,在服務器上安裝和運行的應用程序使用某種SQL 數(shù)據(jù)庫。優(yōu)化應用程序和數(shù)據(jù)庫之間的連接不僅可以顯著提高網(wǎng)站的性能,還可以降低 CPU 使用率并降低服務器的整體負載。Web 服務器的情況幾乎相同。無論您使用的是 Apache 還是它的競爭對手之一,確保負責處理和響應所有請求的軟件及其所有組件都經(jīng)過優(yōu)化和順利運行是很重要的。
最后需要
如您所見,創(chuàng)建一個穩(wěn)定的托管環(huán)境比設置服務器并確保沒有人關閉它要困難得多。這是一個極其復雜的連續(xù)過程。技術一直在發(fā)展,隨之而來的是網(wǎng)站所有者的需求也在發(fā)生變化。掌握行業(yè)的所有變化和動向是托管公司面臨的最大挑戰(zhàn)之一。