歡迎您光臨本站 註冊首頁

海量運維、運營規劃之道

←手機掃碼閱讀     火星人 @ 2014-03-03 , reply:0

海量運維、運營規劃之道

 

非常棒,分享給大家。
關於海量運維、運營規劃,我想業界都沒有準確的定義,假如說互聯網的架構師用能否設計多高的摩天大樓來衡量架構能力,那運維、運營更多的是在關注互聯網服務的質量、效率、成本、故障、瓶頸,用戶的忍耐、抱怨等問題。

http://www.itkoala.com/wp-content/uploads/2010/07/index.png

在接下來的日子裡,將以質量、效率、成本為核心,從運營規劃、管理、流程/規範、系統/平台,監控、告警、安全、優化、考核等幾個維度結合案例來與大家分享自己的體會,內容大致如下所示。

前言

痛並快樂著
關於互聯網運維、運營
質量

規劃篇

1. 架構規劃
1.1 新趨勢、新機遇、新挑戰
1.2 產品、架構、成本生命周期
1.3 質量、速度、成本
1.4 專業化、平台化、持續化
1.5 可伸縮、可調度、可擴展
1.6 Set模型,集裝箱改變世界
1.7 全網調度,速度與容災並進
1.8 監控與告警,遠航的指路明燈
1.9 海量導致架構取向,適用是王道
1.10 可擴展、可持續架構的思考
2. IDC規劃
2.1 全球最複雜的基礎網路
2.2 IDC屬性、瓶頸分析及建議
2.3 IDC策略,分佈致勝、速度第一
3. CDN規劃
3.1 CDN發展現狀與趨勢分析
3.2 CDN廠商分析及外包細節
3.3 CDN節點分佈及解析策略
3.4 CDN外包質量和風險控制
4. 預算規劃
4.2 預算的作用及預算推導
4.3 伺服器定製,切合應用與性價比
4.4 伺服器需求,用數據說話

速度篇

1、什麼是訪問質量運營管理
1.1 什麼是訪問質量
1.2 什麼是訪問質量運營管理
1.3 訪問質量運營管理的價值
2、訪問質量運營管理綜述
1.1 訪問質量運營管理體系
1.2 訪問質量的關鍵指標
1.3 影響訪問質量的核心因素
3、如何做訪問質量運營管理
1.1 訪問質量監控
1.2 訪問質量分析
1.3 訪問質量優化、評估
1.4 TDO優化,減少跨網訪問
1.5 前端優化,首屏和連接數決定成敗
1.6 伺服器優化,應用好緩存和壓縮
1.7 IDC優化,IDC、ISP分區域覆蓋
1.8 優化工具,量化並且能趨勢、對比分析
4、典型互聯網企業案例及成果
1.1 資訊門戶-騰訊網全站訪問質量優化及收益
1.2 搜索引擎-百度搜索訪問質量監測體系及優化

監控篇

1. 監控規劃
1.1 質量監控,質量監控的作用
1.2 設備監控,設備運行狀態可視化
1.3 網路監控,時刻掌控網路變化
1.4 域名監控,如何做精準DNS解析
1.5 URL監控,實時網頁訪問狀態
1.6 緩存監控,多緩存監控的方法
1.7 DB監控,資料庫監測可視化
1.8 應用監控,動態應用模塊間監控
1.9 訪問監控,獲取用戶訪問速度
1.10 響應監控,IDC內服務響應監控
1.11 內容監控,掌握網站各元素變化
2. 周報報表
2.1 綜合周報,自動化的綜合周報
2.2 業務周報,定製化的業務周報

告警篇

1. 統一告警,如何具備千里眼、順風耳
2. 告警分級,將告警分類區分對待
3. 告警模型,如何建立告警模型
4. 告警收斂,規避被告警淹沒
5. 告警關聯,1+1>2,讓告警更具價值
6. 告警分析,用數據說話

安全篇

1. 漏洞掃描
2. 域名劫持掃描
3. 掛馬掃描
4. CGI掃描
5. 網頁篡改掃描
效率

管理篇

1. 配置管理,將所有資源標識並記錄在冊
2. 事件管理,記錄、分類、診斷、解決問題
3. 問題管理,消除引起問題的根本原因
4. 變更管理,串聯變更原因、過程、結果
5. 容量管理,對運營指標未來的量化、預測

流程篇

1. 環境一致性規範
2. 發布、變更規範
3. 運營故障分級和處罰規範
4. 運營資源申請流程
5. 預算管理規範
6. IDC變更流程
7. CDN運營規範

平台篇

1. 靜態資源平台
2. 動態應用平台
3. 資料庫託管平台
4. 邏輯服務平台
5. 緩存管理平台
6. 運維工具平台
7. 海量存儲平台
8. PGV點擊流平台
9. GSLB全網調度平台

考核篇

1. 運營質量考核
2. 架構能力考核
3. 運營預算考核
成本

帶寬篇

1、 規模化導致帶寬成為最大成本
2、 通過改變產品形態減少數百萬成本
3、 帶寬成本量化及可持續跟蹤

硬體篇

1. 伺服器分類、分級、分層定製
2. 按應用場景使用虛擬化伺服器
3. IDC專區化,合適使用網路設備

來源:http://www.itkoala.com/
《解決方案》

本帖最後由 meego2012 於 2013-01-30 13:56 編輯

關於互聯網運維、運營



關於互聯網運維、運營,給人第一印象是有些拗口,此外更多的是歧義,互聯網企業有這樣的崗位嗎?感覺像是產品、內容、遊戲運營之類的崗位。說說我對這個崗位的理解,首先看看騰訊有那些崗位及分類。

http://www.itkoala.com/wp-content/uploads/2010/04/0692.jpg

綜上所述,這裡對運維、運營的理解有綜合、抽象了技術支持類多個工程師的屬性,比如應用運維、運營服務管理、系統管理等,可以理解為是一種綜合素養和協調能力,具體的工作大致如下:

1、運營規劃,提供運營綜合規劃支持,分析業務發展需要的資源趨勢,規劃IDC資源,並驅動實現並與運營預算對齊。

2、運營預算,負責維護產品設備預算,帶寬預算,專線預算的申請和滾動更新,並對運營預算結果和運營成本負責。

3、運營支持,負責運營伺服器的日常管理與相關係統的信息變更管理;負責訪問策略、域名管理、IP管理等基礎運營需要支持。

4、系統運維,負責產品的運營伺服器的系統運維、系統監控與安全保障、系統性能分析和優化等工作;隨時待命,處理產品可能遇到的問題,突發事件管理。

5、應用運維,負責業務的部署,新版本的發布,服務端的變更;負責監控業務的運行狀況,及時處理業務運行中出現的故障,保障業務服務正常可用。

6、運維需求,負責與各開發項目組的日常溝通交流,接受並處理項目組提出的運維需求。

7、運營數據分析、挖掘,負責產品的業務數據分析與挖掘,性能分析與系統優化,問題跟蹤與管理,負責定期給出業務運維狀況報告。

8、運營流程、規範、制度,負責產品運維流程的探索,產品運維工作範疇與深度方面的文檔建設,進行與運維相關的新技術研究;負責系統運維的知識管理體系、流程與文檔建設。

9、運營介面、平台、培訓,負責承擔部門內的運營/運維技術培訓,負責公共類運維支撐平台的建設和在部門內的推行;負責與外部門的交互,包括外部信息對內的知會,內部需求對外的反饋。
《解決方案》

1.1、新趨勢、新機遇、新挑戰

不妄談系統架構、軟體架構,就互聯網工作的所想、所感、所悟做一些匯總。聊架構之前,有必要了解當下互聯網發展趨勢,有幾點分享:
1、全球網站TOP10變遷,搜索引擎成為網民獲取內容重要入口,UGC已經是主流之一。

2004年8月全球top102009年8月全球top102012年6月全球top10
1、Yahoo!1、Google1、Google.com
2、Microsoft   Network2、Yahoo!2、Facebook.com
3、新浪3、Facebook3、YouTube.com
4、Google4、YouTube4、YaHoo.com
5、搜狐5、Windows Live5、Baidu.com
6、網易6、Microsoft   Network6、Wikipedia.org
7、Baidu.com7、Blogger7、Live.com
8、3721網路實名8、Wikipedia8、Twitter.com
9、Yahoo!カテゴリ9、Baidu.com9、QQ.com
10、Microsoft   Corporation10、Yahoo!カテゴリ10、Amazon.com

2、UGC成為網站內容的重要來源,人際分享與SNS成為資訊閱讀另一重要渠道,半數以上網民貢獻過內容。
http://www.itkoala.com/wp-content/uploads/2010/04/active_internet_user1.gif
3、互動和參與空前增強,多媒體、SNS 、圖片分享、wiki是增長最快,滲透率尚低的領域,仍將快速發展。
http://www.itkoala.com/wp-content/uploads/2010/04/online_users1.gif
4、中國互聯網規模持續增長,網民達到3.38億。中國互聯網用戶數已於08年超越美國,成為全球第一,與日韓、歐美相比,仍有較大增長空間,海量服務、雲支撐已成為互聯網主流關鍵詞,中國的海量會成為世界級的,史無前歷的海量。

http://www.itkoala.com/wp-content/uploads/2010/04/china_net.gif
5、大互聯網公司溝通+娛樂+社區+搜索+電子商務多業務組合戰略進入中盤鏖戰階段。E級存儲、T級帶寬、億級在線、10萬級伺服器,量變引發質變,成本+質量+柔性運營=高手生存之道。
http://www.itkoala.com/wp-content/uploads/2010/04/070.jpg
6、海量將給互聯網帶來艱巨挑戰,千萬級用戶在線,每日數十億次PV,數千台伺服器,數百G用戶訪問帶寬,P級UGC內容存儲,每秒百萬級動態數據請求。上千台網路設備,硬體故障隨時發生,上千種後台服務,軟體故障不可避免,複雜的內外網環境,網路問題家常便飯。
7、海量服務的規模隨著用戶量、信息存儲量、訪問量的高速增長,對基礎架構平台,尤其是互聯網業務架構、服務性能與容量,帶寬、網路和伺服器性能與容量,產生了巨大的壓力和挑戰,能夠以低建設成本、低運營成本促進業務的可持續發展,形成互聯網公司海量服務的核心競爭力,低成本的平衡擴展性成為生死要素。

《解決方案》

1.2 產品、架構、成本生命周期
關於架構規劃,首先應該了解產品、架構、成本的生命周期,任何互聯網企業都是由多個領域,多個產品支撐,有新舊、大小之分。互聯網產品經過產品策劃、設計、研發、運營,然後上線進入市場,它的市場生命周期才算開始。產品、架構、成本都會隨時間推移而改變,呈現一個由少到多由簡單到複雜的過程,就如同人的生命一樣,由誕生、成長到成熟,最終走向衰亡。
產品生命周期
http://www.itkoala.com/wp-content/uploads/2010/05/030.jpg
架構、成本生命周期
http://www.itkoala.com/wp-content/uploads/2010/07/071.jpg
產品生命、架構、成本周期的一些特性:
1、初始期,這個階段通常會採用灰度放量,如發放邀請碼等,像騰訊、google重要產品都是採用這種方法,最重要的目標試探用戶對產品的體驗反饋及系統架構的用戶模型。
2、成長期,用戶基數增長,產品逐漸豐富,系統模塊化、層次化明顯,這個階段是承上啟下的關鍵時期,可擴展、可持續的符合產品特性的集群架構決定未來支撐能力,帶寬成本開始成為主要成本。
3、成熟期,用戶量增長放緩,用戶數、活躍度最高時期,架構最大的挑戰也在於此階段,接入層(多IDC分佈+數10G、甚至數100G帶寬成本),邏輯層(邏輯服務分佈+集群),數據層(P級分散式存儲+分散式Cache+分散式DB),有損體驗、柔性可用緩解成本壓力。
4、衰退期,新產品或替代品出現,用戶開始流失,架構沉澱和完整期,這個階段大的架構開始平台化,升級到部門甚至是公司級別。例如:騰訊的存儲平台(TFS、TDB)、CDN平台(圖片、下載、流媒體),淘寶存儲、CDN平台,新浪動態應用平台等。
平衡負載、架構、速度、容災與成本的關係是產品從小到大的一個重要的工作,即要滿足階段性需要,又不能過計劃。

《解決方案》

本帖最後由 meego2012 於 2013-01-30 13:58 編輯

1.3 質量、速度、成本

「產品第一,運營制勝」,用騰訊的核心運營文化開個頭,這裡的運營是指基於生產環境並保障網路、硬體、應用的穩定運行,做好運營已經成為互聯網公司的核心競爭力之一,那如何做好運營呢?個人體會主要有三個維度,質量、速度、成本,下面接合場景分析如下。
http://www.itkoala.com/wp-content/uploads/2010/09/084.jpg場景
某個互聯網產品由數十名軟體工程師開發,幾十甚至數百個功能組成,需要數百台伺服器支撐,這些伺服器都需要分佈不同區域,不同運營商的機房。
質量的挑戰
質量的定義貌似有些廣義,可以簡單理解為是否有影響到用戶使用產品的體驗,舉個反而案例幫助理解,比如「三鹿奶粉質量事件」,就存在嚴重質量問題,接合場景質量的挑戰如下:
1、數百個功能模塊,數十名軟體工程師協同開發、版本發布、功能迭代,耦合和銜接及BUG不可避免造成用戶體驗異常。
2、數百台伺服器運行,電源、主板、硬碟、內存等硬體故障隨時會發生,業界公認硬碟存在每天萬分之四的故障率,曾經經歷過92台伺服器存在主板問題,會突然掉電死機。
3、分佈在多個區域多個機房,目前內外網環境錯綜複雜,網路問題家常便飯,曾經經過無數次骨幹網異常、交換機及路由器故障,省網故障等慘痛教訓。
4、海量用戶更考驗架構規劃和容易管理能力,突發流量如同地震、海嘯般可以瞬間將系統擊跨,即使可用性達到99.9%,每月服務不可用也將近40分鐘。
速度的挑戰
這裡的速度可以理解為如何讓用戶最快時間打開網頁、視頻、下載、遊戲,有研究顯示,寬頻用戶比窄帶用戶更沒有耐心,寬頻用戶願意忍受的最長等待時間,往往只有4~6秒,接合場景速度的挑戰如下:
1、互聯網存在用戶速度體驗的1-3-10原則,0~1秒最優,1~3秒為較優,3~10秒用戶已經感覺比較慢,>10秒用戶無法接受,另外用戶放棄一個產品的代價非常低,只需要換一個URL。
2、數10名軟體工程師協同開發,前端用戶體驗設計、UI、製作和後端邏輯、Cache、資料庫設計都是用戶體驗的一個中間環節,任何一環節都將可以造成速度問題,
3、中國基礎網路複雜度不言而喻,運營商、用戶都具有區域性,最簡單的問題,電信訪問電信的伺服器快,網通用戶多在北方,電信用戶多分佈在華東、華南。
成本的挑戰
成本主要指支撐互聯網產品運行所需要的網路設備、伺服器、帶寬、機架、專線的費用,這裡的成本挑戰可以理解為具備一定規模的成本,其中帶寬成本將佔主要成本,特別是當前海量背景下,帶寬已經成為互聯網的黃金,接合場景成本的挑戰如下:
1、數百台伺服器支撐,拿標配伺服器Dell R610(IntE5506 2.13GHz四核*2/8G內存/146G、10K、SAS)舉個例子,加上運費及網路等約2萬/台,單採購需要200萬,還不算高端資料庫(8~10萬/台)等伺服器。
2、再算一下持久的耗費,機架租用看不同城市,大概在平均0.5萬/月/個,一個機架14U,可放11~13台伺服器,100台伺服器預計需要9個機架,一年需要54萬。帶寬成本也看城市,大概在5~8萬,例如上海南匯電信IDC為7萬/G/月,即使CDN便宜,也需要5萬/G/月,如果每月2G消耗,一年需要168萬。
3、再舉例說明一下規模,騰訊網需要數千台伺服器、帶寬需要100G、視頻帶寬需要50G,一年需要近5000萬運營成本支撐,特別是海量產生了巨大的成本壓力和挑戰,能夠以低建設成本、低運營成本促進業務的可持續發展,已經成為互聯網企業的生死要素。
以上只是點到除人的因素外,如何做好運營以及質量、速度、成本的挑戰,在後面的內容中會結合自己的實踐與大家探討具體如何實現。
《解決方案》

沒人看,傷心
《解決方案》

誰說沒人看 很不錯的東西
《解決方案》

條理很清晰,實現很麻煩...
廢話一堆...吃飽撐叼了...
鑒定完畢!
《解決方案》

樓上的那麼高端啊,咋不見寫點文章幫助下我等低端人群。。。很不錯的文章,直接上原網站看完的,可惜有些章節不能點擊
《解決方案》

好東西,可以出書了!

[火星人 ] 海量運維、運營規劃之道已經有577次圍觀

http://coctec.com/docs/service/show-post-211.html