【IT168 云計算】改革開放以來,我國能源電力取得了舉世矚目的發(fā)展成就,發(fā)電裝機、用電量、電網(wǎng)規(guī)模均位列世界第一。如何響應(yīng)國家號召,加強供給側(cè)結(jié)構(gòu)性改革,增強持續(xù)增長動力,以提高供給體系的結(jié)構(gòu)和效率,是電力行業(yè)的當務(wù)之急。作為國家電網(wǎng)公司全資的黑龍江省電力公司(以下簡稱:黑龍江電力),在負責建設(shè)、運行維護省電網(wǎng)及保障全區(qū)安全可靠供電任務(wù)的同時,積極擁抱云計算技術(shù),通過技術(shù)創(chuàng)新實現(xiàn)自身的戰(zhàn)略使命成為了當務(wù)之急。
作為國家經(jīng)濟命脈,電力系統(tǒng)任何中斷都會造成巨大的社會和經(jīng)濟影響。因此國家電網(wǎng)實時監(jiān)控著各個省電力公司的業(yè)務(wù)系統(tǒng)運行情況。這對原本主要依靠專有硬件設(shè)備堆砌來解決系統(tǒng)可靠性的省電力系統(tǒng)向靈活敏捷的云化轉(zhuǎn)型,提出巨大挑戰(zhàn)。
經(jīng)過審慎的評估、選型,黑龍江電力與在OpenStack領(lǐng)域擁有豐富中大規(guī)模企業(yè)級實踐經(jīng)驗及技術(shù)實力的EasyStack合作建起首期即超過200節(jié)點的電力云計算平臺,率先在電力行業(yè)走出核心業(yè)務(wù)擁抱云計算的第一步!目前,包括營銷、財務(wù)管控、電能量現(xiàn)代化應(yīng)用、移動作業(yè)管理、全國電力市場技術(shù)支撐、電網(wǎng)GIS等業(yè)務(wù)生產(chǎn)系統(tǒng)均已在黑龍江電力云平臺順利上線,同期上線的還包括大數(shù)據(jù)分析、數(shù)據(jù)交換等數(shù)據(jù)處理系統(tǒng)。整個云平臺計劃達到700臺物理節(jié)點,成為電力系統(tǒng)內(nèi)首屈一指、示范性云平臺系統(tǒng)。
黑龍江電力信通公司副總經(jīng)理趙威表示,“本次國家電網(wǎng)黑龍江公司的OpenStack云平臺,實現(xiàn)了計算、存儲、網(wǎng)絡(luò)資源徹底的云化,并將全部業(yè)務(wù)系統(tǒng)遷移到云計算平臺中,在1年的運營過程中,不僅穩(wěn)定可靠,更大幅提升了運行效率。我們還將在此基礎(chǔ)上開展運維自動化相關(guān)工具的研究,并實現(xiàn)與大數(shù)據(jù)平臺相結(jié)合。該OpenStack云平臺將為黑龍江電力進一步實現(xiàn)業(yè)務(wù)創(chuàng)新提供穩(wěn)定靈活、自主可控的基礎(chǔ)架構(gòu)支撐?!?/p>
黑龍江電力云平臺方案設(shè)計
考慮到整個云平臺的設(shè)計規(guī)模將達到700臺物理服務(wù)器,同時所承載的是電力行業(yè)核心生產(chǎn)系統(tǒng),云平臺的可靠性和可用性要求成為首要設(shè)計指標,針對這一現(xiàn)狀,黑龍江電力公司決定采用開源技術(shù)來構(gòu)建自身的云品臺方案。
▲黑龍江電力云平臺網(wǎng)絡(luò)架構(gòu)示意圖
具備OpenStack控制平面高可用與高性能的云管理平臺
整個OpenStack云平臺的高可用主要依賴控制平面的高可用,設(shè)計難點在于如何平衡關(guān)鍵服務(wù)可靠性與平臺可擴展性之間的矛盾,同時從計算、網(wǎng)絡(luò)、存儲等模塊優(yōu)化OpenStack平臺消息機制,經(jīng)過優(yōu)化后,平臺組件間的冗余消息大幅減少,消息轉(zhuǎn)發(fā)效率大幅提升,為承載千臺規(guī)模計算節(jié)點打下了基礎(chǔ)。
通過HA以及云平臺的高可靠設(shè)計等方案的實施使之區(qū)別并領(lǐng)先于其它OpenStack發(fā)行版,可用于承載核心業(yè)務(wù)的中大規(guī)模云計算環(huán)境,輕松應(yīng)對電力系統(tǒng)傳統(tǒng)與創(chuàng)新的業(yè)務(wù)挑戰(zhàn)。
深入優(yōu)化計算、存儲以及網(wǎng)絡(luò)性能,從KVM、OVS、Ceph等最底層技術(shù)開始源代碼級優(yōu)化,最終提供接近物理硬件能力的計算、存儲和網(wǎng)絡(luò)性能,為黑龍江電力各個核心業(yè)務(wù)系統(tǒng)提供了高性能、可靠的服務(wù)平臺。
計算虛擬化
通過實施OpenStack云計算,可以按照黑龍江電力各個業(yè)務(wù)所需的計算能力的規(guī)模,將各個業(yè)務(wù)部署到合適的物理中,有效整合物理機資源,提高資源利用率。通過每個VM隔離應(yīng)用,保證單個VM的資源需求得到滿足。在單臺物理機故障或宕機的情況下,將業(yè)務(wù)系統(tǒng)按計劃遷移到其他物理機或者盡快在其他物理機恢復(fù),保證SLA,降低業(yè)務(wù)連續(xù)性風險。通過與黑龍江各個業(yè)務(wù)系統(tǒng)應(yīng)用軟件集群相結(jié)合,實現(xiàn)整個業(yè)務(wù)系統(tǒng)的高可靠性、高連續(xù)性、快速擴展性。
在黑龍江電力云平臺方案中,使用OpenStack,Centos,KVM這樣的開源軟件可以避免廠商鎖定,對幾乎所有的x86服務(wù)器均開放,同時對MySQL,Oracle,Weblogic等數(shù)據(jù)庫和中間件應(yīng)用服務(wù)器也能開放性的支撐,達到自主、可控的目的,同時降低軟硬件的CAPEX(資本支出)和OPEX(運營支出)。
分布式存儲Ceph
鑒于運用商業(yè)存儲的一些問題,同時考慮黑龍江電力業(yè)務(wù)系統(tǒng)對性能和可靠性,擴展性的要求以及目前設(shè)備環(huán)境現(xiàn)狀——盡量避免由于實施需要采購新設(shè)備、增加部署工作量、延長云平臺方案實施周期等,只要對目前設(shè)備環(huán)境做少許變更即可實施。
黑龍江電力采用利用開源技術(shù)實現(xiàn)的分布式存儲Ceph,并使用Cinder可以使用Ceph作為后端存儲。實現(xiàn)了統(tǒng)一存儲,提供對象存儲,塊存儲及文件系統(tǒng)的支持;無任何單點故障;數(shù)據(jù)多份冗余;存儲容量可擴展;自動容錯及故障自愈;并支持快照、備份、恢復(fù),支持QEMU及Libvirt虛擬化等功能。
黑龍江電力在實際部署時,通過對SSD極速、HDD高容量兩個資源池的OSD的設(shè)置,完成了3份數(shù)據(jù)副本的支持。基于Ceph的分布式高性能存儲方案,極大的提高了云主機的IO性能,足以應(yīng)對各種苛刻的企業(yè)應(yīng)用需求。黑龍江電力云平臺現(xiàn)狀可以在10秒內(nèi)完成一臺云主機的創(chuàng)建;支持實時快照,對1T硬盤的快照的操作耗時不超過2秒。
由于數(shù)據(jù)量增長迅猛,黑龍江電力在方案部署期間進行了多次存儲擴容, 在擴容過程中 ,由于數(shù)據(jù)量較大, 為保證不影響已上線業(yè)務(wù)的正常運行, 通過降低Ceph rebalance優(yōu)先級的方式, 在不影響業(yè)務(wù)的情況下, 實現(xiàn)了存儲的在線擴容。
網(wǎng)絡(luò)虛擬化
為了滿足業(yè)務(wù)對網(wǎng)絡(luò)性能和擴展性,可靠性的需求,此次虛機網(wǎng)絡(luò)沒有通過L3 router轉(zhuǎn)發(fā), 而是直接連接至對應(yīng)VLAN網(wǎng)關(guān),來保證用戶實際的使用性能與感受。最終方案通過使用VLAN+OpenVSwitch方式配置網(wǎng)絡(luò),合理分配不同網(wǎng)絡(luò)平面的流量。
▲黑龍江電力云平臺網(wǎng)絡(luò)邏輯示意圖
其中:
通信網(wǎng)——用于云內(nèi)部虛擬機間通信;
業(yè)務(wù)網(wǎng)——用于虛擬機提供外部業(yè)務(wù)訪問;
存儲網(wǎng)——用于Ceph集群間數(shù)據(jù)拷貝;
部署網(wǎng)——用于物理主機云環(huán)境部署;
管理網(wǎng)——用于OpenStack與被管理主機間通信;
通過多個網(wǎng)絡(luò)節(jié)點,實現(xiàn)公網(wǎng)的負載均衡及HA,高性能和高可用, 網(wǎng)絡(luò)節(jié)點使用Router級別的Active/Standby方式實現(xiàn)HA,并使用獨立的網(wǎng)絡(luò)路由監(jiān)控服務(wù)確保網(wǎng)絡(luò)HA的穩(wěn)定性。
OpenStack云環(huán)境運維
大規(guī)模集群的部署涉及到資產(chǎn)管理的問題,黑龍江電力方案中所有物理機機器均已登記在冊,并在機架的固定位置標號。安裝工具Roller為指定固定IP地址,保證新集群部署完畢之后與現(xiàn)有資產(chǎn)表保持完全一致。后期運維同樣可以使用Roller靈活擴展集群規(guī)模。
此外,黑龍江電力云平臺實現(xiàn)了公司內(nèi)部IM平臺(合創(chuàng)圈)的自動化部署,運維人員僅需發(fā)送文字,即可實現(xiàn)交互完成部署。此外,方案中還運用了自動運維、巡檢腳本, 來定期設(shè)置與執(zhí)行運維任務(wù)。
OpenStack云計算監(jiān)控——業(yè)務(wù)連續(xù)性的保障
黑龍江電力方案中一旦物理機、OpenStack服務(wù)、或Ceph集群出現(xiàn)異常, Zabbix均能監(jiān)控到并自動報警. 將報警信息以短信、微信的形式發(fā)送到相關(guān)運維人員的手機上。通過與Zabbix監(jiān)控集成,實現(xiàn)現(xiàn)場大屏幕、指示燈,及自動化短信發(fā)送。
OpenStack安全
黑龍江電力對OpenStack安全是主要從權(quán)限管理和網(wǎng)絡(luò)安全管理來控制對云平臺安全的保證。實現(xiàn)對OpenStack各個組件之間的API調(diào)用進行身份識別;通過用戶,租戶或項目(角色控制服務(wù)消費者對各個服務(wù)資源的訪問權(quán)限。
此外,黑龍江電力還運用OpenStack實現(xiàn)三層分級賬戶權(quán)限管理, 為不同權(quán)限級別的用戶呈現(xiàn)不同的導(dǎo)航界面,支持每個業(yè)務(wù)項目組來部署與修改自己的虛機。
結(jié)語:電力+互聯(lián)網(wǎng) 擁抱云計算正當時
目前,黑龍江電力云計算平臺共計部署物理主機272臺,完成營銷系統(tǒng)、財務(wù)管控、PMS2.0、電力交易、GIS平臺等80%系統(tǒng)遷移。營銷系統(tǒng)已連續(xù)運行13個月,運行效率提升近30%,100%業(yè)務(wù)系統(tǒng)完成入云。
其中,營銷月結(jié)時計算時長從原12小時縮短到72分鐘,效率提升900%; 營銷系統(tǒng)合帳報表耗時從原1小時47分鐘縮短到4分鐘效率提升2575%;高峰頁面訪問響應(yīng)時長由6-8秒縮短至1-2秒,效率提升300%。
▲黑龍江電力云平臺系統(tǒng)遷移前后測試對比表
借電力云平臺的搭建,黑龍江電力還完成了Hadoop平臺搭建,實現(xiàn)離線數(shù)據(jù)分析;以在線統(tǒng)一日志分析平臺實現(xiàn)對服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、數(shù)據(jù)庫、系統(tǒng)中間件、權(quán)限管理系統(tǒng)、端設(shè)備的日志收集,及對即時通訊系統(tǒng)信息分析。
“十三五”期間,在云計算、大數(shù)據(jù)等相關(guān)技術(shù)的推動下,各行各業(yè)都在謀求變化,試圖構(gòu)建新的產(chǎn)業(yè)格局,占據(jù)產(chǎn)業(yè)發(fā)展的制高點的時機,而黑龍江電力敢為天下先,以創(chuàng)新的態(tài)度與穩(wěn)健的方式將電力核心業(yè)務(wù)系統(tǒng)與OpenStack云平臺+互聯(lián)網(wǎng)的結(jié)合,將會在電力系統(tǒng)中投映出更加璀璨的未來。