當前位置: 首頁 > 能源互聯(lián)網(wǎng) > 市場研究

從數(shù)據(jù)到知識——數(shù)據(jù)智能化的升級之路

中國電力網(wǎng)發(fā)布時間:2020-11-18 16:59:14

 

——來自2020人工智能與電力大數(shù)據(jù)論壇的智慧共享

  11月11—12日,由中國電力發(fā)展促進會(以下簡稱“電促會”)和國家電網(wǎng)有限公司大數(shù)據(jù)中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據(jù)論壇”在京召開。

  11日上午,百度知識圖譜部的主任研發(fā)架構(gòu)師宋勛超就《知識圖譜及其在電力業(yè)務中的應用》在論壇現(xiàn)場做了精彩的主題演講。


百度知識圖譜部的主任研發(fā)架構(gòu)師宋勛

  演講實錄全文如下:

  各位專家,各位領導,各位電力行業(yè)的同仁,大家早上好。我是來自百度知識圖譜部的主任研發(fā)架構(gòu)師宋勛超,很榮幸能夠在今天代表百度參加我們?nèi)斯ぶ悄芘c電力大數(shù)據(jù)論壇。我今天匯報演講的題目是從數(shù)據(jù)到知識,數(shù)據(jù)智能化的升級之路。

  我們?nèi)祟惏l(fā)展到現(xiàn)在,已經(jīng)經(jīng)歷了三次科技革命。第一次科技革命將人類帶入了機械化時代,第二次科技革命將我們帶入了電氣化時代,第三次科技革命是信息化時代的科學革命。

  目前,我們正處在第4次科技革命正在興起的時候,第4次科技革命其實就是人工智能的科技革命,人工智能的高速發(fā)展,已經(jīng)為新一輪的產(chǎn)業(yè)變革提供了重要的驅(qū)動力量。人工智能技術(shù)包括以語音、圖像、視頻、ARVR等為核心組成的感知層技術(shù),以及以語言和知識為核心的認知技術(shù)。語言和知識技術(shù)是人工智能的核心,它能夠像讓機器像人類一樣去掌握知識,理解語言,對于人工智能的發(fā)展至為重要,同時也是我們未來要實現(xiàn)通用人工智能所必須要具備的一個必要條件。

  為什么這么說呢?讓我們的讓我們來簡單的回顧一下人工智能的發(fā)展和歷程。在人工智能接近60年的發(fā)展歷程里,我們一共經(jīng)歷了兩代的發(fā)展,目前正處在第三代的一個發(fā)展期。

  第一代的人工智能,我們稱之為符號主義的人工智能。我們知道人工智能的三駕馬車分別是數(shù)據(jù)、算力和算法,在這個階段,人工智能依賴的是專家的經(jīng)驗和知識來去進行顯示的符號表示和邏輯推理,取出來模擬人類的一些智能行為,去解決一些推理規(guī)劃和決策類的問題。

  一個具有代表意義的系統(tǒng)是IBM的國際象棋程序深藍,那么這個國際象棋程序在1997年打敗了國際象棋大師卡斯帕羅夫,然后我們認為第一代人工智能存在著一些質(zhì)的缺陷,例如專家知識稀缺昂貴,因為這一代人工智能系統(tǒng),它系統(tǒng)里面所承載的各種各樣的知識往往是需要去用專家的能力去人工構(gòu)建的。另外,這一代人工智能它所涵蓋的這個知識形態(tài)非常局限,如語言類的知識以及一些模糊類的知識,很難被這一代的人工智能系統(tǒng)所消化,因此它的應用范圍非常有限。

  第二代人工智能,也就是大家目前所廣泛接觸到的基于深度學習的人工智能,這一代人工智能的特點最主要的特點就是數(shù)據(jù)驅(qū)動。在這一代人工智能系統(tǒng)里,往往不需要具備大量的領域知識,只要我們標注了足夠多的樣本數(shù)據(jù),人工智能就能夠被低成本的啟動,再加上目前我們的神經(jīng)網(wǎng)絡的規(guī)模越來越大,上一級的參數(shù)都是非常常見的,以及我們GPU算力的極大增強,使得這一代的人工智能技術(shù)呢能夠非常輕易的處理大數(shù)據(jù)。

  但是,這一代人工智能技術(shù)依然有一些非常嚴重的局限性。首先基于神經(jīng)網(wǎng)絡的人工智能,它往往具有一個不可解釋性的這樣的一個特點。另外,我們知道數(shù)據(jù)驅(qū)動往往需要一些非常大規(guī)模的樣本來去支撐我們的模型訓練。

  雖然現(xiàn)在有一些研究方向,比如說遷移學習、小樣本學習,能夠從一定程度上去解決這樣的行業(yè)大樣本,大量的標注樣本缺失的問題,但是他依然沒有能夠從本質(zhì)上解決這一代人工智能的一些本質(zhì)的缺陷,因此它依然是不易推廣的。

  從第一代人工智能和第二代人工智能的成就看,我們aI經(jīng)濟進入了一個高速的發(fā)展期,我們現(xiàn)在稱之為第三代的人工智能,就是把第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動結(jié)合起來的新一代的人工智能。

  在這個階段,人工智能的三要素除了數(shù)據(jù)算法和算例,還必須具備更為重要的第4大要素,也就是知識。目前,知識增強驅(qū)動的人工智能技術(shù)在非常多的領域已經(jīng)取得了一些比較好的成果,運用前景也非常廣泛,比如基于知識增強的多模態(tài)語音理解,基于知識增強的大規(guī)模預訓練語言模型等等。

  第三代人工智能的一個終極目標,就是去真正的模擬人類的行為,讓人工智能系統(tǒng)不僅能夠接受數(shù)學,還要能夠掌握知識,可解釋督辦,安全可信可靠可擴展,以及基于人工智能去實現(xiàn)真正的推力與決策,是這一代人工智能的最主要的特點。

  接下來,讓我們把目光從人工智能發(fā)展史聚焦到百度的人工智能技術(shù)。今年是百度搜索誕生的第20個年頭,百度發(fā)展人工智能技術(shù)也已經(jīng)有10年了,在過去的十年中,百度搜索引擎一直是各類人工技術(shù)凈化與落地的主戰(zhàn)場,而百度人工智能技術(shù)的發(fā)展和基礎,就是中國規(guī)模最大的互聯(lián)網(wǎng)大數(shù)據(jù)。

  目前,百度已經(jīng)擁有萬億互聯(lián)網(wǎng)的網(wǎng)頁內(nèi)容,其中包括百億級的視頻、音頻圖像和定位數(shù)據(jù),我們匯聚了海量用戶的互聯(lián)網(wǎng)行為數(shù)據(jù),深度挖掘了30余個垂直行業(yè),360度的去刻畫用戶的屬性,積累了10億級的用戶的精準畫像,讓我們每天響應數(shù)10億次的網(wǎng)民訴訟請求。

  在數(shù)據(jù)總量層面,整個百度擁有數(shù)十萬臺的服務器和一b加級的這個數(shù)據(jù)存儲,在我們服務于中國10億級網(wǎng)民的搜索引擎這個產(chǎn)品中,我們已經(jīng)初步實現(xiàn)了數(shù)據(jù)到知識的轉(zhuǎn)化,以及基于大數(shù)據(jù)的智能化應用,基于這個規(guī)模最大的互聯(lián)網(wǎng)大數(shù)據(jù),我們構(gòu)建了世界上規(guī)模最大的中文知識圖譜,除了通用的實體圖譜,我們還針對不同的應用場景,以及不同的知識形態(tài),構(gòu)建了關(guān)注點圖,并且實現(xiàn)了多元的異構(gòu)互聯(lián)。

  同時通過持續(xù)的獲取知識和積累知識,百度大腦的理解能力和智能化水平也在不斷的升級,從而更好的支撐不同的應用場景。那么我們是依靠什么技術(shù)來去驅(qū)動百度大數(shù)據(jù)的智能化升級呢?這里我想簡要的介紹一下百度知識中臺,百度指數(shù)中臺源于知識圖譜,這個曲線呢展示了知識圖譜,從2012年百度開始研究到現(xiàn)在的一個發(fā)展的歷程。那么截止到目前,我們百度的知識圖譜已經(jīng)積累了50億的實體,5500億的事實,日均響應400億次的請求。

  那么行業(yè)客戶為什么需要知識中臺,或者說數(shù)據(jù)到知識的轉(zhuǎn)換,能夠給行業(yè)客戶帶來一些什么樣的價值。其實知識中臺的提出是基于一個各行各業(yè),在大數(shù)據(jù)的智能化應用中普遍面臨的一個挑戰(zhàn),就是要就是高如何高效的沉淀與利用知識。

  這些挑戰(zhàn)主要體現(xiàn)在以下4個層面,第一個層面是知識生產(chǎn),行業(yè)大數(shù)據(jù)中往往蘊含著非常多的海量的隱性知識,這些隱性知識非結(jié)構(gòu)化率非常高,從數(shù)據(jù)中去用人工梳理出這些知識成本高效率低。

  第二個層面是知識組織,行業(yè)大數(shù)據(jù)往往面臨著系統(tǒng)分制、碎片化和孤島化的一些現(xiàn)狀,數(shù)據(jù)的形態(tài)單一,難以直接的去表達業(yè)務的邏輯。

  第三個層面是知識獲取,我們直接的從數(shù)據(jù)出發(fā),內(nèi)容缺乏理解,信息的獲取效率往往是非常低下的。

  最后的層面是智能化應用,簡單的依賴傳統(tǒng)的大數(shù)據(jù)技術(shù),已經(jīng)在很多的智能化的應用方向遇到了一些瓶頸,它的本質(zhì)原因其實是數(shù)據(jù)的深層表達能力的缺失,因此行業(yè)急需一套面向企業(yè)全生命周期的解決方案。

  百度知識中臺就是這樣一款覆蓋企業(yè)支持全生命周期的解決方案。所謂的知識全生命周期就是指知識生產(chǎn)、知識組織、知識獲取和知識應用,它涵蓋了企業(yè)內(nèi)多種模態(tài)的數(shù)據(jù),包括了用戶數(shù)據(jù)、內(nèi)容數(shù)據(jù)和數(shù)值數(shù)據(jù)。這些類型的數(shù)據(jù)涵蓋了我們傳統(tǒng)大數(shù)據(jù)類型的各個方面,同時它提供多場景層次的知識應用能力,比如搜索能力,分析能力和更為高級的決策能力,最終助力企業(yè)去匯聚數(shù)據(jù)凝練知識復能業(yè)務,提升企業(yè)的核心競爭力。

  百度知識中臺從技術(shù)層面可以下接企業(yè)的數(shù)據(jù)中臺,能夠接入企業(yè)數(shù)據(jù)中臺中所蘊含的海量結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化數(shù)據(jù)。在基礎技術(shù)層面,能獲得百度在人工智能的多項核心積累,包括了知識圖譜技術(shù),自然語言處理技術(shù),語音技術(shù)、圖像技術(shù),然后以及和傳統(tǒng)大數(shù)據(jù)息息相關(guān)的數(shù)據(jù)科學技術(shù)。在產(chǎn)品舉證層面,能夠直接向企業(yè)客戶提供三個標準化的產(chǎn)品,分別是企業(yè)搜索智能知識庫和知識圖譜決策引擎。

  這三個標準化產(chǎn)品可以由淺入深的滿足企業(yè)不同場景,不同層次的知識體系構(gòu)建與智能化的應用需求。從2018年到2020年,,兩年來我們已經(jīng)賦能了眾多的行業(yè),比如說在金融行業(yè),我們?nèi)プ鲋悄芸头L控管理,在醫(yī)療行業(yè),我們基于知識中臺去做醫(yī)療臨床輔助決策和病案指控,在媒體行業(yè)我們基于知識中臺去做輔助創(chuàng)作和內(nèi)容生產(chǎn),還有政務、教育、司法、辦公,其中自然包括最近一年我們重點投入的能源和電力行業(yè)。

  目前,能源和電力行業(yè)正處在一個大數(shù)據(jù)智能應用化的一個轉(zhuǎn)型的一個變革期。我們認為,相比于其他行業(yè),能源和電力行業(yè)在沉淀知識這個層面面臨著更艱巨的挑戰(zhàn)。

  首先,是能源行業(yè)數(shù)據(jù)體驗,單系統(tǒng)Pb級的數(shù)據(jù)非常常見,以南方電網(wǎng)為例,就是Pb級的數(shù)據(jù)系統(tǒng)有10余個,在和百度共建的這個非結(jié)構(gòu)化數(shù)據(jù)平臺中,我們已經(jīng)目前承載了百Pb級的這個數(shù)據(jù)。

  其次,是數(shù)據(jù)種類非常多,能源行業(yè)的這個業(yè)務形態(tài)非常專業(yè),而且知識形態(tài)會更加復雜,數(shù)據(jù)形態(tài)有各種邊緣設備所產(chǎn)生出的這個數(shù)據(jù)數(shù)據(jù),還有各種業(yè)務文檔,長期積累的這個海量的文本數(shù)據(jù),還有企業(yè)在用戶和管理經(jīng)營的過程中所產(chǎn)生的運營數(shù)據(jù),最后還有非常多的音頻圖片和視頻等多模態(tài)數(shù)據(jù),而這些體量大種類多的數(shù)據(jù)利用率是非常低的,因為其本質(zhì)原因就是行業(yè)尤其是能源電力行業(yè),缺乏一套知識體系建設和智能化應用的解決方案。

  目前,我國大數(shù)據(jù)的整體利用率只有0.4%,大數(shù)據(jù)的價值急需被知識化的沉淀和利用。有電網(wǎng)專家分析稱,每當大數(shù)據(jù)的利用率提高10%,我們就能夠使電網(wǎng)的利潤率提高20%~50%。因此,數(shù)據(jù)知識化的潛在經(jīng)濟效益是非常大的。

  能源電力行業(yè)的應用范圍業(yè)務范圍非常廣,我們覆蓋到了電力的發(fā)輸電配用這5大環(huán)節(jié),因此對于知識應用的能力層級和覆蓋度也提出了更高的要求。我們認為,與能源電力行業(yè)相比,其他行業(yè)更需要在數(shù)據(jù)中臺之上去建立知識中臺,來助力企業(yè)實現(xiàn)大數(shù)據(jù)智能化應用的一個轉(zhuǎn)型,實現(xiàn)由淺入深三個層次的智慧化電力能源應用。

  基于智能知識庫,我們可以解決業(yè)務檢索咨詢、電力問答機器人、電力資產(chǎn)管理等類型的業(yè)務應用,以及基于更加高級的圖譜決策引擎,我們可以深入到電力業(yè)務的本質(zhì)去解決故障,我們現(xiàn)在不在公司啊電力智能調(diào)度等等形態(tài)的這個業(yè)務應用。

  總結(jié)起來,能源電力知識中臺的業(yè)務價值主要體現(xiàn)在以下4個層面,提煉知識價值,打破數(shù)據(jù)孤島,降低維護成本和提升運營效率。

  下面,我和大家分享三個過去一年中我們在能源電力行業(yè)的一些實踐案例,這三個案例分別體現(xiàn)了知識中臺的三個標準化產(chǎn)品,在企業(yè)知識體系建設與智能化應用中發(fā)揮的重要價值。同時,它也印證了從數(shù)據(jù)到知識的轉(zhuǎn)化,能夠給我們企業(yè)所帶來的效益的三個非常經(jīng)典的案例。

  第一個案例是依托企業(yè)搜索,打造南方電網(wǎng)的自搜。依托知識中臺的核心能力,我們助力南網(wǎng)集團公司實現(xiàn)了全業(yè)務全類型和是探全時態(tài)數(shù)據(jù)和信息的精準查詢便捷獲取,這已經(jīng)在今年7月成功上線。

  在這個項目中,通過系統(tǒng)性的資源建設中,引入了包括業(yè)務數(shù)據(jù)、辦公信息、資產(chǎn)信息、材料協(xié)同、行業(yè)資訊、內(nèi)容運營等6大數(shù)據(jù)源的數(shù)據(jù),并且對這引入的6大數(shù)據(jù)源的數(shù)據(jù)進行了非常系統(tǒng)的知識生產(chǎn),知識構(gòu)建和知識應用,服務的人群滿足了全集團員工辦公和業(yè)務搜索的需求。截止到目前,全系統(tǒng)的知識化數(shù)據(jù)量已經(jīng)達到4億家,然后集團內(nèi)累計用戶搜索次數(shù)1616萬。

  第二個案例,是借助智能知識庫來去實現(xiàn)電力投資項目管理分析。智能知識庫體現(xiàn)了一個超越搜索的直接知識滿足能力。這背后依托的基礎就是這種知識平臺的技術(shù),能夠在智能問答的層面給大家提供更加便利的搜索體驗。

  目前百度在搜索產(chǎn)品中,所謂的直接滿足率已經(jīng)達到百分之五十七,在這個項目中,我們就是將這一系列技術(shù),運用到了企業(yè)的電力投資項目管理分析的應用過程中?;谶@個產(chǎn)品,我們將集團內(nèi)發(fā)電、環(huán)保、金融等10余個核心的業(yè)務系統(tǒng)來去進行一個知識互聯(lián)化,打破數(shù)據(jù)的隔離壁壘,大幅度的提升了集團投資管理效率,降低了這個項目的系統(tǒng)性風險。

  具體而言,在這個項目中,基于支持中臺的電力管理投資知識庫呢對接集團的大數(shù)據(jù)平臺,融合了集團50%以上的這個業(yè)務系統(tǒng),提供了投資風險分析、項目運營提報、電力客戶營銷和可視化關(guān)聯(lián)統(tǒng)計等等知識應用能力,全系統(tǒng)的知識問答覆蓋率達到80%以上,知識問答的準確率在98%以上。

  最后一個案例,是基于圖譜決策引擎來去實現(xiàn)核電設備的故障分析,這是基于知識直接去進行業(yè)務的輔助決策的一種形態(tài)。在這個項目中初步?jīng)Q策引擎,將數(shù)據(jù)運營中心中的多種數(shù)據(jù),包括了結(jié)構(gòu)化的數(shù)據(jù)和無結(jié)構(gòu)化的數(shù)據(jù),去進行一個系統(tǒng)化的知識圖譜的構(gòu)建,形成了千萬級別的設備知識圖譜,能夠支持上百種的故障分析和診斷模式,為一線操作人員去秒級別的提供故障根因分析與操作步驟建立,從而達成沉淀與傳承一線操作人員的經(jīng)驗知識,顯著的降低設備誤診率與處理時長,大幅提升現(xiàn)場運維處理效能的目標。

  最后,結(jié)合人工智能最新的發(fā)展趨勢,以及我們對行業(yè)需求的洞察,我們認為深度挖掘大數(shù)據(jù)的價值,將數(shù)據(jù)到知識的信息的轉(zhuǎn)化,進一步的沉淀為人工智能系統(tǒng)所能消費的知識,是普世性的支持各類人工智能應用目前所最需要攻克的一個難題。

  以上就是我今天分享的全部內(nèi)容,未來百度知識中臺愿意攜手更多的能源電力客戶與伙伴,用知識來助力電力行業(yè)實現(xiàn)智能化的轉(zhuǎn)型,謝謝大家。

  (根據(jù)速記整理,未經(jīng)嘉賓審核)

評論

用戶名:   匿名發(fā)表  
密碼:  
驗證碼:
最新評論0

相關(guān)閱讀

天津電力公司與天津市生態(tài)環(huán)境局應用電力大數(shù)據(jù)助津城防治污染

11月13日,國網(wǎng)天津市電力公司與天津市生態(tài)環(huán)境局簽署電力大數(shù)據(jù)助力打好污染防治攻堅戰(zhàn)戰(zhàn)略合作協(xié)議,通過“環(huán)保+電力大數(shù)據(jù)”模式,共同打好污染防治攻堅戰(zhàn),助力天津綠色高質(zhì)量發(fā)展。

建設電力大數(shù)據(jù)平臺 共抓長江大保護生態(tài)

最近,國網(wǎng)南京供電公司與南京市生態(tài)環(huán)境局聯(lián)手,借助電網(wǎng)中臺雙數(shù)據(jù)資源,提取1.7萬家有“散亂污”記錄的企業(yè)名單典型標簽,開展無監(jiān)督k-means聚類分析,分析這些企業(yè)用電的行為特征,并進行客戶“畫像”,為城市發(fā)展提供更好的服務與保障,助力打贏“長江大保護攻堅戰(zhàn)”。
言論觀點2020-11-17
加速電力數(shù)字新基建 ATEN出席2020人工智能與電力大數(shù)據(jù)論壇

加速電力數(shù)字新基建 ATEN出席2020人工智能與電力大數(shù)據(jù)論壇

ATEN作為智慧連接解決方應用的領導廠商,基于對電力行業(yè)未來趨勢走向的洞察,以及運維中存在的痛點難點做了深入的分析后,以“技術(shù)交流+成果展示”的方式向在場來賓展示分享了針對電力行業(yè)所制定的智能化運維解決方案與成功案例。

服務數(shù)字“新基建” 促進電力新發(fā)展 2020人工智能與電力大數(shù)據(jù)論

?近年來,以大數(shù)據(jù)和人工智能為代表的新一代信息技術(shù)發(fā)展日新月異,在能源革命與數(shù)字革命融合發(fā)展背景下,成為電力行業(yè)企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐,在數(shù)字經(jīng)濟發(fā)展和數(shù)字中國建設
重要新聞2020-11-12

國網(wǎng)信通產(chǎn)業(yè)集團大數(shù)據(jù)研究項目榮獲“2020年電力大數(shù)據(jù)優(yōu)秀應用

由國網(wǎng)信通產(chǎn)業(yè)集團信通埃森哲申報的項目成果——“電能質(zhì)量大數(shù)據(jù)分析關(guān)鍵技術(shù)研究及應用”,榮獲“2020年電力大數(shù)據(jù)優(yōu)秀應用創(chuàng)新成果獎”一等獎。
新聞2020-11-12
大咖云集,智慧共享,“2020人工智能與電力大數(shù)據(jù)論壇”在京召開

大咖云集,智慧共享,“2020人工智能與電力大數(shù)據(jù)論壇”在京召開

11月11日,由中國電力發(fā)展促進會(以下簡稱“電促會”)和國家電網(wǎng)有限公司大數(shù)據(jù)中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據(jù)論壇” 在京都信苑飯店召開。
重要新聞2020-11-11

國網(wǎng)沭陽縣供電公司應用電力大數(shù)據(jù)協(xié)助人口普查工作

11月9日,正在沭陽縣城區(qū)長江家園小區(qū)進行人口普查員小王高興地對國網(wǎng)沭陽縣供電公司員工徐偉說道。
綜合新聞2020-11-11
2020人工智能與電力大數(shù)據(jù)論壇正式拉開帷幕

2020人工智能與電力大數(shù)據(jù)論壇正式拉開帷幕

由中國電力發(fā)展促進會(下稱“電促會”)和國家電網(wǎng)有限公司大數(shù)據(jù)中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據(jù)論壇”將于11月11日在京召開。本次論壇將以“服務數(shù)字新基建,促進電力新發(fā)展”為主題展開交流研討,主旨在于加快推動大數(shù)據(jù)與人工智能在電力行業(yè)的應用步伐。
重要新聞2020-11-06

未來已來!2020人工智能與電力大數(shù)據(jù)論壇即將上線

中國電力網(wǎng)(微信公眾號:China_Power_com_cn)獲悉,由中國電力發(fā)展促進會(下稱“電促會”)和國家電網(wǎng)有限公司大數(shù)據(jù)中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據(jù)論
焦點頭條2020-11-06

國網(wǎng)甘肅電力發(fā)揮電力大數(shù)據(jù)精準到戶、實時采集等優(yōu)勢

10月27日,甘肅省統(tǒng)計局給國網(wǎng)甘肅省電力公司發(fā)來感謝信,感謝該公司通過電力大數(shù)據(jù)對全省居民住房空置情況開展的專題分析。該公司從多維度有針對性地分析了省內(nèi)居民房屋空置情況,為省統(tǒng)計局下一步分析預判全省房地產(chǎn)開發(fā)投資提供了重要參考。