——來自2020人工智能與電力大數(shù)據(jù)論壇的智慧共享
11月11—12日,由中國電力發(fā)展促進會(以下簡稱“電促會”)和國家電網(wǎng)有限公司大數(shù)據(jù)中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據(jù)論壇”在京召開。
11日上午,百度知識圖譜部的主任研發(fā)架構(gòu)師宋勛超就《知識圖譜及其在電力業(yè)務中的應用》在論壇現(xiàn)場做了精彩的主題演講。
百度知識圖譜部的主任研發(fā)架構(gòu)師宋勛
演講實錄全文如下:
各位專家,各位領導,各位電力行業(yè)的同仁,大家早上好。我是來自百度知識圖譜部的主任研發(fā)架構(gòu)師宋勛超,很榮幸能夠在今天代表百度參加我們?nèi)斯ぶ悄芘c電力大數(shù)據(jù)論壇。我今天匯報演講的題目是從數(shù)據(jù)到知識,數(shù)據(jù)智能化的升級之路。
我們?nèi)祟惏l(fā)展到現(xiàn)在,已經(jīng)經(jīng)歷了三次科技革命。第一次科技革命將人類帶入了機械化時代,第二次科技革命將我們帶入了電氣化時代,第三次科技革命是信息化時代的科學革命。
目前,我們正處在第4次科技革命正在興起的時候,第4次科技革命其實就是人工智能的科技革命,人工智能的高速發(fā)展,已經(jīng)為新一輪的產(chǎn)業(yè)變革提供了重要的驅(qū)動力量。人工智能技術(shù)包括以語音、圖像、視頻、ARVR等為核心組成的感知層技術(shù),以及以語言和知識為核心的認知技術(shù)。語言和知識技術(shù)是人工智能的核心,它能夠像讓機器像人類一樣去掌握知識,理解語言,對于人工智能的發(fā)展至為重要,同時也是我們未來要實現(xiàn)通用人工智能所必須要具備的一個必要條件。
為什么這么說呢?讓我們的讓我們來簡單的回顧一下人工智能的發(fā)展和歷程。在人工智能接近60年的發(fā)展歷程里,我們一共經(jīng)歷了兩代的發(fā)展,目前正處在第三代的一個發(fā)展期。
第一代的人工智能,我們稱之為符號主義的人工智能。我們知道人工智能的三駕馬車分別是數(shù)據(jù)、算力和算法,在這個階段,人工智能依賴的是專家的經(jīng)驗和知識來去進行顯示的符號表示和邏輯推理,取出來模擬人類的一些智能行為,去解決一些推理規(guī)劃和決策類的問題。
一個具有代表意義的系統(tǒng)是IBM的國際象棋程序深藍,那么這個國際象棋程序在1997年打敗了國際象棋大師卡斯帕羅夫,然后我們認為第一代人工智能存在著一些質(zhì)的缺陷,例如專家知識稀缺昂貴,因為這一代人工智能系統(tǒng),它系統(tǒng)里面所承載的各種各樣的知識往往是需要去用專家的能力去人工構(gòu)建的。另外,這一代人工智能它所涵蓋的這個知識形態(tài)非常局限,如語言類的知識以及一些模糊類的知識,很難被這一代的人工智能系統(tǒng)所消化,因此它的應用范圍非常有限。
第二代人工智能,也就是大家目前所廣泛接觸到的基于深度學習的人工智能,這一代人工智能的特點最主要的特點就是數(shù)據(jù)驅(qū)動。在這一代人工智能系統(tǒng)里,往往不需要具備大量的領域知識,只要我們標注了足夠多的樣本數(shù)據(jù),人工智能就能夠被低成本的啟動,再加上目前我們的神經(jīng)網(wǎng)絡的規(guī)模越來越大,上一級的參數(shù)都是非常常見的,以及我們GPU算力的極大增強,使得這一代的人工智能技術(shù)呢能夠非常輕易的處理大數(shù)據(jù)。
但是,這一代人工智能技術(shù)依然有一些非常嚴重的局限性。首先基于神經(jīng)網(wǎng)絡的人工智能,它往往具有一個不可解釋性的這樣的一個特點。另外,我們知道數(shù)據(jù)驅(qū)動往往需要一些非常大規(guī)模的樣本來去支撐我們的模型訓練。
雖然現(xiàn)在有一些研究方向,比如說遷移學習、小樣本學習,能夠從一定程度上去解決這樣的行業(yè)大樣本,大量的標注樣本缺失的問題,但是他依然沒有能夠從本質(zhì)上解決這一代人工智能的一些本質(zhì)的缺陷,因此它依然是不易推廣的。
從第一代人工智能和第二代人工智能的成就看,我們aI經(jīng)濟進入了一個高速的發(fā)展期,我們現(xiàn)在稱之為第三代的人工智能,就是把第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動結(jié)合起來的新一代的人工智能。
在這個階段,人工智能的三要素除了數(shù)據(jù)算法和算例,還必須具備更為重要的第4大要素,也就是知識。目前,知識增強驅(qū)動的人工智能技術(shù)在非常多的領域已經(jīng)取得了一些比較好的成果,運用前景也非常廣泛,比如基于知識增強的多模態(tài)語音理解,基于知識增強的大規(guī)模預訓練語言模型等等。
第三代人工智能的一個終極目標,就是去真正的模擬人類的行為,讓人工智能系統(tǒng)不僅能夠接受數(shù)學,還要能夠掌握知識,可解釋督辦,安全可信可靠可擴展,以及基于人工智能去實現(xiàn)真正的推力與決策,是這一代人工智能的最主要的特點。
接下來,讓我們把目光從人工智能發(fā)展史聚焦到百度的人工智能技術(shù)。今年是百度搜索誕生的第20個年頭,百度發(fā)展人工智能技術(shù)也已經(jīng)有10年了,在過去的十年中,百度搜索引擎一直是各類人工技術(shù)凈化與落地的主戰(zhàn)場,而百度人工智能技術(shù)的發(fā)展和基礎,就是中國規(guī)模最大的互聯(lián)網(wǎng)大數(shù)據(jù)。
目前,百度已經(jīng)擁有萬億互聯(lián)網(wǎng)的網(wǎng)頁內(nèi)容,其中包括百億級的視頻、音頻圖像和定位數(shù)據(jù),我們匯聚了海量用戶的互聯(lián)網(wǎng)行為數(shù)據(jù),深度挖掘了30余個垂直行業(yè),360度的去刻畫用戶的屬性,積累了10億級的用戶的精準畫像,讓我們每天響應數(shù)10億次的網(wǎng)民訴訟請求。
在數(shù)據(jù)總量層面,整個百度擁有數(shù)十萬臺的服務器和一b加級的這個數(shù)據(jù)存儲,在我們服務于中國10億級網(wǎng)民的搜索引擎這個產(chǎn)品中,我們已經(jīng)初步實現(xiàn)了數(shù)據(jù)到知識的轉(zhuǎn)化,以及基于大數(shù)據(jù)的智能化應用,基于這個規(guī)模最大的互聯(lián)網(wǎng)大數(shù)據(jù),我們構(gòu)建了世界上規(guī)模最大的中文知識圖譜,除了通用的實體圖譜,我們還針對不同的應用場景,以及不同的知識形態(tài),構(gòu)建了關(guān)注點圖,并且實現(xiàn)了多元的異構(gòu)互聯(lián)。
同時通過持續(xù)的獲取知識和積累知識,百度大腦的理解能力和智能化水平也在不斷的升級,從而更好的支撐不同的應用場景。那么我們是依靠什么技術(shù)來去驅(qū)動百度大數(shù)據(jù)的智能化升級呢?這里我想簡要的介紹一下百度知識中臺,百度指數(shù)中臺源于知識圖譜,這個曲線呢展示了知識圖譜,從2012年百度開始研究到現(xiàn)在的一個發(fā)展的歷程。那么截止到目前,我們百度的知識圖譜已經(jīng)積累了50億的實體,5500億的事實,日均響應400億次的請求。
那么行業(yè)客戶為什么需要知識中臺,或者說數(shù)據(jù)到知識的轉(zhuǎn)換,能夠給行業(yè)客戶帶來一些什么樣的價值。其實知識中臺的提出是基于一個各行各業(yè),在大數(shù)據(jù)的智能化應用中普遍面臨的一個挑戰(zhàn),就是要就是高如何高效的沉淀與利用知識。
這些挑戰(zhàn)主要體現(xiàn)在以下4個層面,第一個層面是知識生產(chǎn),行業(yè)大數(shù)據(jù)中往往蘊含著非常多的海量的隱性知識,這些隱性知識非結(jié)構(gòu)化率非常高,從數(shù)據(jù)中去用人工梳理出這些知識成本高效率低。
第二個層面是知識組織,行業(yè)大數(shù)據(jù)往往面臨著系統(tǒng)分制、碎片化和孤島化的一些現(xiàn)狀,數(shù)據(jù)的形態(tài)單一,難以直接的去表達業(yè)務的邏輯。
第三個層面是知識獲取,我們直接的從數(shù)據(jù)出發(fā),內(nèi)容缺乏理解,信息的獲取效率往往是非常低下的。
最后的層面是智能化應用,簡單的依賴傳統(tǒng)的大數(shù)據(jù)技術(shù),已經(jīng)在很多的智能化的應用方向遇到了一些瓶頸,它的本質(zhì)原因其實是數(shù)據(jù)的深層表達能力的缺失,因此行業(yè)急需一套面向企業(yè)全生命周期的解決方案。
百度知識中臺就是這樣一款覆蓋企業(yè)支持全生命周期的解決方案。所謂的知識全生命周期就是指知識生產(chǎn)、知識組織、知識獲取和知識應用,它涵蓋了企業(yè)內(nèi)多種模態(tài)的數(shù)據(jù),包括了用戶數(shù)據(jù)、內(nèi)容數(shù)據(jù)和數(shù)值數(shù)據(jù)。這些類型的數(shù)據(jù)涵蓋了我們傳統(tǒng)大數(shù)據(jù)類型的各個方面,同時它提供多場景層次的知識應用能力,比如搜索能力,分析能力和更為高級的決策能力,最終助力企業(yè)去匯聚數(shù)據(jù)凝練知識復能業(yè)務,提升企業(yè)的核心競爭力。
百度知識中臺從技術(shù)層面可以下接企業(yè)的數(shù)據(jù)中臺,能夠接入企業(yè)數(shù)據(jù)中臺中所蘊含的海量結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化數(shù)據(jù)。在基礎技術(shù)層面,能獲得百度在人工智能的多項核心積累,包括了知識圖譜技術(shù),自然語言處理技術(shù),語音技術(shù)、圖像技術(shù),然后以及和傳統(tǒng)大數(shù)據(jù)息息相關(guān)的數(shù)據(jù)科學技術(shù)。在產(chǎn)品舉證層面,能夠直接向企業(yè)客戶提供三個標準化的產(chǎn)品,分別是企業(yè)搜索智能知識庫和知識圖譜決策引擎。
這三個標準化產(chǎn)品可以由淺入深的滿足企業(yè)不同場景,不同層次的知識體系構(gòu)建與智能化的應用需求。從2018年到2020年,,兩年來我們已經(jīng)賦能了眾多的行業(yè),比如說在金融行業(yè),我們?nèi)プ鲋悄芸头L控管理,在醫(yī)療行業(yè),我們基于知識中臺去做醫(yī)療臨床輔助決策和病案指控,在媒體行業(yè)我們基于知識中臺去做輔助創(chuàng)作和內(nèi)容生產(chǎn),還有政務、教育、司法、辦公,其中自然包括最近一年我們重點投入的能源和電力行業(yè)。
目前,能源和電力行業(yè)正處在一個大數(shù)據(jù)智能應用化的一個轉(zhuǎn)型的一個變革期。我們認為,相比于其他行業(yè),能源和電力行業(yè)在沉淀知識這個層面面臨著更艱巨的挑戰(zhàn)。
首先,是能源行業(yè)數(shù)據(jù)體驗,單系統(tǒng)Pb級的數(shù)據(jù)非常常見,以南方電網(wǎng)為例,就是Pb級的數(shù)據(jù)系統(tǒng)有10余個,在和百度共建的這個非結(jié)構(gòu)化數(shù)據(jù)平臺中,我們已經(jīng)目前承載了百Pb級的這個數(shù)據(jù)。
其次,是數(shù)據(jù)種類非常多,能源行業(yè)的這個業(yè)務形態(tài)非常專業(yè),而且知識形態(tài)會更加復雜,數(shù)據(jù)形態(tài)有各種邊緣設備所產(chǎn)生出的這個數(shù)據(jù)數(shù)據(jù),還有各種業(yè)務文檔,長期積累的這個海量的文本數(shù)據(jù),還有企業(yè)在用戶和管理經(jīng)營的過程中所產(chǎn)生的運營數(shù)據(jù),最后還有非常多的音頻圖片和視頻等多模態(tài)數(shù)據(jù),而這些體量大種類多的數(shù)據(jù)利用率是非常低的,因為其本質(zhì)原因就是行業(yè)尤其是能源電力行業(yè),缺乏一套知識體系建設和智能化應用的解決方案。
目前,我國大數(shù)據(jù)的整體利用率只有0.4%,大數(shù)據(jù)的價值急需被知識化的沉淀和利用。有電網(wǎng)專家分析稱,每當大數(shù)據(jù)的利用率提高10%,我們就能夠使電網(wǎng)的利潤率提高20%~50%。因此,數(shù)據(jù)知識化的潛在經(jīng)濟效益是非常大的。
能源電力行業(yè)的應用范圍業(yè)務范圍非常廣,我們覆蓋到了電力的發(fā)輸電配用這5大環(huán)節(jié),因此對于知識應用的能力層級和覆蓋度也提出了更高的要求。我們認為,與能源電力行業(yè)相比,其他行業(yè)更需要在數(shù)據(jù)中臺之上去建立知識中臺,來助力企業(yè)實現(xiàn)大數(shù)據(jù)智能化應用的一個轉(zhuǎn)型,實現(xiàn)由淺入深三個層次的智慧化電力能源應用。
基于智能知識庫,我們可以解決業(yè)務檢索咨詢、電力問答機器人、電力資產(chǎn)管理等類型的業(yè)務應用,以及基于更加高級的圖譜決策引擎,我們可以深入到電力業(yè)務的本質(zhì)去解決故障,我們現(xiàn)在不在公司啊電力智能調(diào)度等等形態(tài)的這個業(yè)務應用。
總結(jié)起來,能源電力知識中臺的業(yè)務價值主要體現(xiàn)在以下4個層面,提煉知識價值,打破數(shù)據(jù)孤島,降低維護成本和提升運營效率。
下面,我和大家分享三個過去一年中我們在能源電力行業(yè)的一些實踐案例,這三個案例分別體現(xiàn)了知識中臺的三個標準化產(chǎn)品,在企業(yè)知識體系建設與智能化應用中發(fā)揮的重要價值。同時,它也印證了從數(shù)據(jù)到知識的轉(zhuǎn)化,能夠給我們企業(yè)所帶來的效益的三個非常經(jīng)典的案例。
第一個案例是依托企業(yè)搜索,打造南方電網(wǎng)的自搜。依托知識中臺的核心能力,我們助力南網(wǎng)集團公司實現(xiàn)了全業(yè)務全類型和是探全時態(tài)數(shù)據(jù)和信息的精準查詢便捷獲取,這已經(jīng)在今年7月成功上線。
在這個項目中,通過系統(tǒng)性的資源建設中,引入了包括業(yè)務數(shù)據(jù)、辦公信息、資產(chǎn)信息、材料協(xié)同、行業(yè)資訊、內(nèi)容運營等6大數(shù)據(jù)源的數(shù)據(jù),并且對這引入的6大數(shù)據(jù)源的數(shù)據(jù)進行了非常系統(tǒng)的知識生產(chǎn),知識構(gòu)建和知識應用,服務的人群滿足了全集團員工辦公和業(yè)務搜索的需求。截止到目前,全系統(tǒng)的知識化數(shù)據(jù)量已經(jīng)達到4億家,然后集團內(nèi)累計用戶搜索次數(shù)1616萬。
第二個案例,是借助智能知識庫來去實現(xiàn)電力投資項目管理分析。智能知識庫體現(xiàn)了一個超越搜索的直接知識滿足能力。這背后依托的基礎就是這種知識平臺的技術(shù),能夠在智能問答的層面給大家提供更加便利的搜索體驗。
目前百度在搜索產(chǎn)品中,所謂的直接滿足率已經(jīng)達到百分之五十七,在這個項目中,我們就是將這一系列技術(shù),運用到了企業(yè)的電力投資項目管理分析的應用過程中?;谶@個產(chǎn)品,我們將集團內(nèi)發(fā)電、環(huán)保、金融等10余個核心的業(yè)務系統(tǒng)來去進行一個知識互聯(lián)化,打破數(shù)據(jù)的隔離壁壘,大幅度的提升了集團投資管理效率,降低了這個項目的系統(tǒng)性風險。
具體而言,在這個項目中,基于支持中臺的電力管理投資知識庫呢對接集團的大數(shù)據(jù)平臺,融合了集團50%以上的這個業(yè)務系統(tǒng),提供了投資風險分析、項目運營提報、電力客戶營銷和可視化關(guān)聯(lián)統(tǒng)計等等知識應用能力,全系統(tǒng)的知識問答覆蓋率達到80%以上,知識問答的準確率在98%以上。
最后一個案例,是基于圖譜決策引擎來去實現(xiàn)核電設備的故障分析,這是基于知識直接去進行業(yè)務的輔助決策的一種形態(tài)。在這個項目中初步?jīng)Q策引擎,將數(shù)據(jù)運營中心中的多種數(shù)據(jù),包括了結(jié)構(gòu)化的數(shù)據(jù)和無結(jié)構(gòu)化的數(shù)據(jù),去進行一個系統(tǒng)化的知識圖譜的構(gòu)建,形成了千萬級別的設備知識圖譜,能夠支持上百種的故障分析和診斷模式,為一線操作人員去秒級別的提供故障根因分析與操作步驟建立,從而達成沉淀與傳承一線操作人員的經(jīng)驗知識,顯著的降低設備誤診率與處理時長,大幅提升現(xiàn)場運維處理效能的目標。
最后,結(jié)合人工智能最新的發(fā)展趨勢,以及我們對行業(yè)需求的洞察,我們認為深度挖掘大數(shù)據(jù)的價值,將數(shù)據(jù)到知識的信息的轉(zhuǎn)化,進一步的沉淀為人工智能系統(tǒng)所能消費的知識,是普世性的支持各類人工智能應用目前所最需要攻克的一個難題。
以上就是我今天分享的全部內(nèi)容,未來百度知識中臺愿意攜手更多的能源電力客戶與伙伴,用知識來助力電力行業(yè)實現(xiàn)智能化的轉(zhuǎn)型,謝謝大家。
(根據(jù)速記整理,未經(jīng)嘉賓審核)
評論