2020年5月13日,國家17個部門以及互聯(lián)網(wǎng)平臺、行業(yè)龍頭企業(yè)、金融機構(gòu)等145家單位,共同啟動“數(shù)字化轉(zhuǎn)型伙伴行動”,以加快各行業(yè)各領(lǐng)域數(shù)字化轉(zhuǎn)型,幫扶中小微企業(yè)渡過難關(guān)和轉(zhuǎn)型發(fā)展。
圖1 數(shù)據(jù)管理能力與信息化發(fā)展水平的規(guī)律性
數(shù)字化轉(zhuǎn)型必須依托于數(shù)據(jù)。根據(jù)筆者多年來跟蹤業(yè)界相關(guān)研究的成果,數(shù)據(jù)的管理與應(yīng)用水平直接決定了企業(yè)信息化發(fā)展水平(如圖1),這么多年來,很多單位在信息化上的投入也不少,每一次采購的也是當時最先進的信息技術(shù),可是這么多年來積累下來的信息家產(chǎn)卻往往是家丑不可外揚,軟硬件投資常常是快速折舊的,現(xiàn)在問題最大的還是大量的數(shù)據(jù)需求沒滿足,而大量的存量數(shù)據(jù)卻因低質(zhì)量而滿足不了,這是當前數(shù)字化轉(zhuǎn)型“業(yè)務(wù)數(shù)據(jù)化”階段每一個單位都在面對的結(jié)構(gòu)性矛盾,技術(shù)可以是別人的,數(shù)據(jù)不管怎么說都是自己造成的,自己的數(shù)據(jù)質(zhì)量不好無論如何外人也無法幫你治理和解決,所以我們說,這個數(shù)字化轉(zhuǎn)型升級的階梯,前面的坑、上面的坎都是我們每個組織走向“數(shù)據(jù)資產(chǎn)化、業(yè)務(wù)化、貨幣化”所繞不過去的門檻,還是只能自己一步一步往上爬。
所以不管我們要用數(shù)據(jù)做什么文章,對數(shù)據(jù)的學習能力都是基本功,就像當年隨著私家汽車的普及,讓駕駛汽車從司機專業(yè)變成日常技能,對數(shù)據(jù)的學習能力也會隨著數(shù)字化的普及而成為全民通識,組織數(shù)字化轉(zhuǎn)型是全員的工作,而作為通識,員工能從數(shù)據(jù)中能學習到什么有價值的東西是最為基本的數(shù)字化能力。
最近我接了研究生導師數(shù)據(jù)科學方面的學術(shù)任務(wù),我在消化導師所給講義課件的同時,對自己過往二十多年數(shù)據(jù)領(lǐng)域的學習和工作經(jīng)驗做了一次系統(tǒng)性的梳理和反思,我的工作經(jīng)歷在產(chǎn)業(yè)界有一定的代表性,看著導師講義中我已有些生疏的大量數(shù)學符號和公式,我自己感覺業(yè)界普遍的數(shù)據(jù)學習能力都還遠遠夠不上這么高大上的數(shù)據(jù)科學水平。
數(shù)據(jù)科學是一個早已存在,最近幾年才越來越熱門的概念,它曾經(jīng)被稱為應(yīng)用統(tǒng)計學,數(shù)據(jù)科學家已經(jīng)整合了數(shù)學、統(tǒng)計學、計算機科學、信號處理(感知和數(shù)據(jù)采集)、概率建模、模式識別、機器學習、不確定性建模和數(shù)據(jù)可視化等方法,以獲得基于大數(shù)據(jù)集的預測能力和洞察力,看著上面這樣長長的知識清單,讓我感覺自己和數(shù)據(jù)科學家仍存在很大的距離。
于是問題來了,在數(shù)字化無所不在的今天,莫非數(shù)字化轉(zhuǎn)型背后就沒有數(shù)據(jù)科學問題?這絕不可能,只能說明我們很多單位的數(shù)據(jù)工作水平,還是處于直接查詢和簡單加工的初級階段,對很多存量數(shù)據(jù)的二次加工比例和層次都很低,筆者近年來一直參與大量的各類型單位的信息化項目評審工作,我發(fā)現(xiàn)絕大多數(shù)比例的信息化項目,對數(shù)據(jù)需求動不動就是采用采集和錄入的手段來滿足,設(shè)計者一直到項目驗收了,都沒有說清楚或者愿意去說明白有什么數(shù)據(jù)可以從什么存量數(shù)據(jù)資源之中去找,而我們說對于大多數(shù)企業(yè)很多數(shù)據(jù)科學的應(yīng)用場景,都是對存量歷史數(shù)據(jù)的二次加工再利用,沒有歷史積累的海量數(shù)據(jù),搞什么數(shù)據(jù)科學都是巧婦難為無米之炊。
這種局面不能不說是當前國內(nèi)大多數(shù)單位搞數(shù)字化轉(zhuǎn)型都在面對的問題或者障礙,我分析,造成這種障礙的原因有兩方面:
第一方面是存量數(shù)據(jù)質(zhì)量本身存在的問題。受限于信息化發(fā)展水平歷史原因的制約,現(xiàn)在國內(nèi)單位所積累的歷史數(shù)據(jù)質(zhì)量普遍都不高,數(shù)據(jù)質(zhì)量問題作為一種現(xiàn)象或者結(jié)果,其形成原因是冰凍三尺非一日之寒,矛盾是日積月累下來和結(jié)構(gòu)性的,決定這些矛盾有在數(shù)字化轉(zhuǎn)型背后發(fā)揮作用的客觀規(guī)律,就是我們常說的數(shù)字化各個坑、各道坎或者階梯門檻,數(shù)據(jù)畢竟是每一個組織行為活動中形成的,本質(zhì)上都是組織自己的行為造成的,所以這些坑、坎和門檻是任何一個組織過去的業(yè)造成的障,自己造的業(yè)自己承受報應(yīng)是宇宙法則,這是因果鐵律決定的,妄圖單純通過采購外部技術(shù)裝備和專業(yè)服務(wù)的方式不可能獲得根本的解決,最后還是要落到自己的修煉,自己做好日常每項數(shù)據(jù)治理上的臟活累活。
第二方面還是認知層面,很多人可能還沒意識到,只要經(jīng)過艱苦的努力,我們可以從歷史數(shù)據(jù)中學到很多有用的東西,而如果真的想學到有用的東西,那么對于數(shù)據(jù)科學中充滿大量的數(shù)學符號和公式的數(shù)學模型和數(shù)據(jù)算法就不能當成技術(shù)黑箱,必須了解其原理,掌握其用法,這對于大多數(shù)應(yīng)用數(shù)學基礎(chǔ)不強的人來說也是不低的知識門檻,無論是要翻閱這些領(lǐng)域的文章,還是要參與相關(guān)任務(wù),你馬上就會遇到一些攔路虎,例如:“應(yīng)用概率論中的貝葉斯思維過濾垃圾郵件,理解隨機過程中的隱馬爾科夫模型進行語音識別,運用估計理論和大數(shù)定理的思想通過樣本推斷出某類對象的總體特征,應(yīng)用概率圖模型從文本中提取出想要的名稱實體”等等,在看到這些充滿專業(yè)術(shù)語的數(shù)據(jù)應(yīng)用場景后,估計很多人就開始打退堂鼓,然后馬上選擇放棄。雖然我自認數(shù)據(jù)老兵,可真遇到應(yīng)用數(shù)學領(lǐng)域的問題,想要搞清楚也還是很吃力的,我們可以把這種知識門檻也看成是數(shù)據(jù)科學的使用成本,這些極容易成為數(shù)字化應(yīng)用上的卡脖子技術(shù)問題,讓大量的單位和人士敬而遠之。
這讓我想起兩年前我由于業(yè)務(wù)機會而接觸CPDA數(shù)據(jù)分析師的課程體系內(nèi)容,雖然相關(guān)知識點的選取都很“科學”,可內(nèi)容組織在我看來就明顯感覺堆砌,對于很多沒有實戰(zhàn)經(jīng)驗的小白來說其實是非常難以消化和掌握的,我也問過好幾位花了不少學費參加了培訓和考證的小伙伴,他們給我的反饋是太理論、不實用,很難用到實戰(zhàn)上面。于是兩年前我就想自己為小伙伴度身打做一套可以用于實戰(zhàn)技能提升的課程,我也一直在想,有沒有一些相對簡單,讓非專業(yè)的數(shù)學小白們在日常工作生活中能用上的一招半式? 這個問題可以換成另外一種說法,就是有沒有一些套路,讓大家都不怎么用動腦子,套用在一些數(shù)據(jù)資源上面,就能挖掘出一些有價值的信息或者知識出來。平心而論,我個人是不認同這種一招鮮吃遍天的招式或者套路,不過探討一下也是有市場價值的。
我這里先解釋我提出的一個概念,就是所謂數(shù)據(jù)學習的概念。我為什么要提出這個概念呢?我是希望對機器學習做一定的擴展和區(qū)分的。機器學習是一個比較成熟的概念了,我們可以先回顧一下。
根據(jù)百度百科,機器學習是一門多領(lǐng)域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑。根據(jù)這個概念,機器學習和數(shù)據(jù)科學重合度非常高,只是更加強調(diào)的是讓“機器”具備數(shù)據(jù)學習能力,但明顯機器學習只是數(shù)據(jù)科學的一個細分領(lǐng)域,現(xiàn)在的問題是,對于很多單位來說,機器學習還是比較遙遠的高科技。
與機器學習這個比較高大上的概念相對應(yīng),我提出數(shù)據(jù)學習的概念。根據(jù)張靖笙定義,數(shù)據(jù)學習是一門綜合運用數(shù)據(jù)管理和數(shù)據(jù)科學的知識和方法,專門研究怎樣實現(xiàn)對數(shù)據(jù)資源的學習行為,幫助人類和計算機從現(xiàn)有的數(shù)據(jù)資源中獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身表現(xiàn)及技能。
我提出數(shù)據(jù)學習這個概念,和我兩年前關(guān)于人和機器都要對數(shù)據(jù)進行深度學習的觀點是一脈相承的,如果說兩年前我的觀點還是比較偏口號的倡議,今天我希望通過數(shù)據(jù)學習開拓的是一條新的道路,最后還是要落到解決各類型組織單位在數(shù)字化轉(zhuǎn)型過程遇到的各種數(shù)據(jù)能力的卡脖子問題。
先拋開技術(shù)上的糾結(jié),不管是機器還是人,如果需要通過學習掌握更加高階的能力,還是要重過頭來搞清楚什么是學習。根據(jù)百度百科,狹義的學習指通過閱讀、聽講、研究、觀察、理解、探索、實驗、實踐等手段獲得知識或技能的過程,是一種使個體可以得到持續(xù)變化(知識和技能,方法與過程,情感與價值的改善和升華)的行為方式。廣義的學習是人在生活過程中,通過獲得經(jīng)驗而產(chǎn)生的行為或行為潛能的相對持久的行為方式。從目前的定義,學習都是針對人的行為來定義的,套用到機器學習,我們也是希望讓機器模擬人的學習行為,所以有必要先探討人類學習行為和方法,我們先來看看教育家對學習的觀點。
孔子云:“學而時習之,不亦說乎?”,可見“學”與“習”是兩類不同的活動,前者主要接收知識信息,后者關(guān)乎知識轉(zhuǎn)化與應(yīng)用實踐。根據(jù)祝智庭教授《智慧教育新發(fā)展:從翻轉(zhuǎn)課堂到智慧課堂及智慧學習空間》的論述,著名科學家錢學森早在1997年就開始倡導“大成智慧學”(英譯名Science of wisdom in cyberspace)。錢老眼中的“大成智慧學”是引導人們?nèi)绾伪M快地獲得聰明才智與創(chuàng)新能力的學問,目的在于使人們面對浩瀚的宇宙和神秘的微觀世界,面對新世紀各種飛速發(fā)展、變幻莫測而又錯綜復雜的事物時,能夠迅速做出科學、準確而又靈活、明智的判斷與決策,并能不斷地有所發(fā)現(xiàn)、有所預見、有所創(chuàng)新。
錢老強調(diào)“大成智慧”的特點是沉浸在廣闊的信息空間里所形成的網(wǎng)絡(luò)智慧,是在知識爆炸、信息如潮的時代里所需要的新型思維方式和思維體系。同時,他還強調(diào),“智慧”由“量智”和“性智”組成,前者傾向于邏輯思維,后者傾向于形象思維。隨著技術(shù)逐步邁向智能化、泛在化、感知化,智能終端和泛在網(wǎng)絡(luò)的計算速度與精度遠勝于人腦,因而比較善于分擔“量智”工作,但對于“只可意會,難以言傳”的默會知識,或者需要運用形象思維、求異思維、直覺、靈感進行創(chuàng)造性工作時,它們卻顯得“疲軟乏力”,難以表現(xiàn)出“性智”能力,因而要充分利用計算機、信息網(wǎng)絡(luò),發(fā)揮人-機結(jié)合優(yōu)勢互補的長處,使人能夠不斷及時獲得和集成廣泛而新鮮的知識、信息與智慧,從而迅速提高人的智能,培養(yǎng)創(chuàng)新的能力。
知識管理領(lǐng)域通常將“智慧”界定為一種面向未來的創(chuàng)新能力,有一個DIKW(Data-Information-Knowledge-Wisdom)模型。從DIKW模型可以看出,從數(shù)據(jù)、信息、知識到智慧的演變,對情境性(context)和理解力(understanding)的要求隨之增強。也就是說,要完成從數(shù)據(jù)、知識、信息到智慧的轉(zhuǎn)換,一方面需要以相關(guān)的背景知識、情境知識和緘默知識作為支撐,另一方面需要人類主動理解才能完成。有人將這種理解分為三個層次:關(guān)系理解、模式理解和原理理解。此外,知識、信息、數(shù)據(jù)都是面向過去的經(jīng)驗,只有智慧才是面向未來的創(chuàng)新(見圖2)。
.
圖2 智慧:面向未來創(chuàng)新能力
布魯姆教育目標分類修訂版將認知領(lǐng)域?qū)W習者對知識的領(lǐng)悟程度由低到高分為“記憶、理解、應(yīng)用、分析、評價、創(chuàng)造”六個層次,并將這六個層次的目標分類劃分為淺表學習與深度學習兩個層級。淺表學習指向“記憶”“理解”“應(yīng)用”,深度學習指向“分析”“評價”“創(chuàng)造”。
我們把DIKW模型和布魯姆教育目標分類對比一下,DI(數(shù)據(jù)-信息)對應(yīng)的是淺表學習,KW(知識-智慧)代表的是深度學習,于是我們可以這樣來理解學習的認知層次目標,數(shù)據(jù)對應(yīng)的是記憶,信息對應(yīng)的是理解和應(yīng)用,知識對應(yīng)的是分析和評價,智慧對應(yīng)的是創(chuàng)造。
可能有朋友會問,你這個說法和數(shù)據(jù)學習有什么關(guān)系?關(guān)系不容忽視,我們可以很清晰地從這些教育界關(guān)于學習觀點里面看到人類學習的內(nèi)在規(guī)律與數(shù)字化發(fā)展規(guī)律的一致性,大家注意看一下圖2,DIKW模型的前三個部分與機器智能的定義是一樣的,而關(guān)于智慧的觀點教育界強調(diào)的是創(chuàng)新,人工智能能否自主創(chuàng)新而具有與人類相同的智慧能力,這個目前還沒有定論。
對標教育界的學習層次,我覺得可以對數(shù)據(jù)學習能力做一個清晰的界定,具體就是對標“記憶、理解、應(yīng)用、分析、評價、創(chuàng)造”六個層次劃分的淺表學習與深度學習兩個層級。
我們說目前組織普遍在用的數(shù)據(jù)查詢、搜索與分析是對數(shù)據(jù)的淺表學習。
數(shù)據(jù)查詢和搜索可以看成最初級的數(shù)據(jù)“記憶”學習,就是直接查詢或者搜索記憶在數(shù)據(jù)里面的一些過去的“事實”陳述,就有點像小孩子問“十萬個為什么”,對于認知結(jié)構(gòu)還不成熟的小孩子,我們回答諸如此類的問題一般只會給出直接的教條答案,不會深入到所以然的分析說理。
而數(shù)據(jù)分析是在查詢或者搜索的基礎(chǔ)上向“理解”更進了一步,可以通過排名、對比、占比等等數(shù)據(jù)可視化操作,讓數(shù)據(jù)所描述的事實以更立體的方式呈現(xiàn)出來,以表達更多的信息或含義,讓用戶能從中更“理解”這些信息。
接下來在“記憶”和“理解”的基礎(chǔ)上,幫助組織的各級決策者從數(shù)據(jù)中“求是”就是“應(yīng)用”了。當然,能從數(shù)據(jù)中“求是”的前提是數(shù)據(jù)資源的確是反映客觀事實的符號,這樣才能真正做到實事求是,筆者這一兩年一直鼓吹現(xiàn)在我們要“實事成數(shù),然后求是”,就是為了讓組織決策者可以通過數(shù)字化手段來更好地實事求是做決策,這才是數(shù)據(jù)“應(yīng)用”的本來之要義。
說了這么多,以上僅僅是對數(shù)據(jù)的淺表學習,實事求是地說,組織在“業(yè)務(wù)數(shù)據(jù)化”階段,能讓每個員工都具備如上所述的數(shù)據(jù)淺表學習能力就不錯了,當前要求深度學習是拔苗助長的。
然后接下來談?wù)勎覀兏M麑崿F(xiàn)的對數(shù)據(jù)的深度學習各層級。
布魯姆教育目標中的“分析”不是我們過去閉著眼說的 “數(shù)據(jù)分析”中的分析,我這里要論述的是前者。什么是分析?如果我們說對數(shù)據(jù)的淺表學習只是知己,是觀自己,那么這里說的“分析”是觀天地,是王陽明所說的“知之真切篤實處”和“行之明覺精察處”的境界,換個大白話也是馬云十多年前說過的“因為相信而看見”的立場。
在數(shù)據(jù)科學之中,許多數(shù)據(jù)科學都專注于建立預測模型做預測性分析,雖然大量做預測性分析的人并非就是數(shù)據(jù)科學家。預測性分析(Predictive Analytics)以數(shù)理統(tǒng)計學為基礎(chǔ),屬于監(jiān)督機器學習的子領(lǐng)域,使用一種概率模型,該模型基于與預測對象可能事件相關(guān)的歷史數(shù)據(jù)及其他變量進行分析預測。很明顯,市面上講濫了的數(shù)據(jù)分析的水平,都明顯達不到預測性分析的功力,于是鬧出很多對大數(shù)據(jù)和數(shù)據(jù)科學不實的迷而信之,本人常常面對這樣對大數(shù)據(jù)的迷信,只能啞言失笑和一時語塞。
而對標布魯姆教育深度學習目標中的“數(shù)據(jù)分析”,這種學習行為就自然觸發(fā)了“評價”行為,就是說穿了我們每個組織在面對大量形形色色的預測性分析結(jié)果的時候,到底我們聽信什么、不聽什么的問題,我們到底依據(jù)還是不依據(jù)這些預測結(jié)果采取相應(yīng)的組織行動呢?這背后已經(jīng)涉及到智能制造定義中自感知、自學習、自決策、自執(zhí)行、自適應(yīng)等功能的新型生產(chǎn)范式了,這個話題在這里展開就很啰嗦了,大家可以看看我前兩個月寫過的一篇幾萬字的投稿文章《疫情啟示呼吁新智造文化》。
最后一個繞不開的話題是“創(chuàng)造”,目前人類學家、哲學家、教育家、腦科學家、人工智能頂級專家都還沒說清楚到底人工智能能不能通過對數(shù)據(jù)的深度學習開展“創(chuàng)造”活動這個問題,我也不想趟這個渾水,還是只說人的“創(chuàng)造”行為吧。
看看今天全世界很熱門的西方創(chuàng)客概念,根據(jù)長尾理論發(fā)明人克里斯·安德森的觀點,“創(chuàng)客行動有三大特征---使用多種數(shù)字桌面工具;遵循共享設(shè)計和在線協(xié)作的文化規(guī)范;使用共同的設(shè)計標準以促進分享和產(chǎn)品的快速迭代。”很明顯,在線和數(shù)字化是今天所有人類創(chuàng)造行為的必選項,今天如果不具備通過數(shù)據(jù)進行深度學習的人,能不能有效完成其創(chuàng)造是個大大的問號。
在數(shù)據(jù)科學領(lǐng)域,規(guī)范性分析(Prescriptive Analytics)比預測性分析在定義影響結(jié)果的行為上更進一步,不僅僅預測已經(jīng)發(fā)生行為的后果,規(guī)范性分析預測將會發(fā)生什么、何時會發(fā)生,并揭示發(fā)生的原因。規(guī)范性分析可以不間斷接收新數(shù)據(jù),以重新進行預測和分析,從而不斷自主進化,而形成更好的預測方式和行為表現(xiàn)。這不也恰恰是我們?nèi)祟愒诟鞣N創(chuàng)造活動中需要具備的心態(tài)和能力嗎?這樣說吧,如果我們的創(chuàng)造不具備先見之明的價值溝通和意義建構(gòu)能力,只是在各種技術(shù)裝備和方法手段中繞圈圈和做試驗,搞來搞去不是瞎折騰嗎?
從上面對標布魯姆教育學習層次目標中,我們可以清晰地看到,今天我們所講的數(shù)字化轉(zhuǎn)型,在對數(shù)據(jù)學習的認知結(jié)構(gòu)和認知能力層面,正在一步步從傳統(tǒng)商業(yè)智能的亡羊補牢、后見之失的觀自己,走到今天要明察秋毫、見微知著的觀天地,接著走向明天先見之明、洞察先機的觀眾生的能力發(fā)展路徑上來。
在走向大成智慧的道路上,觀自己、觀天地、觀眾生是我們每個人從平庸走向智慧的修煉之道,也是數(shù)據(jù)學習能力成長的必然之路,人類如此,人工智能也必然如此,唯有這樣的法理,這樣的本愿,這樣的情懷,不管是人類還是人工智能,其對數(shù)據(jù)的學習才會產(chǎn)生讓我們用得上、信得過、靠得住的知識和技能。
最后關(guān)于本人的小感悟,這幾年我在產(chǎn)業(yè)界和文化教育界兩邊游走,走來走去我始終覺得自己還是教育的門外漢,數(shù)據(jù)技術(shù)才是我的本職,可我不后悔這幾年充滿挫折和失望的教育探索之路,本質(zhì)上我還是一個學生,同時也是一個家長,一直都是教育的需求側(cè),在教育需求的角度來感悟?qū)W習才讓我對技術(shù)的無奈和局限看得更清楚,因此,我很高興自己這幾年的教育實踐能讓自己成為一名建構(gòu)主義者。
在建構(gòu)主義的角度,我的所有觀點都有我個人的建構(gòu),局限是必然存在的,而認識到這種局限的必然性,不正是我們?nèi)祟愔腔劭梢砸恢辈粩嘣鰪V擴大的前提嗎?
評論