8月3日,“2022(第七屆)大數據產業生態大會”在北京市海淀區遼寧大廈進行,應大會的邀請,走向智能研究院執行院長趙敏教授為大會做了題為《釋放工業互聯網的數據潛能》的主題報告。
[敏感詞]是該報告的具體講演內容(根據錄音整理)。
我給大家報告的題目是《釋放工業互聯網的數據潛能》,也正好是匹配我們今天的這個論壇的主題。首先,我向大家介紹一下對于工業互聯網看法。
關于工業互聯網,很多人講的時候,都是講到了它的三大功能體系。主要是說:網絡是基礎,平臺是核心,安全是保障。基本上所有的白皮書也都是這樣寫的。
但是,對于這個功能體系,我有一些不同的看法。因為這樣的定義都是純粹的ICT的定義,對吧?網絡,ICT的,毫無疑問;然后平臺,是咱們軟件平臺,ICT的;安全,是在說賽博安全、信息安全、網絡安全,還是ICT的。
那么工業互聯網,第一標簽是工業,工業在哪里?——這是我一直質疑的一個問題。所以,我認為工業是主體,必須要首先澄清。而且,在工業是主體的這個前提下,我們再來談網絡,再來談平臺,再來談安全,再來談數據。這才是一個合乎實際情況的邏輯。
因此的話,我們在現在大家經常聽到工業互聯網的宣傳當中,一直有這樣一個悖論:網絡、平臺、安全、數據,但是不一定具有工業屬性。而工業互聯網又恰恰是為我們工業、為我們制造業提質增效的有效的手段,在我們百年交匯的這樣一個新的時期下,中央高層高度重視的這樣一個“新基建”的建設,,我們對工業互聯網的宣傳,對于其中的數據的認識,不能走偏了。這是我一直堅持的一個觀點。
對于工業互聯網,有很多不同的看法,至少是兩派不同的觀點。
很多人認為,工業互聯網是罩在工業實體上的一張電信網,這是最常見的觀點;或者說,是互聯網社交/消費互聯網那一派宣傳的,說“是互聯網的下半場”,我都不知道這個“下半場”是怎么推出來的。工業互聯網跟我們講的社消互聯網沒有一毛錢關系,這個是必須搞清楚的事情。
所以,數據有沒有工業的屬性,反映不反映工業的實際情況,能不能真為工業業務環節來賦能,為我們的提質增效發揮真正實際作用,這不是只是奢談數據所能達到的,也不是像某些廠商講的:“把你的數據給我,我來給你賦能”,這樣的活動沒有一個是成功的,盡管過去幾年,很多的企業都在用這樣的方式來去做的。
我認為這種觀點下的工業互聯網是“不接地氣”的,他們是在平臺、網絡、安全這個層面的數據,跟工業少有交集。所以用這樣的概念談來談去的話,是有很大的誤解的。
其實應該是(圖中)右邊這個觀點:工業互聯網既不是工業的互聯網,也不是互聯網的工業,它是工業要素的聯接,我反復寫文章、寫書說明這個觀點,所以我再重復一遍:工業互聯網不是工業的互聯網,也不是互聯網的工業,是工業要素聯接的互聯網絡。因此的話,數據一定要具有工業屬性,必須源于工業,用于工業,優于工業,而且要“接工業的底氣”。
在我所認知的工業互聯網當中,它是一種我們新型的ICT要素和我們傳統的工業要素之間的融合,而且并不是說,傳統的工業要素它就不先進,一定要避免有這種誤解。工業互聯網的重點是聯接并且服務于我們的工業實體,而且與工業實體融為一體。
可以用兩個維度來衡量我們的工業實體,這是我在馬上就要出版的一本新書,叫作《人本:從工業互聯網走向數字文明》,在這本書當中描述的兩個維度:一個維度是我們企業最常見的“人、機、料、法、環”,這是咱們很熟悉的觀點,企業常見資源;另外一個維度,是現在都被忽略掉了的,企業之間的實體關系。所有的那些企業協作關系、企業實體關系、央企集團關系、鄉土合作網,或者說原生的一些線下的這種關系網絡,那么實際上它(指工互網)跟它(指實體關系網)的疊加和融合,才有利于工業互聯網發展。這就是我們工業的基本盤——兩個維度構成:一個是資源類的“人、機、料、法、環”,一個是企業之間的實體關系。
另外一個就是數據的工業屬性,我認為工業現場的數據,必須而且一直與其所依附的工業端,發生著密不可分的高頻互動,以復雜的各種數據種類,映射到更為復雜的工業現場關系的網絡,這才是工業互聯網當中的一個實質性的東西。
你聽很多人談的數據沒有任何工業屬性,除了講“五個V”之外,我就不知道他們在談什么。數據,必須按照工業互聯網所映射的工業的現場關系,以及我們企業的資源“人、機、料、法、環”,對它們進行加載、穿透,對它進行映射,而且按照工業的模型、算法和機理來進行分析、推理,才能做出能夠解決工業現場實際問題的決策和預測,就如同剛才楊部長講的,“好的數據”是給企業去解決實際問題的數據,而不是就是光談“一個數據”的數據。
我給大家舉一個例子。一個是大家熟知的,我用傳感器去采集工業現場的數據,那就是高頻的,比如說一個石化企業,它是流程制造業,通常的話會有5萬到10萬個數據采集點,大家注意,在一個央企的大型的石化企業當中,一般會有5萬到10萬的數據采集點。每一個數據采集點上的每一個傳感器,就算1秒鐘只采10個數據的話,那就是100萬條,更何況實際采的數據量,可能還要相當大。這是我后面要談到的,這些高頻的、實時的數據,或者叫時序數據。
另外一個,我把它放到一個不是央企,不是大國企業,而是一個典型的中小微企業(場景),比如說被服廠。對于工業現場,我們怎么把人和機器的動作有序地拆解,形成我們的工業基礎數據?這才是我們要研究的——我們要研究工業現場這種叫作“Ergonomics”,就是“人機工程學”,就是要研究人的每一個軀干肢體,它有什么樣的“動素”,它能發生什么樣的“基礎動作”,這個“基礎動作”會構成什么樣的“生產動作”,這個“生產動作”再形成什么樣的“標準工藝”,這個“標準工藝”我們再把它分成合理的步驟,排好我們的“標準工序”,最后這個“標準工序”再形成“工序線”,“工序線”再用我們的“產線”來實現,這才是從人和機器拆解,我們把它從工業現場提煉出來,它生成了我們最基礎的工業數據,或者叫工藝數據。
這種基礎數據我們把它數字化,我們把它放到電腦里面去,因此它形成了比特化的基礎數據,也就是說,我們數字化在數字化什么?數字化我們工業現場的所有的機器的動作、人的動作,所有的工藝步驟,這個時候才形成了我們一整套的這些所謂的DIKW——我在[敏感詞]會去講它的作用。
我們可以從頂層往下降維、解構數據,在軟件里去查詢;也可以在底層不斷地向上升維、重構數據——重構是干什么?是經過計算、決策之后,以更好的方式來去生產,來去優化我們(拆解了人、機基礎工藝數據)的工業現場。
大家可以看到,在這樣一個DIKW體系當中,D就是Data,I就是Information, K是Knowledge,W是Wisdom——我們把它叫作“決策”或“預測”,這個是體現了我們的系統的一種智能(或者叫智慧)。
大家可以看到,工業現場的實體,我們把它用比特數據進行解構,這是真正的基于二進制的數字化,我們電腦的原理、軟件的原理就是這么來的,因為從根本上來說,它們就是0和1。
比特0和1,可以用ASCII編碼表示任何的東西。一個8位是一個字節,兩個8位或者說16位,或者說64位——64位就可以編碼我們全世界任何一粒砂子,都可以編碼進來。這就是剛才我們講到的數據是什么?是用二進制表達的,一個8位、一個8位的這樣的東西。
它可以是數字,數字沒有任何意義,只能比較大小——我知道100比99大,2比3小,除此之外,沒有任何意義,因為它沒有時空背景。還有一些數據是單詞類的,比如說只是一個“價格”,它叫“石油”,它叫“汽油”,或者這個叫“攝像機”,這些都是叫數據,都在電腦里。
但是當我把數據給它拼合起來,我再往上一層,它就變成了信息,為什么呢?“20”是一個數據,“元”是一個數據,“20元”就變成了“錢”,而不是20匹,20輛,20噸,所以數據就被賦予了時空意義,這就是信息。我們的工藝當中的任何一個動作,也就具有了時空意義。信息消除了數據的不確定性。
那么再往上,我還可以進行升維和重構,為什么呢?因為我們可以說:“我要買20噸汽油,該是多少錢”,這句話又變成了一條知識,對吧?我告訴你,要20噸油該是多少錢,對吧?因此的話,我們又把數字化的信息——這個information變成了知識,有了具體的語義。
而知識和知識的關聯,就更不一樣了。剛才楊部長談到關聯的問題,零散的數據、信息作用不大,甚至包括零散知識。但是當你把它們關聯起來,作用就大了!剛才舉的“天眼查”的例子,就是非常好的例子。對于我們來說,我們可以說每噸柴油多少錢,那么我們再判斷,俄烏現在在打仗,那么再判斷,油氣價格在歐洲一定會漲,如果你做大宗貨物,你正好面向歐洲做,那么你就可以事先囤一批貨。所以,你利用已有的數據、信息、知識,最終構成了一個帶有智能性或智慧性的這樣一個預測和決策,那么我們才能夠正確的去判斷、去做事情,才能夠去消除我們經常所面對的、這些外部世界的高度的不確定性。
因此這就是決策和預測所帶來的價值,這也是我們基本的數字化、信息化的邏輯,也就是說,來源于工業現場、運行在軟件之內、存儲于電腦之中的、所有的不同的格式的那些數據,才是我們要談的“數據”。
因此,工業大數據搞了很多,廣義上說,市場調研、需求分析、產品規劃、工藝制定等等這一票,都叫數據,還有庫存啊,等等。
在我們工業互聯網當中,按照不同階段,我們可以有在研品、在制品、在用品,有不同的數據;按照采樣的頻率,也有不同的數據;按照屬性的劃分,也有不同的數據,比如說實時數據、時序數據、標識數據等等——咱們部里面講到這個工業互聯網的標識,這也是一類數據。
比如說,實時數據就必須是實時采的,實時來用,它才有作用。一旦過去了,它就沒有什么用了。但是,這些數據如果把它留存下來,它有明確的時空背景,消除了里面的噪聲和垃圾數據的話,那么它對于未來的分析是有意義的。但是還必須要完整的、從哪產生的,有那個時空背景。
時序數據是帶有時間戳的數據,一定是帶有時間戳的,要分得清楚先后,一旦分不清楚先后,這些數據就全部都是垃圾,沒有任何意義。
所以我們一定要強調一點:這個數據來源一定是“時空背景+業務邏輯”。
數據不會憑空來,也不會悄然遁去。數據的產生要有明確的工業現場的時空背景,是真實的我們的“人、機、料、法、環”等工作信息的映射。所以我們在工業實體上的上下游企業,他們之間的合作,我們把這個需求,因為需求是剛性的,我下了訂單,你接了訂單,就要按合同、按照契約精神給我來做這個訂單。訂單一步一步分解到企業里面,就會變成不同的內部業務環節和流程。我們就會去備料,我們就會準備工藝,我們就會啟動機器,一步一步去做出產品。
所以,我們所有的數據的來源和業務需求必須要匹配,才能產生合乎邏輯的結果。這是我們要說的,離開了業務需求、工業現場的時空背景,去討論數據,是不科學的,不正確的,也是荒謬的。
那么,數據怎樣煉?
我們一定要知道:在企業當中的數據,是我們業務場景呈現的狀態變量;在軟件中的數據是模型、算法所支配客體對象;在機器當中,數據是驅動設備、控制它去精準運轉的指令。因此,數據的屬性和功能,它往往是非常多元化的。
所以,說數據是新型生產要素,一點沒有問題。數據可以通過軟件賦能而迸發出巨大的生產力。但是數據本身它不是生產力。這個概念我們就是要予以澄清。
原料級的數據一定要經過處理才能夠使用,就像剛才我說的,從“動素”一直到“產線”的這樣一個拆解,我們把這些數據都提煉出來,但是這是原始工藝數據,它要數字化之后,進到我們的信息系統,進到我們的數字化系統當中去算,按照最優的那些模型和算法——軟件里面全部都是算法,合乎工業邏輯的基本模型和算法,讓它去算。
把軟件作為“磨(魔)盤”,把原料級的數據進行各種顆粒度的精細加工,不斷地識別、接收、計算、解讀、打磨、重構,最后再生成符合我們業務需求的精品數據,再用軟件作為“增壓泵”,用網絡作為“管道”,把精品級的數據,給它“泵”回到你所需要的地方,就是剛才我畫的那張圖中的生產現場,它要回到我們的業務環節當中去,重新放大、賦能、解構、重構我們的業務,讓它產生最好的一個軟件賦能的效果、數據賦能的效果。
因此,我們數據有這么兩手硬的功能:第一,用來顯示,在大屏幕上、各種屏幕上顯示我們的計算結果;第二,按照人預先設計的這個自主決策,數據直接進到我們的設備當中,就是我不顯示而直接去驅動(設備)。
所以第一種形式,是第三次工業革命的結果;第二種形式,是第四次工業革命結果。大家今天看到的自動駕駛汽車就是這種方式,數字指令自動就可以去驅動機器。
數據源于工業時空,優于賽博時空,回歸工業時空,一去一來,算力提速,模型精煉,算法優化,數據煥新,數據映射的那些企業資源,都在軟件的算法的巧妙安排下得到最優配置。
因此,我認為,數據它確實是可以為我們企業釋放出巨大的能量。
但是還要注意,數據到底是“姓公”還是“姓私”?所有的企業都不愿意把數據分享出來,因為這?屬于是“我的(數據)”,是私有性。但是,數據也有具有無損拷貝的這種屬性,那么一旦出了企業的范圍,它就是失控。
數據還具有“公有性”,就是說你一定要在一定范圍之內來流動,不流動的數據是沒有價值的。只有流動的數據,被軟件充分解構、重構的數據,才具有這種流動價值。
因此,我們怎么能夠去消除這種矛盾?那就一定要讓數據流動起來。流速如果越快,流動越順暢,分享的范圍越大,流動頻次越高,它產生的價值就越大。這個是數據給我們的賦能。
盡管我們不能把所有數據變成是公有的,但是工業互聯網一定有這個職能,要把一部分私有性的數據轉換成公有性的數據。否則,我們為什么要建工業互聯網的大數據中心?我們回答不了這個問題。
數據本身具有兩面性,既可以載舟,也可以覆舟,如果模型和算法有問題,在算力加持下,高速流動和分析的數據,由于軟件千百倍地放大,會讓錯誤的結果隨之放大,造成大范圍的業務損失。
所以我們要注意:工業是主體,核心是數據,關鍵是軟件。
工業互聯網天然具有工業屬性。這就是我們所談到的,具有工業屬性的數據,必須在一定范圍之內流動、交易,才有可能演變成動態價值流,形成數字生產力,為企業產生巨大價值。為數字經濟做出應有的貢獻。
好,我就講到這,謝謝大家!
8月4日(今天),“2022(第七屆)大數據產業生態大會”還有一整天會期,有眾多內容豐富的專業報告,值得大家在線下、線上觀看和分享。詳細會議內容請在下圖中掃二維碼觀看。