工業(yè)界使用的模型本質(zhì)上有兩種類型:一種是研發(fā)設(shè)計階段的建模,目的是生產(chǎn)出與模型一致的物理產(chǎn)品。這時,一般是先有數(shù)字世界中的模型后有物理世界中的實體。另外一種是針對特定客觀對象的建模,目的是讓模型與客觀對象吻合。這時,往往是先有物理世界中的對象,后有數(shù)字世界的模型。本節(jié)討論的是后一種建模。這種模型是參照實際數(shù)據(jù)建立的,人們希望模型的結(jié)果與實際數(shù)據(jù)吻合。
針對特定物理對象的數(shù)據(jù)建模有兩個層次的用途:一種是模型的正向應(yīng)用,用于預(yù)測或計算某個變量;一種是模型的反向應(yīng)用,用于優(yōu)化和控制。前一種用途的模型不一定采用因果關(guān)系,而后一種用途的模型則要符合因果關(guān)系。
模型應(yīng)用的場景
完整地理解模型的重要性,就要理解模型的局限性。我們前面曾經(jīng)談到,模型都是有誤差的,這很大程度上限制了模型的應(yīng)用。在維納的理論中,通過反饋來應(yīng)對模型的誤差問題。傳統(tǒng)控制論的模型,往往針對線性系統(tǒng)。線性系統(tǒng)往往適合用參數(shù)變動比較小的場景下。但智能時代的模型,往往針對的是變化范圍變化較大的場景。這樣的場景,往往是非線性的。
所以,基于工業(yè)數(shù)據(jù)的建模,往往面對的是大范圍和高精度的矛盾。下面我們會討論:這樣的矛盾是如何產(chǎn)生的,又是如何解決的。
數(shù)據(jù)建模的基礎(chǔ)
很多人認(rèn)為,工業(yè)數(shù)據(jù)建模的原因是“原理不清楚”。事實上,工業(yè)對象都是物理對象,都符合自然科學(xué)的規(guī)律。工業(yè)對象是人造對象。人們建立物理的工業(yè)對象時,往往也都是在科學(xué)原理的指導(dǎo)下做成的。
有些人不明白:既然科學(xué)原理清楚了,為什么還要建立模型。工業(yè)人建立模型的原因有兩個:首先是科學(xué)模型是抽象的、工業(yè)模型是具體的。從抽象走到具體,需要給出若干參數(shù)。而這些參數(shù)并不一定容易獲得。其次,科學(xué)原理針對的都是簡單對象,工業(yè)對象卻往往是復(fù)雜的系統(tǒng),需要大量的參數(shù)。參數(shù)多的問題是:如果參數(shù)準(zhǔn)確度不高,理論模型的精確度就會低到難以忍受的程度,無法滿足工業(yè)生產(chǎn)的需要
下面給出一個形象的說法:某個工業(yè)對象可以用函數(shù)描述,假設(shè)它的理論模型是。應(yīng)用模型時必須依靠現(xiàn)實中能夠獲得的數(shù)據(jù)。現(xiàn)實中,X往往是無法準(zhǔn)確、及時獲得。這時,人們要設(shè)法在可以得到的數(shù)據(jù)中,尋找一些與X相關(guān)的變量,如Z。于是,現(xiàn)實的數(shù)據(jù)模型往往就變成 。
某廠發(fā)現(xiàn):一種材料的合格率與生產(chǎn)這種材料的班組有關(guān)。事實上,合格率與某個工藝參數(shù)有關(guān),不同班組采用的工藝參數(shù)不一樣。但每個班組采用的參數(shù)不同、也沒有記錄。所以,人們看到的是合格率與班組有關(guān)。在這個例子里,工藝參數(shù)就是X,而班組就是Z。
人們經(jīng)常發(fā)現(xiàn):材料的性能與生產(chǎn)的季節(jié)相關(guān)。本質(zhì)上,材料的性能與生產(chǎn)材料時的溫度、濕度、空氣流動的綜合情況有關(guān)。在這里,溫度、濕度、空氣流動情況是人們需要的X,而生產(chǎn)季節(jié)就是Z。
人們預(yù)報鋼水溫度時,采用了一個經(jīng)驗做法:如果盛放鋼水的鋼包是第一次使用,則鋼水溫度降低5度。真正的原因是:鋼包第一次盛放鋼水時,鋼包壁是比較冷的,鋼水溫度降低得更快。但是,人們?nèi)菀椎玫绞褂么螖?shù)的參數(shù),卻不容易得到鋼包壁溫度相關(guān)的參數(shù)。
變量的選取是非常重要的。變量的選擇不同,最終的模型就不一樣。其中,一個重要的差別是:模型的精度和適用范圍不一樣。對科學(xué)理論模型來說,模型的精度高往往意味著適用范圍大,而現(xiàn)實的模型則不一定。從這種意義上說,模型精度未必是是越高越好。
工業(yè)企業(yè)追求穩(wěn)定,而模型往往用來應(yīng)對不穩(wěn)定的工況。工況穩(wěn)定的時候,參數(shù)波動的范圍往往較小,簡單的線性模型往往就可以奏效。復(fù)雜模型往往用于不穩(wěn)定的場合。用于不穩(wěn)定的場合時,對模型適用范圍的要求就會比較大。
有些人開發(fā)的模型精度比較高,卻不能得到生產(chǎn)廠的認(rèn)可。背后的原因是:模型在生產(chǎn)穩(wěn)定的時候精度很高,在生產(chǎn)不穩(wěn)定的時候精度較低。由于多數(shù)時間的生產(chǎn)是穩(wěn)定的,模型的平均精度往往較高。但是,生產(chǎn)穩(wěn)定的時候,工人對模型沒有需求;工人對模型有需求的時候,往往是生產(chǎn)不穩(wěn)定的時候。
模型精度和適用范圍的矛盾,是建模時最常見的問題之一。
工業(yè)大數(shù)據(jù)時代的機會
大數(shù)據(jù)時代的重要機會,就是可以用簡單的方法建立好的模型。
從A地到B地時,要找到一條速度最快的路徑。理論上講,建立相關(guān)模型時需要給出許多參數(shù),如距離、行駛速度等。而行駛速度,受到各種不確定因素的影響。在大數(shù)據(jù)的背景下,這個問題就容易解決了:看看其他人怎么走的、花了多少時間。找到合適的走法,按照他們的路子走就是了。為了提高精度,還可以根據(jù)日期、時段和道路事情情況做些修正。
事實上,工業(yè)大數(shù)據(jù)的方法,早已出現(xiàn)在前人的實踐中。這類方法的基本思路就是:找一個類似的做法,在此基礎(chǔ)上進行修訂。
鋼水冶煉前,需要給出合適的工藝參數(shù)。計算過程涉及到很多參數(shù),不容易算對。解決這個問題的思路:先從歷史數(shù)據(jù)中找類似的成功案例。以此為基礎(chǔ),根據(jù)案例爐與本爐次的參數(shù)差異進行修正。
熱軋帶鋼軋制結(jié)束后,需要確定冷卻水閥門的打開組數(shù),以便冷卻到特定的目標(biāo)溫度。在冷卻過程中,冷卻速度受鋼種、厚度、起始溫度、冷卻目標(biāo)溫度、冷卻水溫度等多個因素的影響,純粹的機理模型很難準(zhǔn)確計算。解決問題的辦法是對帶鋼進行分組,在每個分組內(nèi)確定一組與冷卻速度有關(guān)的參數(shù)。在此基礎(chǔ)上,對具體帶鋼參數(shù)進行變換、得到對于的冷卻制度,并根據(jù)實測結(jié)果對參數(shù)進行修訂。在某些鋼鐵企業(yè),響應(yīng)的分組有幾萬個。
我們注意到:上述方法其實解決了模型的應(yīng)用范圍大和精度要求高之間的矛盾。外表上看,模型適合于各種產(chǎn)品、應(yīng)用范圍很大。在這個范圍內(nèi),模型本質(zhì)上可能是非線性關(guān)系。但是,通過尋找類似的案例,就自然地回避了非線性問題。而歷史的案例,本質(zhì)上是實踐積累的結(jié)果。具體地看,非線性模型本質(zhì)上是由若干個小模型組成的,每個模型的應(yīng)用范圍很小。這樣,就可以在每一個小的范圍內(nèi)設(shè)法提高模型的精度。在這個小的范圍內(nèi),參數(shù)的影響往往可以用線性模型或者廣義線性模型近似。在范圍足夠小的時候,人們就可以采用反饋調(diào)節(jié)等手段,進一步提升模型的精度。
我們曾經(jīng)提到:工業(yè)對象復(fù)雜、對精度要求高的時候,知識往往來自于實踐。上述辦法本質(zhì)上就是把實踐中行之有效的做法記下來,用于指導(dǎo)下次的實踐。從本質(zhì)上講,這種辦法與PDCA持續(xù)改進的思想是一致的。但這種持續(xù)改進是由計算機自動完成的。
在筆者看來,工業(yè)大數(shù)據(jù)的根本優(yōu)勢是數(shù)據(jù)的質(zhì)量好。質(zhì)量好的一個方面,就是數(shù)據(jù)分布范圍大,覆蓋了各種可能發(fā)生的情況。這就是所謂“ 樣本等于全體”。在這樣的前提下,就總能從歷史上找到類似的案例。所以,大數(shù)據(jù)的本質(zhì)優(yōu)勢是數(shù)據(jù)來源全面,而不是數(shù)量多到什么程度。如果數(shù)據(jù)存儲得足夠久、場景存儲得足夠多,新問題就會越來越少,這類方法就容易走向?qū)嵱昧恕?/p>
以設(shè)備故障診斷為例。針對單臺設(shè)備研究問題時,故障樣本就少,甚至每次都不一樣。但是,如果把成千上萬臺設(shè)備的信息收集起來,情況就不一樣了:每次出現(xiàn)問題,都容易在歷史數(shù)據(jù)庫中找到類似的案例。這時,人們研究的重點,往往是如何利用理論的指導(dǎo),更加準(zhǔn)確地尋找類似案例、更加準(zhǔn)確地修正。
“戒煙最容易了:我都戒過100多次了”。
從事數(shù)據(jù)建模工作時,往往就會遇到這樣的問題:用一批數(shù)據(jù)建立數(shù)學(xué)模型,結(jié)果非常理想。但不久以后,精度卻很快降低下去、無法繼續(xù)使用。所以,許多結(jié)果很好的學(xué)術(shù)論文,在現(xiàn)實中卻是沒有用的。為什么會出現(xiàn)這樣的問題呢?
有個小朋友說:穿紅裙子的人是我的媽媽。在特定的時間、特定的地點,小朋友的話是正確的。但如果換了一個場景、換一個日子,這個判別標(biāo)準(zhǔn)可能就錯了:媽媽可能不穿紅裙子了,穿紅裙子的女士也可能有很多個。
數(shù)據(jù)建模的失效常常也是類似原因?qū)е碌模寒?dāng)場景變化時,模型很容易失效。要解決這樣的問題,必須綜合運用多個方面的特征。
第四范式與科學(xué)規(guī)律發(fā)現(xiàn)
自然科學(xué)規(guī)律本質(zhì)上也是用數(shù)學(xué)模型描述的。自然科學(xué)規(guī)律的特點是:模型精度高、適用范圍大。我們前面曾經(jīng)提到,經(jīng)典科學(xué)原理往往有個特點:變量的數(shù)目非常少。這背后有個重要的原因:
科學(xué)結(jié)論都是需要經(jīng)過嚴(yán)格檢驗和論證的。按照科學(xué)哲學(xué)的觀點,科學(xué)理論的基本特征是可證偽性。所謂的可證偽性,就是理論上存在一種驗證辦法,如果驗證結(jié)果與理論不符,就可以證明理論是錯的。如果一個理論涉及到的因素少,就容易證偽。
復(fù)雜問題的影響因素多,不容易嚴(yán)格論證。例如,新藥的開發(fā)困難,就與此有關(guān)。在大數(shù)據(jù)時代,這類問題可能得到改變。圖靈獎得主吉姆·格雷(Jim Gray)將科學(xué)研究分為四類范式(Paradigm )即實驗歸納,模型推演,仿真模擬和數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。其中,最后一種就是通過大數(shù)據(jù)發(fā)現(xiàn)科學(xué)知識。
理論上講,許多工業(yè)過程都可以用科學(xué)公式來描述。但現(xiàn)實的影響因素太多;、冶金等行業(yè)的一種典型的現(xiàn)象是:在同一個生產(chǎn)過程中同時存在著幾十種化學(xué)反應(yīng)。每個化學(xué)反應(yīng)都可以用簡單的化學(xué)反應(yīng)方程來描述。但反應(yīng)之間互相影響,許多參數(shù)會動態(tài)變化、無法準(zhǔn)確確定,整體的化學(xué)反應(yīng)過程就很難準(zhǔn)確描述。
鋼鐵材料中的很多物理和化學(xué)變化是在固體中進行的、反應(yīng)過程不充分、不徹底。故而導(dǎo)致產(chǎn)品質(zhì)量與工藝過程密切相關(guān)。鋼鐵產(chǎn)品的力學(xué)性能是多種元素的含量和工藝參數(shù)綜合影響的結(jié)果。力學(xué)性能與影響因素都是可以測量的物理量,而成分和工藝可以決定性能。理論上講,存在一個科學(xué)的公式來描述性能與成分、工藝的關(guān)系。
對于這樣的情況,傳統(tǒng)的辦法很難建立準(zhǔn)確的模型。除了問題本身復(fù)雜外,一個重要的原因就是許多干擾是不可見的。這就會對模型的驗證帶來巨大的困難。
在大數(shù)據(jù)的背景下,為解決這類困難提供了可能。一個重要的原因是:當(dāng)數(shù)據(jù)量足夠大的時候,隨機干擾是可以通過平均的方法濾除的。這相當(dāng)于數(shù)據(jù)的精度可以大大提高。同時,大數(shù)據(jù)還可能為人們提供較好的樣本分布,有助于復(fù)雜問題的解耦,即把復(fù)雜的、變量多的模型簡化成若干變量數(shù)目少的簡單模型。模型簡單以后,也便于科學(xué)地驗證。
模型簡化的過程,其實是一個猜測和排除的過程。這一點和傳統(tǒng)的科學(xué)研究非常類似。是一個循環(huán)往復(fù)、不斷深入的過程,需要不斷地進行定性判斷和定量的估計。在這個過程中,科學(xué)知識和數(shù)據(jù)中反映出來的現(xiàn)象可以共同起作用。人的經(jīng)驗也是非常重要的:優(yōu)秀的專家往往“猜得準(zhǔn)”,能夠提高研究的效率和成功率。
需要特別指出的是:這樣的研究并不能保證成功。成功的必要條件是數(shù)據(jù)本身決定的。一定數(shù)量的科學(xué)實驗和仿真研究也是必要的。