用純粹的數據建模時,建議不要多于3個自變量,如果自變量超過5個就非常困難了。自變量多時,純粹的數據建模會遭遇組合爆炸問題。這時,成功的概率如同大海撈針。
?
對于一般的工業過程,超過10個自變量是非常常見的。這時,純粹的數據建模基本上不靠譜。但另外一個方面,無論問題涉及到多少個自變量,人類似乎總會有些辦法。這聽起來似乎很神秘,但確實如此。所以,數據建模一定要學會借助人的理論和經驗。同時,我也發現:基于人的經驗和理論進行數據建模,總會比人的經驗強一點。對創新來說,強一點就夠了——然后可以持續改進。一下子想得到理想的結果,基本上是不靠譜的。
?
但是,純粹的理論一般也不靠譜。我們注意到:科學原理很少有10個以上變量的。因為科學研究的都是本質、都是簡單的東西。而在應用科學原理的時候,人們往往卻會遇到10個以上自變量的情況——這是因為,科學原理中所需要的參數,往往是不能直接測量的、而是受到其他因素的影響。所以,純粹的機理模型,也幾乎找不到好用的地方。
?
事實上,工業界的知識,往往不是理論推導出來的——而是實驗手段獲得的。理論的作用是給人以啟發,少走彎路、少做實驗。一個辦法成功了,就記住這個辦法。然后,把這個辦法所用的參數盡可能地固定下來,以求得穩定的產品質量——這就是工業界真正的邏輯。
?
機理和數據方法的綜合應用,往往就是基于這種知識的:所謂的知識,其實是知道一個工作點;工業界總想把生產過程的重要參數控制在這個工作點附近。但由于各種干擾粗暴在,總會出現偏離。出現偏離之后,就要設法糾偏。糾偏的時候需要找到辦法:可以用機理得到一個架構,然后用實際的數據來糾正機理模型。這樣,機理和數據就融合起來了。
?
科學家會告訴你:理想情況是怎樣的。而工程師的水平在于:條件不理想的時候,你知道怎么辦。