如今,人工智能已經(jīng)深入到社會(huì)的方方面面,滲透到每個(gè)人的日常生活,從自動(dòng)駕駛到人臉識(shí)別,再到機(jī)器翻譯。
然而,大家似乎只知人工智能,卻少有人了解機(jī)器學(xué)習(xí)。其實(shí),人工智能得到廣泛應(yīng)用,其底層基石正是機(jī)器學(xué)習(xí)。
絕大多數(shù)涉足人工智能的公司,無(wú)論是提供解決方案的科技公司,還是應(yīng)用人工智能的行業(yè)用戶,都會(huì)把機(jī)器學(xué)習(xí)作為其主要業(yè)務(wù)領(lǐng)域之一。
未來(lái),隨著人工智能的社會(huì)普及和行業(yè)深入,機(jī)器學(xué)習(xí)在產(chǎn)業(yè)界的重要性會(huì)得到進(jìn)一步加強(qiáng)。在新興的大模型領(lǐng)域,會(huì)有機(jī)會(huì)涌現(xiàn)出一批科技創(chuàng)新企業(yè),成為人工智能賽道上真正的明珠。
機(jī)器學(xué)習(xí)是人工智能的基石
機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)來(lái)模擬人類的學(xué)習(xí)行為,是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。
機(jī)器學(xué)習(xí)具有兩個(gè)典型的過(guò)程,一是訓(xùn)練,二是推理。這兩個(gè)過(guò)程,都需要大量的算力作為保障,尤其是“訓(xùn)練”,不僅需要龐大的AI算力,往往還需要海量的數(shù)據(jù)。
機(jī)器學(xué)習(xí)的訓(xùn)練和推理,相當(dāng)于人類的學(xué)習(xí)和工作。其中訓(xùn)練的過(guò)程尤其重要,就像人類要通過(guò)16-20年的漫長(zhǎng)學(xué)習(xí)才能具備工作能力一樣。訓(xùn)練的結(jié)果則是“模型”,類似于人類的知識(shí)。而推理的過(guò)程則是把模型(知識(shí)),應(yīng)用到實(shí)踐工作中。
以自動(dòng)駕駛為例。自動(dòng)駕駛汽車上都安裝了很多攝像頭和傳感器,用于探測(cè)路況。根據(jù)采集到的視頻等數(shù)據(jù),做出判斷之后,決定下一步操作:轉(zhuǎn)彎、并線、加速、減速等。這個(gè)過(guò)程就是推理,推理依賴的不僅是實(shí)時(shí)采集到的數(shù)據(jù),更需要使用訓(xùn)練產(chǎn)生的模型。
訓(xùn)練的工作是在推理之前完成的。自動(dòng)駕駛公司要進(jìn)行數(shù)十萬(wàn),甚至上百萬(wàn)公里的實(shí)際道路學(xué)習(xí)。對(duì)于測(cè)試中獲得的圖片和影像數(shù)據(jù),通過(guò)人工等標(biāo)注方式,告訴計(jì)算機(jī)什么是路人、什么是車道、什么是限速牌等等。計(jì)算機(jī)需要通過(guò)各種算法對(duì)數(shù)據(jù)進(jìn)行分析,最后形成了模型,被裝載到自動(dòng)駕駛汽車上。
目前,機(jī)器學(xué)習(xí)被普遍采用的部署方式是:在云側(cè)進(jìn)行訓(xùn)練,因?yàn)樾枰罅康臄?shù)據(jù)和算力;在邊側(cè)或者端側(cè)進(jìn)行推理,因?yàn)樾枰蜁r(shí)延和貼近應(yīng)用。
機(jī)器學(xué)習(xí)的不同實(shí)現(xiàn)方式
當(dāng)前,人工智能的主要處理對(duì)象是自然語(yǔ)言、圖片、視頻等,從這些數(shù)據(jù)中提取信息,進(jìn)行處理分析,并加以理解,最終落地實(shí)際應(yīng)用。機(jī)器學(xué)習(xí)的對(duì)象,也正是這些數(shù)據(jù)。如何從數(shù)據(jù)中獲得知識(shí),一直是科學(xué)界和產(chǎn)業(yè)界共同努力的方向。
在機(jī)器學(xué)習(xí)的訓(xùn)練過(guò)程中,算法至關(guān)重要,有決策樹(shù)算法、樸素貝葉斯算法、隨機(jī)森林算法、神經(jīng)網(wǎng)絡(luò)算法等等。但這些是科學(xué)家們需要努力攻關(guān)的,對(duì)于產(chǎn)業(yè)界而言,更為關(guān)注的是機(jī)器學(xué)習(xí)的實(shí)現(xiàn)方法。
按照訓(xùn)練(學(xué)習(xí))方式的不同,機(jī)器學(xué)習(xí)通?梢苑譃楸O(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三大類。
監(jiān)督學(xué)習(xí),也被稱為有導(dǎo)師的學(xué)習(xí),如同老師教學(xué)生一樣。在監(jiān)督學(xué)習(xí)過(guò)程中,訓(xùn)練的每個(gè)示例都是要有標(biāo)注的,就像上面提到的自動(dòng)駕駛實(shí)際道路學(xué)習(xí)一樣。監(jiān)督學(xué)習(xí)依賴于高質(zhì)量的數(shù)據(jù),包括數(shù)據(jù)的質(zhì)和量。質(zhì)——必須準(zhǔn)確,否則計(jì)算機(jī)就會(huì)學(xué)到錯(cuò)誤的知識(shí),導(dǎo)致推理出錯(cuò);量——要覆蓋到實(shí)際道路的所有情況,否則計(jì)算機(jī)就不知道該如何應(yīng)對(duì)該情況。
非監(jiān)督學(xué)習(xí),即沒(méi)有導(dǎo)師的學(xué)習(xí),訓(xùn)練的數(shù)據(jù)不需要做標(biāo)記,減少了人工做數(shù)據(jù)標(biāo)識(shí)的工作量,而且能夠覆蓋人想象不到的情況。比如在AI工業(yè)質(zhì)檢中,可能的產(chǎn)品缺陷種類太多,人工很難窮舉。非監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)難度更大,是機(jī)器學(xué)習(xí)的未來(lái)發(fā)展方向。
強(qiáng)化學(xué)習(xí)也叫增強(qiáng)學(xué)習(xí),其訓(xùn)練過(guò)程不需要數(shù)據(jù),而是通過(guò)特定環(huán)境中一系列行為的后果進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)輸入的是環(huán)境反饋,即獎(jiǎng)懲信號(hào),類似于馬戲團(tuán)的動(dòng)物訓(xùn)練過(guò)程。
此外,深度學(xué)習(xí)和聯(lián)邦學(xué)習(xí),也是機(jī)器學(xué)習(xí)正在快速興起的兩個(gè)分支。前者已經(jīng)在AlphaGo上得到成功實(shí)踐,后者則由于數(shù)據(jù)安全的要求而隨著隱私計(jì)算得到應(yīng)用。
迅速壯大的行業(yè)應(yīng)用市場(chǎng)
市場(chǎng)研究公司IDC的預(yù)測(cè)數(shù)據(jù)顯示,未來(lái)五年,全球人工智能IT投資規(guī)模的年復(fù)合增長(zhǎng)率約為26.5%;到2026年,中國(guó)市場(chǎng)的規(guī)模有望達(dá)到266.9億美元,全球占比約為8.9%,位列全球第二。
在這個(gè)快速增長(zhǎng)的市場(chǎng)中,機(jī)器學(xué)習(xí)算力、機(jī)器學(xué)習(xí)開(kāi)發(fā)平臺(tái)、機(jī)器學(xué)習(xí)行業(yè)應(yīng)用,將占據(jù)非常重要的組成部分。
在算力層面,除了專業(yè)的芯片公司,很多科技公司也在開(kāi)發(fā)用于機(jī)器學(xué)習(xí)的芯片。比如,華為的昇騰芯片、AWS的訓(xùn)練芯片Trainium和推理芯片Inferentia、阿里云的推理芯片含光800等。
人工智能應(yīng)用要想落地,還必須要有機(jī)器學(xué)習(xí)開(kāi)發(fā)平臺(tái)的支持,這是一個(gè)面向開(kāi)發(fā)者、數(shù)據(jù)科學(xué)家、業(yè)務(wù)分析師的PaaS平臺(tái)。目前,機(jī)器學(xué)習(xí)開(kāi)發(fā)平臺(tái)的提供商大致有兩類,一類是云服務(wù)商,比如AWS的SageMaker、華為云的ModelArts等;另外一類是專業(yè)的人工智能公司,比如第四范式的Sage Platform、九章云極的DataCanvas等。
在應(yīng)用層面,隨著越來(lái)越多的企業(yè)開(kāi)始數(shù)字化轉(zhuǎn)型以及智能化升級(jí),機(jī)器學(xué)習(xí)在行業(yè)市場(chǎng)得到了廣泛應(yīng)用,為人工智能賦能產(chǎn)業(yè)提供助力。除了人臉識(shí)別、自動(dòng)駕駛、機(jī)器翻譯等消費(fèi)級(jí)應(yīng)用,工業(yè)質(zhì)檢、新藥開(kāi)發(fā)、金融風(fēng)險(xiǎn)評(píng)估等企業(yè)級(jí)應(yīng)用,也越來(lái)越多。
制造行業(yè)的AI視覺(jué)質(zhì)量檢測(cè),是機(jī)器學(xué)習(xí)最成熟的應(yīng)用場(chǎng)景之一。IDC預(yù)計(jì),到2025年中國(guó)工業(yè)AI質(zhì)檢整體市場(chǎng)將達(dá)到62億元,年均復(fù)合增長(zhǎng)率為28.5%。中科創(chuàng)達(dá)在Amazon SageMaker之上構(gòu)建了創(chuàng)達(dá)智慧視覺(jué)檢測(cè)系統(tǒng),幫助某面板制造企業(yè)取代人工質(zhì)檢,檢測(cè)時(shí)間從3.5秒降低到0.1秒,準(zhǔn)確率從85%提升到99%。
另外比如蛋白質(zhì)結(jié)構(gòu)研究,是生命科學(xué)領(lǐng)域的基礎(chǔ)問(wèn)題。深勢(shì)科技與阿里云機(jī)器學(xué)習(xí) PAI 團(tuán)隊(duì)合作,通過(guò)全新的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)推理加速方案FoldAcc,結(jié)合深勢(shì)Uni-Fold最新模型代碼和參數(shù),將單次預(yù)測(cè)能支持的最大氨基酸序列長(zhǎng)度提升至6.6k,覆蓋99.992%已知的蛋白序列。
無(wú)論是機(jī)器學(xué)習(xí)的行業(yè)應(yīng)用還是通用應(yīng)用,未來(lái)都會(huì)有更多的科技創(chuàng)新企業(yè)涉足其中。這也對(duì)其提出了更高的要求——既要懂前沿的AI科技,也要有深度的行業(yè)洞察,兩者缺一不可。
正在快速興起的大模型市場(chǎng)
從機(jī)器學(xué)習(xí)的實(shí)現(xiàn)方式可以看出,“模型”是機(jī)器學(xué)習(xí)的關(guān)鍵環(huán)節(jié),它是“訓(xùn)練”的結(jié)果,也是“推理”的基礎(chǔ)。要得到一個(gè)好的模型,需要海量的高品質(zhì)數(shù)據(jù),也需要海量的算力支持,可謂成本高昂。
一方面是模型訓(xùn)練的投資巨大,另一方面是每個(gè)行業(yè)應(yīng)用都是差異化的,這就導(dǎo)致需要重復(fù)進(jìn)行大量的模型訓(xùn)練,使得機(jī)器學(xué)習(xí)的成本居高不下,阻礙了行業(yè)應(yīng)用的普及。
大模型的概念,由此而快速興起。國(guó)內(nèi)一些頭部科技公司亦涉足其中,比如華為的盤古和百度的飛槳等。
大模型更準(zhǔn)確的叫法應(yīng)該是基礎(chǔ)模型,是大規(guī)模預(yù)訓(xùn)練的結(jié)果,因?yàn)橛兄噙_(dá)千億甚至上萬(wàn)億的參數(shù),而被稱為大模型或者超大模型。
大模型被稱為規(guī);a(chǎn)高性能機(jī)器學(xué)習(xí)模型的生產(chǎn)線:通過(guò)提煉各大領(lǐng)域的共性來(lái)進(jìn)行大規(guī)模預(yù)訓(xùn)練,生產(chǎn)出標(biāo)準(zhǔn)化的基礎(chǔ)大模型;然后再根據(jù)各個(gè)行業(yè)不同的共性需求,訓(xùn)練出行業(yè)預(yù)訓(xùn)練大模型;最后根據(jù)具體應(yīng)用場(chǎng)景的需求,通過(guò)少量定制開(kāi)發(fā)形成推理模型,從而落地應(yīng)用。
這樣的逐級(jí)訓(xùn)練大模型的方式,可以最大程度降低全社會(huì)在機(jī)器學(xué)習(xí)成本上的投入,實(shí)現(xiàn)AI應(yīng)用的規(guī);涞亍H砸宰詣(dòng)駕駛為例,如果每個(gè)整車廠都要從頭開(kāi)始做模型訓(xùn)練,無(wú)疑是很大的浪費(fèi),畢竟大家面臨的道路情況是一樣的。如果有專業(yè)第三方公司來(lái)訓(xùn)練和提供標(biāo)準(zhǔn)化的大模型,就可以避免重復(fù)投入。這樣,既降低成本又能提升性能,使自動(dòng)駕駛更快落地。
大模型市場(chǎng)才剛剛起步,未來(lái)發(fā)展空間很大,當(dāng)然變數(shù)也很大。訓(xùn)練好大模型和應(yīng)用好大模型,同樣重要。在這兩個(gè)環(huán)節(jié)上,未來(lái)或許會(huì)涌現(xiàn)出一批創(chuàng)業(yè)企業(yè),尤其是專注于生產(chǎn)行業(yè)大模型的科技創(chuàng)新企業(yè)。