來(lái)源:北大青鳥總部 2021年02月07日 10:07
在人工智能的眾多應(yīng)用方向中,最重要的方向之一便是機(jī)器學(xué)習(xí),在機(jī)器學(xué)習(xí)中又分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)等,今天我們要介紹的便是有監(jiān)督機(jī)器學(xué)習(xí)。
有監(jiān)督機(jī)器學(xué)習(xí)指的是通過(guò)有標(biāo)記的訓(xùn)練樣本集去進(jìn)行學(xué)習(xí)訓(xùn)練,獲得一個(gè)最優(yōu)模型,此后同類的數(shù)據(jù)可按照此模型進(jìn)行輸入,根據(jù)輸出的結(jié)果進(jìn)行預(yù)測(cè)、分類,在像人一樣進(jìn)行思考的道路上實(shí)現(xiàn)第一步。常見(jiàn)的有監(jiān)督學(xué)習(xí)算法包含線性回歸算法、決策樹(shù)、支持向量機(jī)、KNN。
那這些算法具體又是怎么樣呢?我們一起來(lái)看看吧。為了幫助大家更好
KNN,即KNearestNeighbors,K個(gè)最近的鄰居,指的是當(dāng)預(yù)測(cè)集中來(lái)了一個(gè)新的數(shù)據(jù)時(shí),我們看這個(gè)數(shù)據(jù)距離它最近的K個(gè)點(diǎn)分別是什么,從而判斷新數(shù)據(jù)是什么類別。春節(jié)檔馬上上映電影《唐探3》(下圖中的小綠點(diǎn)),我們要預(yù)測(cè)它的票房,這時(shí)候可以獲取同類電影、同類導(dǎo)演、演員、上映時(shí)間、上映時(shí)長(zhǎng)的電影數(shù)據(jù),計(jì)算《唐探3》到這些電影(下圖中的小紅點(diǎn)、小藍(lán)角)之間的距離,看看前K個(gè)的值,如果前K個(gè)值中大部分是5億~10一,少部分是低于5億,少部分是高于10億,那么預(yù)測(cè)《唐探3》票房在5-10億是最可能的。
在KNN算法中,K的值是很重要的,K過(guò)小或過(guò)大,都會(huì)對(duì)結(jié)果有影響,因此在實(shí)際操作中,也需要通過(guò)不斷的實(shí)踐,找到最合適的K值。KNN算法的好處是簡(jiǎn)單、模型訓(xùn)練時(shí)間快、預(yù)測(cè)效果好,缺點(diǎn)是耗內(nèi)存、速度慢、對(duì)不相關(guān)的數(shù)據(jù)規(guī)模敏感,因?yàn)榇鎯?chǔ)了大量的數(shù)據(jù)、每個(gè)數(shù)據(jù)逐次計(jì)算。當(dāng)數(shù)據(jù)量較大時(shí),可以選擇使用KNN算法。
線性回歸算法,即LinearRegression,線性指的是直線型關(guān)系,兩個(gè)變量之間的關(guān)系是一次函數(shù)(如y=a*x+b),通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行處理,找到符合數(shù)據(jù)之間的規(guī)律關(guān)系,從而對(duì)新的值輸入時(shí)進(jìn)行結(jié)果預(yù)測(cè),比較常見(jiàn)的是股價(jià)預(yù)測(cè)、電影票房預(yù)測(cè)等場(chǎng)景。
以預(yù)測(cè)春節(jié)檔馬上上映的《唐人街探案3》票房為例,已知數(shù)據(jù)有電影上映時(shí)間、價(jià)格、拍攝國(guó)家、電影類型、觀影時(shí)長(zhǎng)、演員陣容、上映電影院數(shù)量、上映時(shí)長(zhǎng)、宣傳平臺(tái)、宣傳時(shí)長(zhǎng)、電影票房等數(shù)據(jù),基于基準(zhǔn)數(shù)據(jù),我們可以計(jì)算出電影票房與電影之間的關(guān)系(y=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+...+b),再將《唐探3》的對(duì)應(yīng)數(shù)據(jù)帶入之后,大概就能得到預(yù)估票房了。
在線性回歸算法中,還有一個(gè)重要的模型便是損失函數(shù),即用來(lái)估量預(yù)測(cè)值與真實(shí)值之間的不一致程度,損失函數(shù)越小,模型效果越好,我們可以通過(guò)損失函數(shù)來(lái)調(diào)優(yōu)線性回歸模型。
決策樹(shù)算法,是與線性算法相對(duì)的,在決策樹(shù)中是一個(gè)類似N叉樹(shù)的樹(shù)形結(jié)構(gòu),每一個(gè)數(shù)內(nèi)部節(jié)點(diǎn)代表對(duì)特征的一個(gè)測(cè)試,樹(shù)的分支代表測(cè)試結(jié)果,最高層就是根節(jié)點(diǎn)。在決策樹(shù)模型的生成中,一般包含特征選擇、決策樹(shù)生成、決策樹(shù)修剪三部分,在特征選擇中,一般對(duì)實(shí)例的某一特征進(jìn)行測(cè)試。在構(gòu)造決策樹(shù)時(shí),首先把所有的訓(xùn)練數(shù)據(jù)都放在根節(jié)點(diǎn),選擇一個(gè)最優(yōu)特征,按特征把訓(xùn)練數(shù)據(jù)分割成子集,如果子集可以被正確分類,則繼續(xù)構(gòu)造葉子節(jié)點(diǎn),根據(jù)測(cè)試結(jié)果把實(shí)例分配到子節(jié)點(diǎn),每個(gè)子節(jié)點(diǎn)都對(duì)該特征的一個(gè)取值,不斷的進(jìn)行測(cè)試分配,直到所有子集都分配到葉子節(jié)點(diǎn)。
我們還是以《唐人街探案3》為例,我們拿到了所有電影的票房數(shù)據(jù),并且設(shè)定了電影票房的相關(guān)屬性,包括電影類型、上映時(shí)間、拍攝成本、導(dǎo)演水平、演員評(píng)價(jià)等,通過(guò)決策樹(shù)模型來(lái)訓(xùn)練電影票房與對(duì)應(yīng)屬性的關(guān)系,得到如下決策樹(shù)模型,我們?cè)侔选短铺?》的相關(guān)電影屬性進(jìn)行代入,預(yù)測(cè)電影票房。
預(yù)測(cè)電影票房只是機(jī)器學(xué)習(xí)中的一種實(shí)踐,只要有了對(duì)應(yīng)的數(shù)據(jù)集,我們可以預(yù)測(cè)房?jī)r(jià)、股價(jià)、天氣走勢(shì),甚至是疫情走勢(shì)。人工智能正在讓我們的生活變得越來(lái)越簡(jiǎn)單、可控,而其對(duì)應(yīng)的有監(jiān)督機(jī)器學(xué)習(xí)算法你掌握了嗎?今年春節(jié)檔上映的《唐人街探案3》票房你又預(yù)測(cè)多少呢?
文章來(lái)源“AI課工場(chǎng)”