來源:北大青鳥總部 2022年12月07日 15:09
今天小編走在街上,一會兒的功夫收到好幾張傳單廣告:“健身房游泳館了解一下,我們的私教可以為您量身定制,根據大數據分析為您挑選最適合您的健身計劃”。
“對不起,沒錢”。
說完這句萬能通用的應答傳單口令之后,小編愉快的回到了家中??粗巴獾男枪?,想到了自己寥寥的工資。突然一個激靈想到,為什么現在到處都是大數據大數據,大數據到底是個什么東西啊。
小編順勢拿起了手機在某直聘上搜了一下關鍵詞“大數據”,我勒個親娘了,這個東西為什么這么高工資?。。?/p>
于是小編痛定思痛,開始了解,大數據到底是個啥。這時小編的腦子里全是走上人生巔峰,迎娶白富美的劇情。
接下來就是小編給大家總結的大數據。
可以說,大數據跟在廚房做菜是一樣一樣的。我現在給大家講一個故事,來解釋這一切。
有一天,小明的爸爸吩咐小明說,家里馬上要來客人,讓小明準備兩道拿手菜。小明得到了這個通知后開始著手籌劃,他將做菜這個任務分解為買菜、洗菜摘菜、制定菜單、炒菜。起初是他一個人做這些所有的事情。
終于飯菜都做好了,并且得到了客人滿意的答復,小明的廚藝也日益精湛。后來小明家逐漸開起了餐館,他們換了更大的廚房,起了很多個爐灶一起炒菜,很多個水池一起擇菜洗菜,雇了一些員工共同承擔這些工作。
他們能承擔的酒席也由最開始的一桌菜,到現在可以承擔10桌客人的用菜。小明還說,就算之后來再多的客人,我也可以再承包一個廚房,也能夠接待的過來。最后小明家餐館的生意也越來越紅火了。
看到這,想要取關的同學們趕緊回來,干貨時間來了。
上面這個故事咋一看像小學生作文在記流水賬,但實際上這個故事已經說明白了大數據所處理的大部分的問題。咱們一起來看看。
首先小明的爸爸吩咐小明說,家里要來客人,需要做幾道拿手菜。這個過程是大數據開發(fā)過程的需求立項階段,大多數的產品開發(fā)都是根據需求來細化開發(fā)過程。
現在已經有了需求了,小明將需求進行了分解和細化,提出了完成這幾道拿手菜需要進行幾個步驟,買菜、洗菜摘菜、制定菜單、炒菜這幾個環(huán)節(jié)。這幾個步驟在大數據開發(fā)流程中可以稱為:數據采集、數據清洗、數據分析/數據建模、數據加工/數據應用。
數據采集顧名思義,跟炒菜一樣,巧婦難為無米之炊,需要做幾道好菜,首先得有原材料。那么數據采集就是買菜的過程。
數據清洗同樣對應著洗菜摘菜,也就是把一些臟了的數據剔除。
數據分析/數據建??梢钥闯墒侵贫ú藛蔚沫h(huán)節(jié),模型就等于是一個菜單,菜單上有每道菜的做法,我們將洗好的菜按照菜單上的做法就可以做出好吃的菜啦。模型可以看成是每道菜的做法,它讓數據能真正變得有實際利用的價值,它能真正的去挖掘數據中更深層的意義。
最后炒菜過程實際就是數據的加工和應用了,最終通過模型得出來的數據,我們可以在很多地方應用,比如用來做個性化推薦、用來通過數據可視化制作數據分析圖表、使用數據模型來預測事件等等。
大數據開發(fā)流程已經說明白了,有同學可能會問,你這些開發(fā)流程我可以在很多很小的場景使用也是一樣,為什么偏偏要強調是大數據開發(fā)呢?這位同學別急,等我慢慢來說完這整個故事。
咱接著說故事,制定完這些計劃,最開始都是小明一個人完成,也完成的比較好。這種場景也就對應我們最開始使用單機進行數據開發(fā)的情形,通過這種開發(fā)流程確實也可以應對大多數的問題,但后來問題就來了。
小明家后來開了餐館,由于生意太好,他發(fā)現靠他的雙手無法做這么多菜來接待大量的客人,所以他重新裝修了廚房,洗菜的水池擴充、爐灶擴充、買菜炒菜的人手同樣雇了很多人。
這也對應著數據開發(fā)的場景,一開始數據量不大時,用單機進行處理可以從容應對,當用戶量增加,數據量增加后,單機數據處理的瓶頸也來了,這么多數據采集不過來、清洗不過來、分析不過來。
所以大數據技術應運而生,大數據技術的核心說白了就是可以處理大量的數據,而一般的做法就是將大數據“廚房”中的設備增加,比如水池、爐灶、增加人手等。
這些情況對應著大數據的分布式技術,大數據通常是以分布式集群的形式存在,既然單機處理大數據有瓶頸,那我就多叫幾個兄弟一起來處理,你來10倍數據,我就多叫10倍的兄弟。所以理論上,不管你的數據有多大,只要我的兄弟足夠多,我都能夠處理得了。