小伙伴們大家好,今天何文滔抽了個(gè)時(shí)間整理了一些關(guān)于如何獲得大數(shù)據(jù)的途徑,6種數(shù)據(jù)的收集方法,以及如何獲得大數(shù)據(jù)的一系列相關(guān)干貨,精心為你準(zhǔn)備的干貨,通過(guò)這篇文章相信你能有所收貨!
4V定義很深,然而對(duì)于大部分做大數(shù)據(jù)的人而言,這個(gè)定義并沒(méi)有什么卵用。一般語(yǔ)用中的大數(shù)據(jù)事實(shí)上是指分布式存儲(chǔ)系統(tǒng)(distributed file
system)和基于此系統(tǒng)的數(shù)據(jù)生態(tài)環(huán)境。
在理解“大數(shù)據(jù)”之前,首先要回答為啥這個(gè)問(wèn)題不能用抽樣生成的小樣本+概率統(tǒng)計(jì)來(lái)解決?
目前來(lái)看,有兩種情況。第一,需要描述全局狀態(tài)的,比如page rank 算法; 第二,需要做長(zhǎng)尾的,抽樣很可能方差太大,大概也就是做個(gè)性化推薦的。最近“大數(shù)據(jù)”的興起,跟個(gè)性化算法的興起有很大關(guān)系。沒(méi)有個(gè)性化服務(wù)要求,就搜索那幾家大佬折騰一下就完了。
其次要回答的問(wèn)題是,為啥必須要用分布式文件系統(tǒng)?
簡(jiǎn)單的回答就是文件大。順著慧航的桿爬一下,matlab不是不能做“大數(shù)據(jù)”分析,但是你上哪兒找內(nèi)存能放下幾個(gè)T數(shù)據(jù)的服務(wù)器?
但是要是內(nèi)存不是問(wèn)題呢?matlab可不可以做大數(shù)據(jù)分析呢?如果計(jì)算時(shí)間不是問(wèn)題,那也是可以的。萬(wàn)一時(shí)間成問(wèn)題怎么辦?
2000年左右的Google面臨一個(gè)問(wèn)題,那就是page rank每天得算,單一服務(wù)器的運(yùn)算能力又叫人著急,怎么辦?
要搶時(shí)間,就要連幾百臺(tái)服務(wù)器,連上這么多服務(wù)器時(shí),0.1%的故障率都會(huì)保證幾乎每天都有服務(wù)器掛掉。所以不僅要并行,還要做文件備份。文件備份時(shí),怎么確保進(jìn)程讀寫(xiě)不沖突,怎么確保雞蛋不在一個(gè)籃子里放著(即文件本身和備份都在一個(gè)服務(wù)器上)?
于是就有了分布式文件系統(tǒng)。后來(lái)Yahoo的一個(gè)工程師團(tuán)隊(duì)把Yahoo的系統(tǒng)開(kāi)源了,就有了Hadoop;facebook在此基礎(chǔ)上做了類sql的hive;Twitter貢獻(xiàn)了流處理的storm。這三家的業(yè)務(wù)共性是,要掃全量,及時(shí)性要求高,單機(jī)計(jì)算能力著急所以要大規(guī)模并行且保證穩(wěn)定性。
世界上真正需要大數(shù)據(jù)的公司木有幾家,世界上真正需要用大數(shù)據(jù)處理的問(wèn)題木有幾個(gè)。
說(shuō)自己做大數(shù)據(jù),要么在吹牛逼,要么在裝牛逼。要么就是公司搭了hadoop懶得做抽樣和算法優(yōu)化。
當(dāng)向百度提交一個(gè)”珠串”搜索請(qǐng)求時(shí),百度要知道哪些網(wǎng)頁(yè)和珠串相關(guān),這用到page rank算法,這要求百度把整個(gè)中文互聯(lián)網(wǎng)都爬下來(lái)篩一遍,要是沒(méi)有幾萬(wàn)個(gè)Map Reduce任務(wù)跑,每天更新網(wǎng)頁(yè)權(quán)重,題主只能搜到半年前的信息。
假設(shè)題主是淘寶小二,并且花錢(qián)做廣告位宣傳,那么淘寶需要大數(shù)據(jù)技術(shù)。它需要定時(shí)更新幾億用戶的購(gòu)買(mǎi)行為,并找到瀏覽過(guò)或者買(mǎi)過(guò)珠串這樣巨長(zhǎng)尾事件的用戶,如果不用分布式文件系統(tǒng),要不找不到(抽樣),要不找到時(shí)效性太差(單服務(wù)器搜索)。
但是如果題主只是關(guān)心珠串好不好賣(mài),怎么定價(jià),那么本身并不需要大數(shù)據(jù)技術(shù)。理論上說(shuō)完全是一個(gè)代表性樣本可以解決的問(wèn)題,全國(guó)抽樣做不了可以做地區(qū)抽樣,地區(qū)抽樣做不了可以做代表性訪談。
這個(gè)世界不會(huì)因?yàn)槟闶掷镉邪牙祁^,就把所有問(wèn)題變成釘子。況且榔頭還在別人手里。
以上就是今天分享的內(nèi)容了,希望對(duì)朋友能起到一定的幫助,看完了,如果你感覺(jué)如何獲得大數(shù)據(jù)的途徑「秒懂:6種數(shù)據(jù)的收集方法」挺不錯(cuò)的話幫忙點(diǎn)個(gè)贊吧,瀏覽巢座耶學(xué)習(xí)網(wǎng)更多頁(yè)面可以學(xué)到更多知識(shí)哈!
本文發(fā)布者:百事通,不代表巢座耶立場(chǎng),轉(zhuǎn)載請(qǐng)注明出處:http://www.sdwldmy.com/p/7007.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 jubao226688#126.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。