小伙伴們大家好,今天何文滔抽了個時間整理了一些關于如何獲得大數據的途徑,6種數據的收集方法,以及如何獲得大數據的一系列相關干貨,精心為你準備的干貨,通過這篇文章相信你能有所收貨!
4V定義很深,然而對于大部分做大數據的人而言,這個定義并沒有什么卵用。一般語用中的大數據事實上是指分布式存儲系統(distributed file
system)和基于此系統的數據生態環境。
在理解“大數據”之前,首先要回答為啥這個問題不能用抽樣生成的小樣本+概率統計來解決?
目前來看,有兩種情況。第一,需要描述全局狀態的,比如page rank 算法; 第二,需要做長尾的,抽樣很可能方差太大,大概也就是做個性化推薦的。最近“大數據”的興起,跟個性化算法的興起有很大關系。沒有個性化服務要求,就搜索那幾家大佬折騰一下就完了。
其次要回答的問題是,為啥必須要用分布式文件系統?
簡單的回答就是文件大。順著慧航的桿爬一下,matlab不是不能做“大數據”分析,但是你上哪兒找內存能放下幾個T數據的服務器?
但是要是內存不是問題呢?matlab可不可以做大數據分析呢?如果計算時間不是問題,那也是可以的。萬一時間成問題怎么辦?
2000年左右的Google面臨一個問題,那就是page rank每天得算,單一服務器的運算能力又叫人著急,怎么辦?
要搶時間,就要連幾百臺服務器,連上這么多服務器時,0.1%的故障率都會保證幾乎每天都有服務器掛掉。所以不僅要并行,還要做文件備份。文件備份時,怎么確保進程讀寫不沖突,怎么確保雞蛋不在一個籃子里放著(即文件本身和備份都在一個服務器上)?
于是就有了分布式文件系統。后來Yahoo的一個工程師團隊把Yahoo的系統開源了,就有了Hadoop;facebook在此基礎上做了類sql的hive;Twitter貢獻了流處理的storm。這三家的業務共性是,要掃全量,及時性要求高,單機計算能力著急所以要大規模并行且保證穩定性。
世界上真正需要大數據的公司木有幾家,世界上真正需要用大數據處理的問題木有幾個。
說自己做大數據,要么在吹牛逼,要么在裝牛逼。要么就是公司搭了hadoop懶得做抽樣和算法優化。
當向百度提交一個”珠串”搜索請求時,百度要知道哪些網頁和珠串相關,這用到page rank算法,這要求百度把整個中文互聯網都爬下來篩一遍,要是沒有幾萬個Map Reduce任務跑,每天更新網頁權重,題主只能搜到半年前的信息。
假設題主是淘寶小二,并且花錢做廣告位宣傳,那么淘寶需要大數據技術。它需要定時更新幾億用戶的購買行為,并找到瀏覽過或者買過珠串這樣巨長尾事件的用戶,如果不用分布式文件系統,要不找不到(抽樣),要不找到時效性太差(單服務器搜索)。
但是如果題主只是關心珠串好不好賣,怎么定價,那么本身并不需要大數據技術。理論上說完全是一個代表性樣本可以解決的問題,全國抽樣做不了可以做地區抽樣,地區抽樣做不了可以做代表性訪談。
這個世界不會因為你手里有把榔頭,就把所有問題變成釘子。況且榔頭還在別人手里。
以上就是今天分享的內容了,希望對朋友能起到一定的幫助,看完了,如果你感覺如何獲得大數據的途徑「秒懂:6種數據的收集方法」挺不錯的話幫忙點個贊吧,瀏覽巢座耶學習網更多頁面可以學到更多知識哈!
本文發布者:百事通,不代表巢座耶立場,轉載請注明出處:http://www.sdwldmy.com/p/7007.html
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 jubao226688#126.com 舉報,一經查實,本站將立刻刪除。