W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
主要記錄了Hadoop各個組件的基本原理,處理過程和關(guān)鍵的知識點等,包括HDFS、YARN、MapReduce等。
本教程內(nèi)容來源于 PennyWong
更新日期 | 更新內(nèi)容 |
---|---|
2015-5-7 | Hadoop文檔 |
硬件問題:復(fù)制數(shù)據(jù)解決(RAID)
分析需要從不同的硬盤讀取數(shù)據(jù):MapReduce
而Hadoop提供了
1.可靠的共享存儲(分布式存儲) 2.抽象的分析接口(分布式分析)
不能使用一臺機器進行處理的數(shù)據(jù)
大數(shù)據(jù)的核心是樣本=總體
1.數(shù)據(jù)分布在多臺機器
可靠性:每個數(shù)據(jù)塊都復(fù)制到多個節(jié)點
性能:多個節(jié)點同時處理數(shù)據(jù)
2.計算隨數(shù)據(jù)走
網(wǎng)絡(luò)IO速度 << 本地磁盤IO速度,大數(shù)據(jù)系統(tǒng)會盡量地將任務(wù)分配到離數(shù)據(jù)最近的機器上運行(程序運行時,將程序及其依賴包都復(fù)制到數(shù)據(jù)所在的機器運行)
代碼向數(shù)據(jù)遷移,避免大規(guī)模數(shù)據(jù)時,造成大量數(shù)據(jù)遷移的情況,盡量讓一段數(shù)據(jù)的計算發(fā)生在同一臺機器上
3.串行IO取代隨機IO
傳輸時間 << 尋道時間,一般數(shù)據(jù)寫入后不再修改
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: