新聞中心
Spark是分布式內存計算框架,而不是分布式內容存儲框架,搭配tachyon分布式內存文件系統(tǒng),會更加有效果。
在文件模式下,spark比hadoop快10倍,在內存計算模式下,快100倍!
下面是一些
1 spark是分布式 基于內存 特別適合于迭代計算的計算框架
2 mapReduce就兩個階段map和reduce,而spark是不斷地迭代計算,更加靈活更加強大,容易構造復雜算法。
3 spark不能取代hive,hive做數據倉庫存儲,spark sql只是取代hive的計算引擎,成為分析平臺,hadoop作為存儲平臺
4 spark中間數據可以在內存也可以在磁盤
5 partition是一個數據集合
6 注意:初學者執(zhí)行多個步驟要注意分步檢驗,不然不知哪里錯了
7 var data = sc.textFile("/user") 不必寫hdfs:// ,根據上下文判斷
8 讀文件得到HadoopRDD,去掉文件中索引,得到MapPartitionsRDD,這樣一系列分片的數據分布在 不同的機器。
9 移動計算而不是移動數據
移動計算表示分布到各個機器上,分別計算自身負責的那部分數據,而不是把數據從各個機器上移動來進行計算。
計算完后進行數據匯總。
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
本文題目:Spark運行原理及RDD解密-創(chuàng)新互聯(lián)
新聞來源:http://www.ef60e0e.cn/article/dpiepi.html