hadoop入門實例教程40-MapReduce高階實現(xiàn).ppt
《hadoop入門實例教程40-MapReduce高階實現(xiàn).ppt》由會員分享,可在線閱讀,更多相關(guān)《hadoop入門實例教程40-MapReduce高階實現(xiàn).ppt(14頁珍藏版)》請在裝配圖網(wǎng)上搜索。
Hadoop大數(shù)據(jù)解決方案進階應(yīng)用,Hadoop,講師:迪倫(北風(fēng)網(wǎng)版權(quán)所有),MapReduce高階實現(xiàn)(14),半連接實例全局作業(yè)參數(shù)傳遞全局?jǐn)?shù)據(jù)文件傳遞,課程目標(biāo),實例執(zhí)行結(jié)果:半連接,多數(shù)據(jù)源連接解決方法的限制,如果數(shù)據(jù)源兩兩之間需要進行多個不同的主鍵和外鍵的連接,則無法一次性完成數(shù)據(jù)源的連接通過多次使用MapReduce過程完成不同主/外鍵鍵的連接例如,有三個數(shù)據(jù)源,Customers(CustomerID主鍵)、Orders(OrderID主鍵,CustomerID外鍵、ItemID外鍵)、Products(ItemID主鍵)解決方法:設(shè)計兩個MapReduce作業(yè)第一個作業(yè)完成Customers與Orders的連接第二個作業(yè)完成第一個作業(yè)的連接結(jié)果與Products的連接,全局作業(yè)參數(shù)/數(shù)據(jù)的傳遞,MapReduce作業(yè)處理過程中,有時需要讓每個節(jié)點共享一些重要的計算參數(shù)或數(shù)據(jù)對于小的計算參數(shù),可以通過Configuration類來傳遞對于較大的數(shù)據(jù),可以用共享數(shù)據(jù)文件來進行傳遞盡量避免用硬代碼方式在程序中設(shè)置作業(yè)參數(shù),而是設(shè)置作業(yè)參數(shù)實現(xiàn)一個具有一定通用性的程序,允許任意指定字段作為參數(shù)運行程序時指定需傳遞的數(shù)據(jù)然后該參數(shù)作為一個屬性保存在Configuration對象中并允許Map和Reduce節(jié)點從Configuration對象中獲取和使用該屬性值,全局作業(yè)參數(shù)的傳遞,Configuration類提供的保存和獲取屬性的方法,全局作業(yè)參數(shù)的傳遞實例,需求:處理顧客和訂單數(shù)數(shù)據(jù)集的連接連接主鍵參數(shù)希望通過在命令行中給出連接主鍵的列號來設(shè)置代碼實現(xiàn)將第1個輸入?yún)?shù)設(shè)置為GroupKeyColIdx屬性,全局作業(yè)參數(shù)的傳遞實例,在Mapper或Reducer類的初始化方法中從Configuration對象中讀取該屬性值,查詢?nèi)諱apReduce作業(yè)屬性,程序可以通過Configuration對象,使用預(yù)定義的屬性名稱查詢計算作業(yè)相關(guān)的信息,查詢?nèi)諱apReduce作業(yè)屬性,通過Configuration類中提供的屬性獲取方法進行,在屬性讀取方法中把相應(yīng)的作業(yè)屬性名設(shè)置好即可,全局?jǐn)?shù)據(jù)文件的傳遞,通過分布式緩存實現(xiàn)數(shù)據(jù)文件的傳遞先將這些文件傳送到分布式緩存中然后各個節(jié)點從分布式緩存中將文件復(fù)制到本地的文件系統(tǒng)中使用為提高訪問速度,通常會將較小的文件數(shù)據(jù)讀入各節(jié)點的內(nèi)存中使用涉及的編程設(shè)置Job類publicvoidaddCacheFile(URLuri):將一個文件存放到分布式緩存中Mapper或Reducer的context類publicPath[]getLocalCacheFiles():獲取設(shè)置在分布式緩存中的文件路徑,以便能將這些文件讀入到每個節(jié)點,全局?jǐn)?shù)據(jù)文件的傳遞,實現(xiàn)將文件存入分布式緩存:,從Mapper或Reducer的setup()方法中進行讀取文件的初始化處理,全局?jǐn)?shù)據(jù)文件的傳遞,歡迎訪問我們的官方網(wǎng)站,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- hadoop 入門 實例教程 40 MapReduce 實現(xiàn)
鏈接地址:http://www.3dchina-expo.com/p-11496479.html