Spring for Apache Hadoop 1.0.0 M2 版本亮點
我很高興地宣佈,Spring for Apache Hadoop 專案的第二個里程碑版本 (1.0.0.M2) 已經釋出。在這篇博文中,我想快速介紹 M2 版本中的主要新功能。
HBase DAO 支援
Spring Framework 中最通用和強大的功能之一是資料訪問物件(或 DAO)支援。在 Spring for Hadoop 1.0.0 M2 中,為 HBase 添加了相同的功能。流行的模板和回撥模式的使用者應該會感到賓至如歸,因為框架會處理表查詢、資源清理和異常轉換,讓開發人員專注於真正重要的事情。有關更多資訊,請參閱 API 和參考文件。順便說一句,我們還在分發包中包含了一個新的示例,
hbase-crud,以幫助您立即開始。
Cascading Taps
在 M2 中,我們透過
Taps for Spring Framework 和 Spring Integration 資源,擴充套件了與
Cascading 庫的整合。Spring Integration 介面卡的豐富性(無論是入站還是出站),例如 File、TCP、Twitter、FTP、RSS(僅舉幾例)現在可用於 Cascading(及其擴充套件,例如
Cascalog 或
Scalding)。我們才剛剛開始 - 期待更多關於這方面的新聞。
Hadoop 安全
使用 M2,從 vanilla Hadoop 安裝(例如開發機器)遷移到完全 Kerberos 安全的 Hadoop 叢集是透明的。檔案系統、Map/Reduce 和 Pig 元件都具有安全意識,在正確的憑據下執行並支援使用者模擬。有關更多資訊,請參閱專用
章節。
增強的 vanilla Map/Reduce 支援
從一開始,Spring for Apache Hadoop 就為 Map/Reduce 作業提供了廣泛的支援 - 無論是 vanilla 還是傳統的 Java Map/Reduce,
streaming 還是
tooling。在 M2 中,我們添加了對 Hadoop
通用選項的
支援,從而使作業配置(無論是透過單獨命名資源還是透過模式匹配)變得非常簡單。此外,我們還增強了基於 jar 的作業的引導 - 作業可以完全從 jar 中載入,而無需類位於類路徑中。這些類(及其依賴項)不會
洩露到應用程式中,從而避免了各種版本衝突和依賴項
蔓延。工具宣告已得到改進,可以自動讀取 Jar 元資料及其
Main-Class,從而為 Hadoop shell 提供了一個強大、完全託管的
替代方案jar呼叫。
兩個新的示例
最後但並非最不重要的一點是,在分發包中添加了兩個新示例
hbase-crud,我之前提到過,展示了宣告式和程式化的 HBase 支援,以及
pig-scripting,演示了 JVM 和 Pig 指令碼:前者在 HDFS 中進行資料準備,後者進行資料分析。管道中還有更多示例,如果您想看到任何特定的示例,請
告訴我們。
我希望您喜歡這個新的里程碑版本。繼續,獲取 1.0.0 M2,試用一下,讓我們知道您的想法!
其他新聞:Serengeti 專案
就新版本而言,Spring for Apache Hadoop 1.0.0 M2 並不是 Hadoop 方面的唯一新聞。今天,VMware 揭開了 Serengeti 專案的帷幕,用於虛擬化和高可用性 Hadoop。請參閱 Richard McDougall 的 部落格文章,瞭解其背後的動機、當前狀態和路線圖。