Apache Spark是一個圍繞速度、易用性和復雜分析構建的大數(shù)據(jù)處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發(fā),并于2010年成為Apache的開源項目之一。 與Hadoop和Storm等其他大數(shù)據(jù)和MapReduce技術相比,Spark有如下優(yōu)勢。 首先,Spark為我們提供了一個全面、統(tǒng)一的框架用于管理各種有著不同性質(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或實時的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。 Spark可以將Hadoop集群中的應用在內存中的運行速度提升100倍,甚至能夠將應用在磁盤上的運行速度提升10倍。 Spark讓開發(fā)者可以快速的用Java、Scala或Python編寫程序。它本身自帶了一個超過80個高階操作符集合。而且還可以用它在shell中以交互式地查詢數(shù)據(jù)。