
- 免費(fèi)報(bào)名
- 會(huì)議通知
- 會(huì)議日程
- 會(huì)議嘉賓
- 參會(huì)指南
-
手機(jī)下單
首頁 > 商務(wù)會(huì)議 > IT互聯(lián)網(wǎng)會(huì)議 > Apache CarbonData+Spark Meetup 更新時(shí)間:2017-08-23T17:30:01
![]() |
Apache CarbonData+Spark Meetup 已截止報(bào)名
會(huì)議時(shí)間: 2017-09-02 14:00至 2017-09-02 17:00結(jié)束 會(huì)議地點(diǎn): 上海 長寧區(qū)車享大樓 上海市長寧區(qū)華山路1520弄15號(hào) 周邊酒店預(yù)訂 會(huì)議規(guī)模:200人 主辦單位: Apache Spark 華為 InfoQ中國 |
會(huì)議通知
會(huì)議內(nèi)容 主辦方介紹

Apache CarbonData+Spark Meetup宣傳圖
活動(dòng)介紹:
Apache CarbonData是一種基于索引、面向大數(shù)據(jù)平臺(tái)的列式數(shù)據(jù)格式,由華為大數(shù)據(jù)團(tuán)隊(duì)貢獻(xiàn)給Apache社區(qū),這也是中國首個(gè)貢獻(xiàn)給Apache的開源項(xiàng)目。由于當(dāng)前主流大數(shù)據(jù)組件應(yīng)用場景的局限性,CarbonData誕生之初,是希望通過僅保存一份數(shù)據(jù)來滿足多種的應(yīng)用場景,如:OLAP、順序存取、隨機(jī)存取等功能,實(shí)現(xiàn)百億數(shù)據(jù)級(jí)的秒級(jí)響應(yīng)。
為幫助關(guān)注CarbonData的開發(fā)者全面了解該技術(shù),我們發(fā)起了一場關(guān)于 Apache CarbonData+Spark 的技術(shù)交流會(huì),并邀請了來自美國Databricks、華為、上汽集團(tuán)等行業(yè)頂尖專家,希望通過對Spark SQL使用場景介紹、Spark 2.2核心特性CBO、CarbonData應(yīng)用實(shí)踐、以及2.0新技術(shù)規(guī)劃的等技術(shù)的解析,讓CarbonData使用變得更加簡單。
查看更多

Apache Spark是一個(gè)圍繞速度、易用性和復(fù)雜分析構(gòu)建的大數(shù)據(jù)處理框架。最初在2009年由加州大學(xué)伯克利分校的AMPLab開發(fā),并于2010年成為Apache的開源項(xiàng)目之一。 與Hadoop和Storm等其他大數(shù)據(jù)和MapReduce技術(shù)相比,Spark有如下優(yōu)勢。 首先,Spark為我們提供了一個(gè)全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r(shí)的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。 Spark可以將Hadoop集群中的應(yīng)用在內(nèi)存中的運(yùn)行速度提升100倍,甚至能夠?qū)?yīng)用在磁盤上的運(yùn)行速度提升10倍。 Spark讓開發(fā)者可以快速的用Java、Scala或Python編寫程序。它本身自帶了一個(gè)超過80個(gè)高階操作符集合。而且還可以用它在shell中以交互式地查詢數(shù)據(jù)。

華為技術(shù)有限公司是一家生產(chǎn)銷售通信設(shè)備的民營通信科技公司,于1987年正式注冊成立,總部位于中國深圳市龍崗區(qū)坂田華為基地。 華為是全球領(lǐng)先的信息與通信技術(shù)(ICT)解決方案供應(yīng)商,專注于ICT領(lǐng)域,堅(jiān)持穩(wěn)健經(jīng)營、持續(xù)創(chuàng)新、開放合作,在電信運(yùn)營商、企業(yè)、終端和云計(jì)算等領(lǐng)域構(gòu)筑了端到端的解決方案優(yōu)勢,為運(yùn)營商客戶、企業(yè)客戶和消費(fèi)者提供有競爭力的ICT解決方案、產(chǎn)品和服務(wù),并致力于使能未來信息社會(huì)、構(gòu)建更美好的全聯(lián)接世界。2013年,華為首超全球第一大電信設(shè)備商愛立信,排名《財(cái)富》世界500強(qiáng)第315位。

InfoQ成立于2006年。我們?yōu)榱舜龠M(jìn)軟件開發(fā)領(lǐng)域知識(shí)與創(chuàng)新的傳播而創(chuàng)建了InfoQ。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們致力于提供中立的、由技術(shù)實(shí)踐者主導(dǎo)的會(huì)議、內(nèi)容與在線社區(qū)。 為達(dá)到這個(gè)目的,InfoQ基于實(shí)踐者驅(qū)動(dòng)的社區(qū)模式建立平臺(tái),提供新聞、文章、視頻演講和采訪等資訊服務(wù),所有的這一切也都是為了研發(fā)團(tuán)隊(duì)中那些有創(chuàng)新精神的人群:團(tuán)隊(duì)領(lǐng)導(dǎo)者、架構(gòu)師、項(xiàng)目經(jīng)理、工程總監(jiān)和高級(jí)軟件開發(fā)人員等。InfoQ全球站正式啟動(dòng)于2006年6月8日,InfoQ中文站正式啟動(dòng)于2007年3月28日。 今天的InfoQ已經(jīng)是一家國際性的公司,在加拿大、美國、中國和羅馬尼亞均設(shè)有辦公室,運(yùn)作兩大品牌產(chǎn)品:InfoQ網(wǎng)站,以及QCon大會(huì)。
會(huì)議日程
(最終日程以會(huì)議現(xiàn)場為準(zhǔn))
查看更多
會(huì)議嘉賓
(最終出席嘉賓以會(huì)議現(xiàn)場為準(zhǔn))
講師介紹:
個(gè)人簡介:
Apache Spark PMC member,Spark SQL 開發(fā)團(tuán)隊(duì)成員。2013年從浙江大學(xué)畢業(yè)后,一直在進(jìn)行分布式系統(tǒng)相關(guān)的工作。2014年開始接觸 Spark,并成為最活躍的代碼貢獻(xiàn)者之一。2015年正式加入 databricks,成為 databricks 中國分部(籌建中)的第一名員工,主要負(fù)責(zé)開源社區(qū)方面的工作,例如:審查其他社區(qū)成員提交的PR,主導(dǎo) Spark SQL 一些主要功能的設(shè)計(jì)和研發(fā),定期審計(jì)項(xiàng)目代碼質(zhì)量等。
主題摘要:
Spark SQL 作為 Spark 的基礎(chǔ)框架,已經(jīng)有了廣泛的用戶基礎(chǔ),并且經(jīng)歷了一段漫長的開發(fā)歷史。本次議題將會(huì)帶領(lǐng)大家回顧一下 Spark SQL的演進(jìn)歷史,以及目前的現(xiàn)狀,和未來的一些展望,幫助大家更好的理解 Spark SQL 的一些設(shè)計(jì)決策以及使用場景。
個(gè)人簡介:
李昆,華為技術(shù)有限公司大數(shù)據(jù)軟件架構(gòu)師。2004年加入華為,長期從事電信協(xié)議、業(yè)務(wù)智能化、數(shù)據(jù)可視化、用戶行為分析等系統(tǒng)研究和開發(fā)工作。近年致力于大數(shù)據(jù)技術(shù)研究,參與Hadoop、Spark、Alluxio等開源社區(qū),2016年作為CarbonData PMC成員參與Apache CarbonData項(xiàng)目孵化,尋求大數(shù)據(jù)與一站式分析平臺(tái)的創(chuàng)新機(jī)會(huì)點(diǎn)。
主題摘要:
Apache CarbonData是一種新的高性能數(shù)據(jù)存儲(chǔ),針對當(dāng)前大數(shù)據(jù)領(lǐng)域分析場景需求各異而導(dǎo)致的存儲(chǔ)冗余問題,CarbonData提供了一種新的融合數(shù)據(jù)存儲(chǔ)方案,以一份數(shù)據(jù)同時(shí)支持大數(shù)據(jù)分析的多種應(yīng)用場景(如:“任意維度組合的數(shù)據(jù)查詢分析、快速掃描、詳單查詢、數(shù)據(jù)更新刪除等”),并通過多級(jí)索引、字典編碼、列存等特性提升了IO掃描和計(jì)算性能,實(shí)現(xiàn)百億數(shù)據(jù)級(jí)秒級(jí)響應(yīng)。`
CarbonData開源后,受到全球大數(shù)據(jù)技術(shù)愛好者高度關(guān)注;截止到目前為止,全球已有100+開發(fā)者參與了代碼貢獻(xiàn),有10+家企業(yè)上線生產(chǎn)系統(tǒng)。 ?
個(gè)人簡介:
王振華,現(xiàn)任華為公司研究工程師,致力于構(gòu)建高性能大數(shù)據(jù)查詢分析平臺(tái)。在此之前,博士畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,研究方向涉及空間數(shù)據(jù)庫、信息檢索、數(shù)據(jù)挖掘。
主題摘要:
在Spark SQL的Catalyst優(yōu)化器中,許多基于規(guī)則的優(yōu)化技術(shù)已經(jīng)實(shí)現(xiàn),但優(yōu)化器本身仍然有很大的改進(jìn)空間。例如,沒有關(guān)于數(shù)據(jù)分布的詳細(xì)列統(tǒng)計(jì)信息,因此難以精確地估計(jì)過濾(filter)、連接(join)等數(shù)據(jù)庫操作符的輸出大小和基數(shù) (cardinality)。由于不準(zhǔn)確的估計(jì),它經(jīng)常導(dǎo)致優(yōu)化器產(chǎn)生次優(yōu)的查詢執(zhí)行計(jì)劃。
在Spark 2.2中,在Spark SQL引擎內(nèi)添加了一個(gè)基于成本的優(yōu)化器框架,此框架計(jì)算每個(gè)數(shù)據(jù)庫操作符的基數(shù)和輸出大小。通過可靠的統(tǒng)計(jì)和精確的估算,能夠在這些領(lǐng)域做出好的決定:選擇散列連接(hash join)操作的正確構(gòu)建端(build side),選擇正確的連接算法(如broadcast hash join與 shuffled hash join),調(diào)整連接的順序等等。在這次演講中,我們將展示Spark SQL的新的基于成本的優(yōu)化器框架及其對TPC-DS查詢的性能影響。
個(gè)人簡介:
現(xiàn)任上汽集團(tuán)數(shù)據(jù)業(yè)務(wù)部大數(shù)據(jù)平臺(tái)開發(fā)經(jīng)理,目前主要專注于大數(shù)據(jù)平臺(tái)架構(gòu),數(shù)據(jù)存儲(chǔ)、壓縮、索引以及實(shí)時(shí)流數(shù)據(jù)處理等領(lǐng)域的研究及應(yīng)用。曾負(fù)責(zé)某金融行業(yè)公司ETL、BI系統(tǒng)開發(fā),某互聯(lián)網(wǎng)電商公司的數(shù)據(jù)倉庫容量管理,性能調(diào)優(yōu)等。熱衷開源技術(shù)研究,Apache CarbonData社區(qū)貢獻(xiàn)者。
主題摘要:
CarbonData的partition特性將在Apache CarbonData 1.2.0版本里正式發(fā)布,此特性將顯著提升大數(shù)據(jù)查詢性能。上汽集團(tuán)大數(shù)據(jù)將CarbonData作為平臺(tái)基礎(chǔ)組件,以應(yīng)對迅猛增長的數(shù)據(jù)量,本議題將分享上汽集團(tuán)在CarbonData項(xiàng)目的實(shí)踐和測試數(shù)據(jù)。
查看更多
溫馨提示
酒店與住宿:
為防止極端情況下活動(dòng)延期或取消,建議“異地客戶”與活動(dòng)家客服確認(rèn)參會(huì)信息后,再安排出行與住宿。
退款規(guī)則:
活動(dòng)各項(xiàng)資源需提前采購,購票后不支持退款,可以換人參加。
您可能還會(huì)關(guān)注
-
2025第12屆 GIAC 全球互聯(lián)網(wǎng)架構(gòu)大會(huì)·深圳
2025-06-13 深圳
-
DAMS2025中國數(shù)據(jù)智能管理峰會(huì)(上海)
2025-09-12 上海
-
GOPS 全球運(yùn)維大會(huì) 2025 · 北京站 暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025-06-27 北京
-
SECon 2025 全球軟件工程技術(shù)大會(huì)·深圳
2025-06-20 深圳