国产精品女人一区二区三区|久久国产精品湿香蕉网|日韩欧美高清在线|国产精学生成a品人v在线播放

<ul id="zocbx"><legend id="zocbx"></legend></ul>
<i id="zocbx"></i>
<cite id="zocbx"><table id="zocbx"></table></cite>
    <dl id="zocbx"><label id="zocbx"></label></dl>
    <noscript id="zocbx"><ins id="zocbx"><ol id="zocbx"></ol></ins></noscript>

    1. <cite id="zocbx"><option id="zocbx"><em id="zocbx"></em></option></cite>
      <ul id="zocbx"><th id="zocbx"></th></ul><cite id="zocbx"><label id="zocbx"></label></cite>
      88 優(yōu)惠券
      2020年3月1日到期。滿 200 元可用
      立即使用
      立即使用
      • 參會報名
      • 會議通知
      • 會議主席
      • 會議日程
      • 會議嘉賓
      • 會議門票
      • 手機下單 手機掃碼下單

      首頁 > 商務(wù)會議 > IT互聯(lián)網(wǎng)會議 > 首屆Strata + Hadoop World北京大會 更新時間:2016-03-29 14:14:56

      首屆Strata + Hadoop World北京大會
      收藏3人
      分享到

      首屆Strata + Hadoop World北京大會 已截止報名

      會議時間: 2016-08-03 08:00至 2016-08-06 18:00結(jié)束

      會議地點: 北京  北京國際飯店會議中心  東城區(qū)建國門內(nèi)大街9號 周邊酒店預訂

      會議規(guī)模:1000人

      主辦單位: O'Reilly和Cloudera

      行業(yè)熱銷熱門關(guān)注看了又看 換一換

            會議通知


            首屆Strata + Hadoop World北京大會

            首屆Strata + Hadoop World北京大會

            培訓日期:2016年8月3-4日

            會議日期:2016年8月4-6日

            舉辦地點:北京國際飯店會議中心

            主辦方:O'Reilly和Cloudera聯(lián)合舉辦

            ?

            關(guān)于 Strata + Hadoop World

            為什么您應(yīng)該參加 | 體驗 Strata + HW | 您會遇到誰 | 委員會

            Strata + Hadoop World是最前沿科學與新興商業(yè)基礎(chǔ)碰撞的地方。在這里我們會深入探索新興技術(shù)和科技。您將聆聽案例研究、發(fā)展新技能、分享數(shù)據(jù)科學中新興的最佳實踐,并暢想未來。

            O'Reilly 和 Cloudera 最近合作將 Hadoop World 帶到全世界的Strata 大會中。我們的講師聚焦于塑造產(chǎn)業(yè)所有方面以及數(shù)據(jù)科學的問題,這里是聯(lián)系同行以及開始合作的最佳場所。

            為什么您應(yīng)該參加

            Strata + Hadoop World 將聚集大數(shù)據(jù)領(lǐng)域最有影響力的產(chǎn)業(yè)決策者、戰(zhàn)略專家、架構(gòu)師、開發(fā)人員和分析師,共同打造產(chǎn)業(yè)和技術(shù)的未來。

            成為了解如何利用這些巨大變化的最前沿人群,并在所導致的顛覆中存活下來

            在各個行業(yè)和學科找到利用您的數(shù)據(jù)資產(chǎn)的新方法

            學習如何從科學項目中提取數(shù)據(jù)并應(yīng)用到實際行業(yè)中

            對專業(yè)數(shù)據(jù)人士來講將發(fā)現(xiàn)培訓、雇傭和職業(yè)機會

            與其他創(chuàng)新人員和意見領(lǐng)袖面對面交流

            體驗 Strata + HW World

            3整天的議程包括富于啟發(fā)的主題演講、非常實用又有豐富信息的議題,以及很多有趣的社交活動。

            探索最新的前沿問題、案例研究以及最佳實踐

            與商界領(lǐng)袖、數(shù)據(jù)專家、設(shè)計者和開發(fā)者交流的機會

            為參會者、記者和供應(yīng)商提供了活躍的“走廊交流會” ,使您有機會對重要問題進行探討和辯論

            有趣的晚間活動招待會,更重要的是給您更多與參會者和演講者面對面的時間

            您會看到誰

            Strata + Hadoop World 將吸引數(shù)據(jù)行業(yè)最出色的人員:開發(fā)者、數(shù)據(jù)科學家、數(shù)據(jù)分析師以及其他數(shù)據(jù)行業(yè)的專業(yè)人員,包括:

            商業(yè)智能經(jīng)理和分析師

            商務(wù)經(jīng)理、戰(zhàn)略專家和決策者

            CIO, CTO 以及企業(yè)架構(gòu)師

            數(shù)據(jù)驅(qū)動設(shè)計者,記者以及人類學家

            數(shù)據(jù)工程師

            數(shù)據(jù)科學家

            設(shè)計者

            開發(fā)者和數(shù)據(jù)庫專業(yè)人員

            創(chuàng)新人士和企業(yè)家

            產(chǎn)品經(jīng)理

            研究人員和學術(shù)人員

            風投和投資者

            副總裁、市場主管或數(shù)據(jù)倉庫主管

            查看更多

            主辦方:O'Reilly和Cloudera

            會議主席


            會議主席

            ?

            首屆Strata + Hadoop World北京大會

            本·羅瑞卡(Ben Lorica)

            是 O'Reilly Media 首席數(shù)據(jù)科學家,他曾在直接營銷、消費者和市場研究、精準廣告、文本挖掘以及金融工程等各個行業(yè)應(yīng)用了商業(yè)智能、數(shù)據(jù)挖掘、機器學習以及統(tǒng)計分析等。他曾在投資管理公司、網(wǎng)絡(luò)公司以及金融服務(wù)行業(yè)工作。

            首屆Strata + Hadoop World北京大會

            Doug Cutting

            (@cutting) 建立了多個成功的開源項目,包括 Lucene、Nutch、 Avro 以及 Hadoop。Doug 2009 年離開雅虎加入 Cloudera,在這里他的團隊組建并部署了 Hadoop 存儲和分析集群,用于分析任務(wù)關(guān)鍵型的行業(yè)。Doug 畢業(yè)于斯坦福大學,是 Apache 軟件基金會的董事會成員。

            首屆Strata + Hadoop World北京大會

            Jason Dai

            現(xiàn)任英特爾大數(shù)據(jù)首席架構(gòu)師。曾任英特爾軟件和服務(wù)事業(yè)部技術(shù)總監(jiān)、首席工程師,負責領(lǐng)導英特爾大數(shù)據(jù)架構(gòu)的技術(shù)方向和研發(fā)工作,包括與 UC Berkeley合作研發(fā)下一代大數(shù)據(jù)技術(shù)(如Apache Spark 棧),并為多個大型互聯(lián)網(wǎng)公司構(gòu)建下一代大數(shù)據(jù)平臺。Jason 在大數(shù)據(jù)、云、并行計算以及編譯技術(shù)方面是世界公認的專家;他是 Apache Spark 項目的 PMC 成員,在國際學術(shù)會議和雜志上發(fā)表了超過15 多篇論文,擁有或申請超過20 多項專利,并曾在一些頂級大學教授計算機課程。

            ?

            委員會委員

            辛湜 (Reynold Xin), Databricks

            Yan Zhou, IBM

            饒軍 Jun Rao, Confluent

            楊仿今 (Fangjin Yang), Apache Druid

            陳明 (Justin Chen), GrowingIO

            劉少山 (Shaoshan Liu)

            陳怡揮 (Evan Chan), Tuplejump

            馬思邈 (Angie Ma), 愛思

            范斌 (Bin Fan), TachyonNexus

            崔寶秋 (Baoqiu Cui), 小米公司

            徐葳 (Wei Xu), 清華大學

            楊旸 (Yang Yang), 易鯨捷信息

            俞舫 (Fang Yu), Datavisor

            劉睿民 (Dowson Liu), 柏睿數(shù)據(jù)

            邵錚 (Zheng Shao), 優(yōu)步

            朱錦榮 (Kelvin Chu), 優(yōu)步

            Doug Cutting, Cloudera

            Eli Collins, Cloudera

            黃晟盛 (Shane Huang), Intel

            閻志濤 (Tony Yan), 北京騰云天下科技有限公司

            王太峰 (Taifeng Wang), Microsoft Research

            葉懋 (Mao Ye), Pintrest

            曠海蓉 (Hairong Kuang), Facebook

            張喆 (Zhe Zhang), 領(lǐng)英

            Amr Awadallah, Cloudera

            Jeff Hammerbacher, Cloudera

            Charles Zedlewski, Cloudera

            查看更多

            會議日程 (最終日程以會議現(xiàn)場為準)


            Strata + Hadoop World 2天培訓課程

            ?

            所有培訓課程安排在周三周四上午9:00至下午5:00。為了保證高水平的動手學習和與導師互動機會,全部培訓課程都會限制在一定規(guī)模。

            參加學員應(yīng)該參加全部2天的內(nèi)容。 培訓門票不能參加周四的輔導課。

            8月3日周三——8月4日周四

            ?

            Apache Cassandra:多學多得
            地點: 多功能廳3A(Function Room 3A)
            Berglund Tim (DataStax), Gallagher Tanya (DataStax)
            O’Reilly Media和DataStax聯(lián)合推出了這個為期兩天的Apache Cassandra開發(fā)課程。在Strata+Hadoop World大會上獲得Cassandra的開發(fā)人員培訓,獲得NoSQL技能的認可,并在對Cassandra開發(fā)人員高速增長的市場需求中獲益。?

            在Spark和Hadoop上做大規(guī)模數(shù)據(jù)科學
            地點: 多功能廳3B(Function Room 3B)
            江 毛進 (Cloudera)
            江毛進是美國Cloudera公司講師,大數(shù)據(jù)工程師,自2012年起率先將Apache Hadoop為基礎(chǔ)的開源大數(shù)據(jù)技術(shù)通過Cloudera大數(shù)據(jù)技術(shù)培訓的方式帶給國內(nèi)的大數(shù)據(jù)企業(yè)用戶和技術(shù)人員,積極推動大數(shù)據(jù)在國內(nèi)的普及及應(yīng)用。?

            Spark基礎(chǔ):使用維基百科數(shù)據(jù)集來用Spark進行原型實驗
            地點: 多功能廳5A(Function Room 5A)
            Apache Spark的真正價值和強大能力在于用它可以構(gòu)建一個統(tǒng)一一致的分析場景,囊括了從ETL(數(shù)據(jù)抽取、轉(zhuǎn)換和載入)、批處理分析、實時流分析、機器學習、圖類型數(shù)據(jù)分析,到可視化的多種功能。在這個歷時2天的課程里,布萊恩·克萊坡通過對多種維基百科數(shù)據(jù)集的動手操作來展示了理想中Spark可以完成的多樣化的編程模式。在培訓結(jié)束時,參加者將具備運用Spark來進行概念驗證和原型搭建的能力。

            ?

            教學輔導課

            ?

            請選擇8月4日周四的全天或半天輔導課。專家的講座將帶你深入重要議題。請注意:參加輔導課您的注冊內(nèi)容包必須包含周四輔導課;該門票不能參加培訓課程。

            8月4日 周四

            ?

            09:00–12:30 Thursday, 2016-08-04
            Apache Spark高級機器學習實踐

            地點: 報告廳(Auditorium)
            王 奕恒 (Intel)
            在大數(shù)據(jù)時代,越來越多的企業(yè)引入了機器學習技術(shù)以提高效率和降低風險。而進行大數(shù)據(jù)的機器學習是一件比較具有挑戰(zhàn)性的工作。作為最流行的大數(shù)據(jù)處理平臺,Apache Spark提供了豐富的機器學習組件,幫助開發(fā)者大大降低了這項工作的復雜性。Intel幫助大型互聯(lián)網(wǎng)和企業(yè)用戶在Spark平臺上做了大量機器學習的實現(xiàn)和優(yōu)化工作。在本次課程中,來自Intel的工程師會帶領(lǐng)大家探索Spark上的機器學習組件以及一些高級功能,并分享真實案例中的實踐經(jīng)驗。?

            09:00–12:30 Thursday, 2016-08-04
            Apache HBase開發(fā)者教程

            地點: 多功能廳2(Function Room 2)
            Du Jingcheng (Intel), Zhou Wei (Intel)
            Apache HBase, Apache Hadoop生態(tài)系統(tǒng)中的分布式數(shù)據(jù)庫,是當今最流行的非關(guān)系型數(shù)據(jù)庫之一,也被許多世界級的公司所使用,如阿里巴巴,小米,F(xiàn)acebook和Apple,用來存儲和分析PB級的數(shù)據(jù)。 竟成和偉將為您講述HBase的架構(gòu),并詳解如何使用HBase提供實時的大數(shù)據(jù)服務(wù)。?

            09:00–17:00 Thursday, 2016-08-04
            Spark camp: Exploring Wikipedia with Spark

            地點: 多功能廳5B+C(Function Room 5B+C)
            Farooqui Sameer (Databricks)
            The real power and value proposition of Apache Spark is in building a unified use case that combines ETL, batch analytics, real-time stream analysis, machine learning, graph processing, and visualizations. Through hands-on examples, Sameer Farooqui explores various Wikipedia datasets to illustrate a variety of ideal programming paradigms.?

            09:00–12:30 Thursday, 2016-08-04
            商業(yè)應(yīng)用中的數(shù)據(jù)科學和機器學習

            地點: 多功能廳6B(Function Room 6B)
            Ma Angie (ASI), Zhang Yingsong (愛思數(shù)據(jù)科學)
            這個3小時的輔導課從業(yè)務(wù)的角度出發(fā)集中介紹了數(shù)據(jù)科學的關(guān)鍵概念。本課程是為了那些希望在他們業(yè)務(wù)中引入數(shù)據(jù)科學的聽眾所準備的。?

            13:30–17:00 Thursday, 2016-08-04
            Deep learning with TensorFlow

            地點: 多功能廳2(Function Room 2)
            Chen Jianmin (Google), chen zhifeng (Google)
            陳健敏和陳智峰示范使用Tensor Flow這個廣受歡迎的開源庫訓練和部署機器學習系統(tǒng)。你將能學會如何創(chuàng)建一個機器學習系統(tǒng),小到簡單的分類器,大到復雜的基于圖像的模型,還可以學會如何使用TensorFlow Serving來部署你的模型。?

            13:30–17:00 Thursday, 2016-08-04
            Apache Kylin 教學輔導課

            地點: 多功能廳6B(Function Room 6B)
            史 少鋒 (Kyligence)
            Kyligence由Apache頂級項目Apache Kylin核心貢獻者團隊組建,團隊一貫致力于推動Apache Kylin開源項目的發(fā)展和演進,提供基于的Apache Kylin的大數(shù)據(jù)分析產(chǎn)品和服務(wù),拓展全球用戶社區(qū),構(gòu)建更為豐富的生態(tài)系統(tǒng)。 Apache Kylin Tutorial針對Apache Kylin的使用者,管理者及開發(fā)者提供相關(guān)的輔導課程,由Apache Kylin 核心貢獻者及PMC 成員傾力提供,學員經(jīng)認證考試,可獲得由Kyligence公司提供的相關(guān)認證證書。?

            13:30–17:00 Thursday, 2016-08-04
            內(nèi)存為中心的開源虛擬分布式存儲系統(tǒng)Alluxio(前Tachyon)入門

            地點: 報告廳(Auditorium)
            Li Haoyuan (Alluxio), Fan Bin (Alluxio), 富 羽鵬 (Alluxio Inc), 顧 榮
            本輔導課內(nèi)容為了解Alluxio(前Tachyon)的基本原理, 應(yīng)用場景, 以及如何使用Alluxio讓分布式計算引擎以內(nèi)存速度共享以及交換數(shù)據(jù). 在上機實踐環(huán)節(jié)中, 參與者將在老師指導下親自動手部署和運行Alluxio, 為Alluxio掛載外部存儲系統(tǒng)(如HDFS), 使用Alluxio內(nèi)置命令行與系統(tǒng)交互, 并嘗試使用常見計算引擎(如Apache Spark)搭建從Alluxio系統(tǒng)中讀寫的大數(shù)據(jù)應(yīng)用. 此外學員還將學習Alluxio內(nèi)置的常用命令行操作, Web界面使用操作, 使用面向開發(fā)者的API. 本輔導課理想?yún)⒓诱呷后w包括(但不限于)大數(shù)據(jù)應(yīng)用開發(fā)人員, ETL開發(fā)人員, 數(shù)據(jù)科學家,存儲管理人員。

            ?

            主題演講&議題

            ?

            8月5日 周五

            ?

            11:55–12:35 Friday, 2016-08-05
            TensorFlow: A system for machine learning on heterogeneous systems

            地點: 報告廳(Auditorium)
            Chen Jianmin (Google), chen zhifeng (Google)
            陳健敏和陳智鋒將會給大家介紹Tensor Flow,一個跨平臺,高效率和支持大規(guī)模分布式訓練的機器學習開發(fā)平臺。?

            11:55–12:35 Friday, 2016-08-05
            Apache Hadoop十周歲:展望前方

            地點: 紫金大廳A(Grand Hall A)
            Chen Xiao (Cloudera), Zhang Zhe (LinkedIn)
            過去十年,Apache Hadoop從無到有,從理論概念演變到如今支撐起若干全球最大的生產(chǎn)集群。接下來的十年,Hadoop將繼續(xù)壯大,并發(fā)展支撐新一輪的更大規(guī)模、高效和穩(wěn)定的集群。 我們此次將向大家全面介紹即將到來的Apache Hadoop 3.0新版本——從版本發(fā)布狀態(tài)、背后的故事,到如HDFS Erasure Coding、Yarn federation、NN k-safety等全新的功能。?

            11:55–12:35 Friday, 2016-08-05
            基于Apache Spark的金融欺詐檢測

            地點: 紫金大廳B(Grand Hall B)
            Yang Yuhao (Intel), Wang Yiheng (Intel), Huang Shengsheng (Intel)
            在金融領(lǐng)域使用現(xiàn)代大數(shù)據(jù)分析技術(shù)正在逐步成為趨勢。數(shù)據(jù)正在以更大的規(guī)模和更多的維度涌入,豐富了信息的同時也帶來了數(shù)據(jù)分析領(lǐng)域快速增長的復雜度,在數(shù)據(jù)統(tǒng)計,特征工程和模型調(diào)優(yōu)方面也對自動化框架提出了更高要求。通過與一些頂級的支付公司進行合作,我們開發(fā)出了基于Spark構(gòu)建欺詐檢測系統(tǒng)的完整解決方案。本次分享將介紹我們基于Spark DataFrame和機器學習pipeline搭建的完整工具鏈和相關(guān)經(jīng)驗。?

            11:55–12:35 Friday, 2016-08-05
            視頻監(jiān)控大數(shù)據(jù)平臺架構(gòu)和實踐

            地點: 多功能廳2(Function Room 2)
            周 明偉 (浙江大華技術(shù)股份有限公司)
            本議題主要分享面對海量視頻圖片數(shù)據(jù)的大數(shù)據(jù)挑戰(zhàn),實現(xiàn)基于erasure coding,高IO聚合性能,高并發(fā)寫入,數(shù)據(jù)近實時可讀的云存儲系統(tǒng);基于spark,結(jié)合視頻、圖片分析算法,打造高性能視頻圖片分析系統(tǒng);基于solr、spark sql的有機結(jié)合,打造支持SQL的通用分析型數(shù)據(jù)庫系統(tǒng);以及分享存儲、計算、分析有機組合,打造監(jiān)控視頻圖片大數(shù)據(jù)平臺的思路和實踐經(jīng)驗。?

            11:55–12:35 Friday, 2016-08-05
            如果為您的企業(yè)做一個數(shù)據(jù)可視化大屏?

            地點: 多功能廳5B+C(Function Room 5B+C)
            崔 岸雍 (阿里云-數(shù)據(jù)事業(yè)部)
            數(shù)據(jù)大屏越來越普及,幾年前還只是在電影中或者雙11現(xiàn)場才會看到的數(shù)據(jù)大屏幕,現(xiàn)在幾乎隨處可見,無論是電商公司需要一塊實時訂單分析的展示,還是交通領(lǐng)域用于車輛車流的分析,還是物聯(lián)網(wǎng)領(lǐng)域用于設(shè)備運檢的監(jiān)控,或是說想用數(shù)據(jù)作為展現(xiàn)企業(yè)業(yè)務(wù)的手段?那么該如何設(shè)計,架構(gòu),實施就是本次演講的主要內(nèi)容。?

            13:50–14:30 Friday, 2016-08-05
            百度無人車背后的巨大數(shù)據(jù)挑戰(zhàn)

            地點: 報告廳(Auditorium)
            Wang Haojun (Baidu)
            無人車是百度目前重點開發(fā)的項目。在較短的時間內(nèi),百度無人車已經(jīng)取得了高速+本地道路測試的階段性成果。在這個講演中,我們會詳細向大家介紹無人車背后的數(shù)據(jù)問題,比如海量的數(shù)據(jù)采集和整理用于離線的模型訓練,在線高速數(shù)據(jù)吞吐處理的需求。百度通過自主研發(fā)高性能的離線和在線數(shù)據(jù)平臺,使得百度無人車的技術(shù)現(xiàn)在在全球競爭中占有一席之地。我們還將展望百度無人車今后的發(fā)展規(guī)劃。?

            13:50–14:30 Friday, 2016-08-05
            啟用Hadoop的“哨兵”-Sentry的最新通用權(quán)限管理模型

            地點: 紫金大廳A(Grand Hall A)
            Hao Hao (Cloudera), Yu Anne (Cloudera)
            Apache Sentry (哨兵)是由cloudera發(fā)起的Hadoop的第一個可以提供企業(yè)級安全系數(shù)的細粒度存取控制系統(tǒng)。它整合企業(yè)級認證服務(wù)系統(tǒng),例如kerberos,來實現(xiàn)企業(yè)的高質(zhì)量大數(shù)據(jù)的安全性,可以提供金融、政府、醫(yī)療保險和其它對敏感數(shù)據(jù)的訪問有嚴格監(jiān)管的安全服務(wù)。?

            13:50–14:30 Friday, 2016-08-05
            金融界大數(shù)據(jù)的智能語義網(wǎng)

            地點: 多功能廳5B+C(Function Room 5B+C)
            譚 耀宗 (Thomson Reuters)
            湯森路透是全球最大的金融信息提供商之一。它每天產(chǎn)生的數(shù)據(jù)量較大從宏觀金融新聞至買賣打勾大量數(shù)據(jù)。湯森路透使用了DataFusion數(shù)據(jù)融合應(yīng)用軟件合并了金融、網(wǎng)上語義的數(shù)據(jù)和不同龐大機構(gòu)內(nèi)里的數(shù)據(jù)構(gòu)形成了世界上最大的金融數(shù)據(jù)倉庫。這方案能解決不少機構(gòu)在使用內(nèi)外數(shù)據(jù)的問題。 這些外部和內(nèi)部數(shù)據(jù)是由開源PermIDs聯(lián)系在一起。它用來代表無論是事實,事件,地理位置,任何主題,人或公司的用例。 PermIDs使用在湯森路透DataFusion數(shù)據(jù)融合軟.這乃是一個圖形數(shù)據(jù)庫,能納入不同樣的數(shù)據(jù)來源. 它的架構(gòu)是3層次包括Hadoop的map/reduce的計算法,搜索索引Solr的框架和Accumulo數(shù)據(jù)庫鍵/值對存儲圖形的關(guān)系。 廣泛的用途包括桶集群不同風險因素給于金融資產(chǎn)險經(jīng)和風險經(jīng)理參考,協(xié)助工業(yè)企業(yè)在供鏈關(guān)系的風險管理和在銀行的KYC客戶盡職調(diào)查的風險評估。?

            13:50–14:30 Friday, 2016-08-05
            Apache Beam, 一種定義可移植的流式及批量式數(shù)據(jù)處理的新方式

            地點: 多功能廳2(Function Room 2)
            周 云慶 (Google)
            Apache Beam (incubating) 的目標是解決數(shù)據(jù)處理領(lǐng)域中共有的幾個關(guān)鍵問題:可移植性、可維護性和抽象化。您可以只撰寫你的數(shù)據(jù)流水線一次(有多種語言的SDK可供選擇),就可以使用到強勁的無序流式數(shù)據(jù)處理語義,并在多種引擎和多種平臺上執(zhí)行。?

            13:50–14:30 Friday, 2016-08-05
            基于SparkSQL構(gòu)建即席查詢平臺

            地點: 紫金大廳B(Grand Hall B)
            孫 垚光 (百度)
            越來越多的企業(yè)依賴于海量數(shù)據(jù)分析結(jié)果進行關(guān)鍵業(yè)務(wù)決策。 大規(guī)模下的交互式/即席數(shù)據(jù)分析,是進行數(shù)據(jù)分析和探索的主要途徑,具有廣泛的商業(yè)前景。 Baidu BigSQL由百度基于SparkSQL研發(fā),為百度內(nèi)部業(yè)務(wù)和廣大公有云用戶提供即席查詢分析服務(wù),具有簡單易用、超大規(guī)模支持、數(shù)據(jù)結(jié)構(gòu)靈活、成本極低等特點。?

            15:30–16:10 Friday, 2016-08-05
            分布式深度學習算法產(chǎn)品及其在螞蟻金服業(yè)務(wù)中的應(yīng)用

            地點: 報告廳(Auditorium)
            褚 崴 (阿里云大數(shù)據(jù)事業(yè)部iDST)
            近年來深度學習技術(shù)迅猛發(fā)展,在圖像識別,語音交互,機器翻譯等領(lǐng)域展現(xiàn)出了巨大的潛力。依托阿里云自主研發(fā)的分布式數(shù)據(jù)存儲與計算服務(wù)ODPS,我們研發(fā)了機器學習平臺產(chǎn)品PAI(Platform of Artificial Intelligence),支持分布式的深度學習算法產(chǎn)品。在CPU和GPU混布計算集群上,深度學習算法產(chǎn)品進一步提升高性能計算的分布式能力,海量數(shù)據(jù)得以在多機多卡間并行處理,大幅提升訓練收斂速度。在螞蟻金服的業(yè)務(wù)中,分布式深度學習算法產(chǎn)品也得到了廣泛的應(yīng)用,解決關(guān)鍵業(yè)務(wù)難題。我們將詳細介紹分布式深度學習算法產(chǎn)品的實現(xiàn)和性能指標,以及在螞蟻金服業(yè)務(wù)中的一系列應(yīng)用,并展望下深度學習將來在阿里產(chǎn)品體系中的潛在應(yīng)用。?

            15:30–16:10 Friday, 2016-08-05
            用同一個SQL引擎解決事務(wù)、分析和報表的理想世界

            地點: 紫金大廳A(Grand Hall A)
            劉 鵬翔 (上海易鯨捷信息技術(shù)有限公司)
            很多公司希望用同一個數(shù)據(jù)庫引擎來解決各種需求,從事務(wù)、分析到報表型任務(wù)流,支持結(jié)構(gòu)型、半結(jié)構(gòu)型和非結(jié)構(gòu)型數(shù)據(jù),利用圖形數(shù)據(jù)庫,文檔存儲,搜索引擎,列式存儲,鍵值存儲和寬列存儲等類型。這個數(shù)據(jù)庫的理想世界能實現(xiàn)嗎? 挑戰(zhàn)包括: 用同一個查詢引擎,應(yīng)對運營事務(wù)型和分析型任務(wù)流; 支持多種存儲引擎,每種引擎都有各自領(lǐng)域; 用同一個數(shù)據(jù)模型,應(yīng)對各種任務(wù)流,確保高水準性能。 近幾年來,有幾個開源項目專注于Hadoop上的SQL引擎,大多數(shù)關(guān)注于分析類。 Apache Trafodion建立在HBase基礎(chǔ)上,用SQL同時完成分析型和事務(wù)型任務(wù)。 Trafodion設(shè)計和部署超過二十年,從天騰的NonStop SQL/MX,后來被惠普收購,衍生出Neoview等。2014年將部分Neoview開源為Trafodion(威爾士語“事務(wù)”),從大型機硬件上移植到線性拓展的Linux上。?

            15:30–16:10 Friday, 2016-08-05
            Alluxio (前Tachyon) 以內(nèi)存為中心的虛擬分布式存儲系統(tǒng)的原理與使用

            地點: 多功能廳5B+C(Function Room 5B+C)
            Fu Yupeng (Alluxio), 范 斌 (Alluxio)
            在大數(shù)據(jù)應(yīng)用場景中,針對不同的計算框架與任務(wù)分別配置數(shù)據(jù)源和存儲資源,以及在不同的計算框架間高速有效的實現(xiàn)數(shù)據(jù)共享和管理是一件困難且挑戰(zhàn)的任務(wù)。Alluxio(前Tachyon)是世界上第一個以內(nèi)存為中心的虛擬分布式存儲系統(tǒng). 它為不同的計算框架提供的統(tǒng)一的接口來訪問不同類型的數(shù)據(jù)源,并實現(xiàn)了多層次的存儲機制,從而有效的解決數(shù)據(jù)存儲的管理與配置問題.?

            15:30–16:10 Friday, 2016-08-05
            Apache Gearpump 基于Akka的新流處理引擎的介紹和應(yīng)用

            地點: 多功能廳2(Function Room 2)
            Zhong Sean (Intel), Zhang Tianlun (Intel)
            Apache Gearpump, 由中國本土團隊創(chuàng)造,在今年3月正式成為Apache基金會的孵化項目。Apache Gearpump是一個基于Akka Actor 的輕量級的實時流計算引擎, 她能解決實時計算,實時反饋,實時機器學習和數(shù)據(jù)分析等各種大數(shù)據(jù)的實時問題,適用于金融,物聯(lián)網(wǎng),企業(yè)云,醫(yī)療等各種應(yīng)用場景。 亮點包括: Event time, Exactly-once消息處理,每秒千萬消息吞吐量, 毫秒級延時, Storm Binary兼容, 支持Akka Stream API, 支持Apache Beam API. 本次演講, 也會會分享一些用例.?

            15:30–16:10 Friday, 2016-08-05
            從TDW-Hive到TDW-Spark-SQL——騰訊TDW數(shù)據(jù)引擎演進之路

            地點: 紫金大廳B(Grand Hall B)
            SHEN HONG (騰訊)
            騰訊分布式數(shù)據(jù)倉庫(Tencent distributed Data Warehouse,簡稱 TDW),是騰訊工程技術(shù)事業(yè)群數(shù)據(jù)平臺部基于開源軟件研發(fā)的大數(shù)據(jù)處理平臺,是騰訊內(nèi)部最大的離線數(shù)據(jù)處理平臺 。2016年開始,TDW數(shù)據(jù)引擎開始從TDW-Hive切換到TDW-Spark-SQL,無論從整體的任務(wù)運行效率和資源消耗,都得到了很大的優(yōu)化。?

            16:20–17:00 Friday, 2016-08-05
            面向健康醫(yī)療的大數(shù)據(jù)機器學習系統(tǒng)及案例分析

            地點: 報告廳(Auditorium)
            朱 軍 (清華大學)
            近年來,醫(yī)療健康大數(shù)據(jù)(如電子病例、醫(yī)學成像等)被多種方式不斷采集,數(shù)據(jù)規(guī)模呈現(xiàn)快速增長的態(tài)勢,傳統(tǒng)的數(shù)據(jù)分析方式不能滿足海量數(shù)據(jù)的深度挖掘。如何利用有效的機器學習技術(shù)從復雜異構(gòu)的大數(shù)據(jù)中提取有價值的信息來幫助疾病診斷與預防等是當前面臨的一個重要科學與技術(shù)挑戰(zhàn)。該報告將分享清華大學與卡內(nèi)基梅隆大學的合作團隊多年來在大數(shù)據(jù)機器學習關(guān)鍵技術(shù)與系統(tǒng)平臺上的最新進展,并且結(jié)合醫(yī)療健康大數(shù)據(jù)分析的具體案例闡述如何通過領(lǐng)域交叉,解決重要問題。具體報告內(nèi)容將包括:數(shù)據(jù)表示與特征提取、多模態(tài)醫(yī)療健康數(shù)據(jù)分析與融合、自然語言處理技術(shù)、大規(guī)模分布式機器學習平臺、疾病診斷與預測系統(tǒng)等。?

            16:20–17:00 Friday, 2016-08-05
            Hadoop基于CDC(Change Data Capture)的數(shù)據(jù)同步

            地點: 紫金大廳A(Grand Hall A)
            羅 德祥 (星環(huán)信息科技(上海)有限公司)
            數(shù)據(jù)同步機制的缺乏嚴重限制了Hadoop在更多新領(lǐng)域的推廣和應(yīng)用,怎么把數(shù)據(jù)實時/準實時地從其他數(shù)據(jù)庫同步到Hadoop成為推廣Hadoop的一個非常關(guān)鍵的因素。用戶希望在保證數(shù)據(jù)的一致性,參照完整性的前提下,把CDC(Change Data Capture)的增量數(shù)據(jù)實時/準實時地同步到Hadoop集群,使之能夠應(yīng)用到實時性要求更高的業(yè)務(wù)上。 星環(huán)科技針對這種對實時性要求比較高的業(yè)務(wù)需求,開發(fā)了一種基于CDC增量數(shù)據(jù)的同步方案,有效的解決了這個問題,極大的擴展了Hadoop的應(yīng)用范圍。?

            16:20–17:00 Friday, 2016-08-05
            spark實時計算的開發(fā)平臺RCS——阿里流式分析實戰(zhàn)

            地點: 紫金大廳B(Grand Hall B)
            zhu jinqing (alibaba)
            目前spark在實時計算領(lǐng)域的使用越來越廣泛,對應(yīng)廣告系統(tǒng)或者電商業(yè)務(wù),實時性就意味著系統(tǒng)穩(wěn)定性的重要性。spark開發(fā)者可以自己在任何機器上顯式提交job,然后自己在機器上排查,異常情況下排查耗時長,job的穩(wěn)定性保障受限,比如機器掛或者idc異常就無從考慮。 我們的RCS平臺(realtime computing service)可以讓開發(fā)者對spark的后端集群、指標監(jiān)控、任務(wù)容災(zāi)全部透明,無線關(guān)注集群細節(jié),專注于業(yè)務(wù)的實現(xiàn);同時滿足實時任務(wù)99.99%的穩(wěn)定性保障。因此RCS平臺對開發(fā)者提供一個開發(fā)平臺,讓用戶可以自助提交job、源端流式數(shù)據(jù)的接口封裝(無須關(guān)注kafka的具體地址等)、任務(wù)容災(zāi)和集群容災(zāi)一站式的數(shù)據(jù)開發(fā)平臺。?

            16:20–17:00 Friday, 2016-08-05
            火車物聯(lián)網(wǎng)

            地點: 多功能廳2(Function Room 2)
            陳 奇 (事業(yè)部)
            大數(shù)據(jù)是如何讓你的上班之旅更舒適??

            16:20–17:00 Friday, 2016-08-05
            基于集群管理的容器(Docker) & 大數(shù)據(jù)系統(tǒng)自動化DevOps框架

            地點: 多功能廳5B+C(Function Room 5B+C)
            Shi Dongjie (intel)
            本議題主要介紹一種面向大數(shù)據(jù)應(yīng)用、基于Docker容器進行微服務(wù)編排,管理集群和自動化DEVOPS的框架以及一些分布式應(yīng)用的Docker Image開發(fā)的實踐經(jīng)驗。?

            17:10–17:50 Friday, 2016-08-05
            Case study on spatial-temporal trajectory analysis

            地點: 報告廳(Auditorium)
            zeng henry (IBM), song huiju (IBM)
            Henry Zeng and Hui Ju Song share a real-world case study on using Hadoop- and Spark-based big data technology with huge cellular signal, RFID, and GPS data to analyze people trails to support precision urban planning.?

            17:10–17:50 Friday, 2016-08-05
            MongoDB在58同城的應(yīng)用實踐

            地點: 多功能廳5B+C(Function Room 5B+C)
            孫 玄 (58同城)
            隨著大數(shù)據(jù)時代的到來,各種NoSQL數(shù)據(jù)存儲產(chǎn)品蜂擁而至,MongoDB作為一支市場占有率較高的分布式文檔存儲數(shù)據(jù)庫,它具備了Auto Sharding、高可擴展性、豐富的查詢支持等特性,相比較傳統(tǒng)關(guān)系數(shù)據(jù)庫,MongoDB具有了較大的誘惑力。結(jié)合58同城的特點,本Topic重點講述:MongoDB在58同城的使用情況;為什么要使用MongoDB; MongoDB在58同城的架構(gòu)設(shè)計與實踐 ;針對業(yè)務(wù)場景我們在MongoDB中如何設(shè)計庫和表 ;數(shù)據(jù)量、并發(fā)量并發(fā),遇到典型問題和解決方案;社區(qū)貢獻和展望。 來吧,一起揭開MongoDB應(yīng)用實踐的神秘面紗!?

            17:10–17:50 Friday, 2016-08-05
            華為在Spark Streaming上進行的高級數(shù)據(jù)科學改進

            地點: 紫金大廳B(Grand Hall B)
            Qian Jianfeng (Huawei), He Cheng (Huawei)
            我們將會介紹StreamDM——華為諾亞方舟實驗室開發(fā)的一個新的基于Spark Streaming的實時分析開源軟件庫。StreamDM是首個包括先進的流數(shù)據(jù)挖掘算法的Spark Streaming庫。我們還會介紹正在進行的使用StreamDM的業(yè)務(wù)場景,如華為應(yīng)用商店的推薦和華為全球技術(shù)服務(wù)業(yè)務(wù)使用的大數(shù)據(jù)分析。?

            17:10–17:50 Friday, 2016-08-05
            大章魚:跨平臺統(tǒng)一大數(shù)據(jù)機器學習與數(shù)據(jù)分析編程框架與系統(tǒng)

            地點: 多功能廳2(Function Room 2)
            Huang Yihua (Nanjing University(PASA BigData Lab))
            大數(shù)據(jù)機器學習和數(shù)據(jù)分析是一個同時涉及機器學習和大數(shù)據(jù)處理技術(shù)的交叉性課題。目前大數(shù)據(jù)機器學習與數(shù)據(jù)分析一個最大的問題是:機器學習研究者和數(shù)據(jù)分析師難以掌握和使用各種大數(shù)據(jù)編程技術(shù)和平臺,因此,在兩者間存在一個很大的鴻溝。因此,有必要研究提供底層具有大數(shù)據(jù)處理能力、而上層便于普通機器學習研究者和數(shù)據(jù)分析師使用的大數(shù)據(jù)分析編程環(huán)境和平臺。 本報告將簡要介紹大數(shù)據(jù)機器學習系統(tǒng)的技術(shù)現(xiàn)狀、技術(shù)特征和技術(shù)問題、典型大數(shù)據(jù)學習系統(tǒng)。在此基礎(chǔ)上介紹我們所研究實現(xiàn)的全球第一個跨平臺統(tǒng)一大數(shù)據(jù)機器學習與數(shù)據(jù)分析編程框架與系統(tǒng)“大章魚(Octopus)”。該系統(tǒng)底層可集成Hadoop、Spark、MPI、Flink等主流大數(shù)據(jù)處理平臺,上層提供基于大規(guī)模矩陣的機器學習和數(shù)據(jù)挖掘算法編程模型、接口和軟件框架,并提供基于標準R和Python語言的編程環(huán)境,可實現(xiàn)底層大數(shù)據(jù)平臺對上層數(shù)據(jù)分析程序員完全的透明性?

            17:10–17:50 Friday, 2016-08-05
            Presto在優(yōu)步:千萬億字節(jié)規(guī)模的交互式查詢

            地點: 紫金大廳A(Grand Hall A)
            羅 震霄 (Uber)
            對于優(yōu)步和其他大數(shù)據(jù)公司而言實時交互式分析正變得越來越重要。在這個講話中會介紹我們是如何使用Presto來解決優(yōu)步的特殊問題。我們也會介紹優(yōu)步的大數(shù)據(jù)架構(gòu),尤其是開發(fā)和部署Presto來實現(xiàn)秒級查詢千萬億字節(jié)規(guī)模數(shù)據(jù)的部分。?

            ?

            8月6日 周六

            ?

            11:55–12:35 Saturday, 2016-08-06
            融合知識圖譜的文本異構(gòu)信息網(wǎng)絡(luò)構(gòu)建以及在機器學習中的應(yīng)用

            地點: 報告廳(Auditorium)
            張 銘 (北京大學)
            機器學習的過程往往是需要監(jiān)督的,而無數(shù)的互聯(lián)網(wǎng)用戶為維基百科貢獻了智力勞動,使得它成為一個質(zhì)量較高的通用知識框架。關(guān)鍵的挑戰(zhàn)在于如何調(diào)整和表示wiki的通用知識去適應(yīng)各個領(lǐng)域,從而更好的輔助機器學習。 我們首先介紹通用知識圖譜的特定化框架,包含無監(jiān)督的語義分析模塊以及實體-類型消歧的語義過濾模塊。特定化之后的通用知識自然地表示為含有多種實體、關(guān)系和類型所構(gòu)成的異構(gòu)信息網(wǎng)絡(luò),然后將異構(gòu)信息網(wǎng)絡(luò)中的特定化知識應(yīng)用于機器學習模型中。 我們以文本聚類、文本相似度計算為應(yīng)用實例,使用Freebase和YAGO2這兩個知識庫作為通用知識的來源,在兩個文本的基準數(shù)據(jù)集(20newsgroups 和RCV1)上的實驗結(jié)果表明使用通用知識作為間接的監(jiān)督,能夠顯著的提高現(xiàn)有最好的聚類算法和相似度計算方法。 相關(guān)工作已經(jīng)發(fā)布于KDD、AAAI、IJCAI、ICDM、SDM等頂級學術(shù)會議。?

            11:55–12:35 Saturday, 2016-08-06
            YARN集群上的分布式深度學習

            地點: 紫金大廳A(Grand Hall A)
            He Pengcheng (Microsoft)
            訓練速度一直是采用深度學習的一個最大的障礙,造成我們公司內(nèi)的許多團隊都沒有足夠的計算資源來對大數(shù)據(jù)使用深度神經(jīng)網(wǎng)絡(luò)進行訓練。我們開發(fā)了運行在YARN集群上的分布式深度結(jié)構(gòu)化語義模型(DSSM)訓練系統(tǒng),可以在使用超過100個CPU的集群上獲得超過單個K40 GPU的速度。在這個演講里我們很高興來分享我們的一些經(jīng)驗。?

            11:55–12:35 Saturday, 2016-08-06
            小米數(shù)據(jù)平臺的實踐

            地點: 紫金大廳B(Grand Hall B)
            崔 寶秋 (小米)
            在這個演講中, 我們將介紹在小米這樣一個數(shù)據(jù)量急速增長的創(chuàng)業(yè)公司里,如何基于Hadoop生態(tài)系統(tǒng)和其他開源軟件打造小米的數(shù)據(jù)平臺,并在此基礎(chǔ)上不斷演進以滿足小米各個業(yè)務(wù)的數(shù)據(jù)需求。我們還將介紹一下小米在大數(shù)據(jù)相關(guān)開源軟件上的參與,在信息安全和隱私保護上的一些實踐經(jīng)驗,以及我們目前在數(shù)據(jù)驅(qū)動上面臨的一些挑戰(zhàn)。?

            11:55–12:35 Saturday, 2016-08-06
            基于Mesos DCOS的大數(shù)據(jù)云計算平臺架構(gòu)

            地點: 多功能廳2(Function Room 2)
            Chen Biao (Cloudera)
            Mesos推出了的DCOS作為企業(yè)級的資源管理框架能讓數(shù)據(jù)中心資源分配更易于使用,同時讓在外部運行企業(yè)應(yīng)用更可靠。底層使用Mesos構(gòu)件云計算平臺,而將Hadoop平臺作為應(yīng)用之一,運行于DCOS中既滿足企業(yè)對于數(shù)據(jù)中心集群彈性分配的云計算需求,同時又使得數(shù)據(jù)中心的大數(shù)據(jù)能力得到更好的保障。是未來很有希望的技術(shù)發(fā)展路線之一。本議題將解析Hadoop on DOCS的架構(gòu)以及在實際生產(chǎn)應(yīng)用中的實踐。?

            11:55–12:35 Saturday, 2016-08-06
            Druid: 助力大規(guī)模交互式應(yīng)用

            地點: 多功能廳5B+C(Function Room 5B+C)
            Yang Fangjin (Imply)
            如Hadoop和Spark這樣的集群計算框架,對于處理海量數(shù)據(jù)并從中發(fā)現(xiàn)洞察是非常有幫助的。然而,很長的分析延遲使得這些框架對于交互式應(yīng)用而言并不是最好的選擇。在這個演講中,我們會介紹如何使用Druid這一專門為分析事件數(shù)據(jù)的工具來助力(交互式)應(yīng)用的。?

            13:50–14:30 Saturday, 2016-08-06
            金融反欺詐中,社交網(wǎng)絡(luò)算法有用嗎?

            地點: 報告廳(Auditorium)
            Wang Ting (宜人貸), Chong Jike (YiRenDai/CreditEase)
            在大規(guī)?;ヂ?lián)網(wǎng)金融服務(wù)的實現(xiàn)過程中,為了效率和可擴展性,用戶在沒有面對面授信的過程中就可以得到幾千至幾十萬元的資金或服務(wù)?;ヂ?lián)網(wǎng)金融公司是怎樣用大數(shù)據(jù)和機器學習來降低欺詐風險,彌補欺詐漏洞的呢?本次演講將帶你探索社交網(wǎng)絡(luò)算法在金融反欺詐方面應(yīng)用機會,深入討論多維度、多維復雜關(guān)系、多類型節(jié)點等數(shù)據(jù)特性所帶來的挑戰(zhàn),以及一些實際案例。?

            13:50–14:30 Saturday, 2016-08-06
            構(gòu)建基于Apache Kylin的大數(shù)據(jù)分析平臺

            地點: 紫金大廳A(Grand Hall A)
            韓 卿 (Kyligence Inc)
            Apache Kylin已經(jīng)在眾多的on-promise環(huán)境中得以大量使用,包括eBay,百度,網(wǎng)易,京東,美團,唯品會,中國移動等以解決他們的大數(shù)據(jù)挑戰(zhàn)。有越來越多的人活躍于社區(qū)并期望了解他們?nèi)绾问褂煤筒渴餉pache Kylin,為什么選擇Kylin以及用Kylin來解決什么樣的業(yè)務(wù)問題,與其他系統(tǒng)的差別,對比及性能比較等。在這個演講中,來自Apache Kylin的項目副總裁,韓卿(Luke),將使用一些實際的案例來解答這些疑問,并介紹Apache Kylin之后的路線圖及新特性等。?

            13:50–14:30 Saturday, 2016-08-06
            滴滴出行實時計算系統(tǒng)架構(gòu)及實踐

            地點: 紫金大廳B(Grand Hall B)
            Ai Yi (滴滴出行(Didi Chuxing))
            滴滴出行作為全球最大的移動出行平臺,每天收集和需要分析處理的數(shù)據(jù)量非常大。這些數(shù)據(jù)形式多樣:既包括存儲于數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù),也包括各種API請求所記錄的文本日志。此外,更大的挑戰(zhàn)在于業(yè)務(wù)上需要我們實時的分析處理如此大規(guī)模的數(shù)據(jù)。從數(shù)據(jù)生成到可被分析查詢,系統(tǒng)延遲在秒級。我們選用Druid/Samza/Kafka/Spark/Hadoop等開源技術(shù)棧,開發(fā)了符合Lambda architecture的OLAP系統(tǒng)。本次演講我們以滴滴大數(shù)據(jù)實時監(jiān)控系統(tǒng)為例,介紹滴滴實時計算系統(tǒng)架構(gòu)所面臨的挑戰(zhàn)及相應(yīng)解決方案。?

            13:50–14:30 Saturday, 2016-08-06
            基于Kafka以及Spark streaming的高擴展性數(shù)據(jù)質(zhì)量保證平臺

            地點: 多功能廳2(Function Room 2)
            Xing Tony (微軟中國有限公司)
            微軟的ASG (應(yīng)用與服務(wù)集團)包含Bing, Office, Skype。每天產(chǎn)生多達5PB以上數(shù)據(jù),如何構(gòu)建一個高擴展性的data audit服務(wù)來保證這樣量級的數(shù)據(jù)完整性和實時性非常具有挑戰(zhàn)性。 在這個議題里,我將介紹微軟ASG大數(shù)據(jù)團隊如何利用Kafka,Spark以及elastic search來解決這個問題。?

            13:50–14:30 Saturday, 2016-08-06
            Alluxio幫助去哪兒網(wǎng)酒店數(shù)據(jù)業(yè)務(wù)最高提速300x

            地點: 多功能廳5B+C(Function Room 5B+C)
            李 雪巖 (去哪兒網(wǎng)), 徐 凱 (去哪兒網(wǎng))
            Qunar作為國內(nèi)在線旅游門戶網(wǎng)站,擁有豐富的業(yè)務(wù)數(shù)據(jù)和UGC數(shù)據(jù)。為了能夠敏銳的發(fā)現(xiàn)系統(tǒng)和用戶行為變化,我們構(gòu)建了一套實時數(shù)據(jù)流處理和反饋系統(tǒng)。由于系統(tǒng)接入的異構(gòu)數(shù)據(jù)源數(shù)以百計,系統(tǒng)上運行分析方法也是千奇百怪,所以我們搜羅了一攬子功能強大的工具解決各種需求,這其中比較核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作為一款內(nèi)存為中心的分布式存儲系統(tǒng),在我們的系統(tǒng)中扮演著數(shù)據(jù)紐帶的作用,簡化系統(tǒng)復雜度(技術(shù)收斂),降低讀寫IO。比如: 1.流數(shù)據(jù)持久化到設(shè)備和UnderFS 2.Spark Streaming Blk/Checkpoint外部存儲 3.Batch和Streaming的數(shù)據(jù)共享 Alluxio以其豐富的功能和優(yōu)異性能,使得我們構(gòu)建一個高可用,靈活可伸縮實時數(shù)據(jù)流平臺的工作成為了可能。?

            15:30–16:10 Saturday, 2016-08-06
            針對大規(guī)模機器/深度學習的分布式參數(shù)服務(wù)器

            地點: 報告廳(Auditorium)
            Liu Yi (Intel)
            在大規(guī)模的機器學習和深度學習中,模型參數(shù)的維度往往非常高,比如幾千萬,幾億以上的維度,這對內(nèi)存、計算/網(wǎng)絡(luò)傳輸是很大的挑戰(zhàn)。本議題講述參數(shù)服務(wù)器如何高效地解決這一問題,并結(jié)合Spark講述一些實際中的使用。?

            15:30–16:10 Saturday, 2016-08-06
            用動態(tài)自服務(wù)的隊列和容量管理來幫助用戶

            地點: 紫金大廳A(Grand Hall A)
            Shen Min (LinkedIn)
            領(lǐng)英的Hadoop集群為多個內(nèi)部業(yè)務(wù)部門提供服務(wù),并保證一定的業(yè)務(wù)質(zhì)量等級(SLA)。另一方面,集群的管理員希望能維持集群總體上的高使用率和效率。這個講話會介紹一些我們對容量調(diào)度器(Capacity Scheduler)使用的最佳實踐經(jīng)驗和對它的擴展。這些經(jīng)驗幫助我們更好地應(yīng)對復雜的集群資源管理任務(wù)。?

            15:30–16:10 Saturday, 2016-08-06
            Spark和YARN:最好一起工作

            地點: 紫金大廳B(Grand Hall B)
            Shao Jerry (Hortonworks), Zhang Jeff (Hortonworks)
            現(xiàn)在Spark已經(jīng)獲得了廣泛的使用。由于它框架設(shè)計上的靈活性,Spark可以運行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本講話里中我們會聚焦于運行在YARN上的Spark,講解如何以及為何要在YARN上運行Spark。我們還會介紹一些最佳實踐的經(jīng)驗,并介紹這個領(lǐng)域的未來。?

            15:30–16:10 Saturday, 2016-08-06
            工業(yè)大數(shù)據(jù)系統(tǒng)及其應(yīng)用實踐

            地點: 多功能廳2(Function Room 2)
            王 晨 (昆侖智匯數(shù)據(jù)科技(北京)有限公司)
            以智能化為特征的高端制造已成為新工業(yè)革命國際競爭的制高點。麥肯錫認為制造業(yè)是美國首個數(shù)據(jù)量超EB級的領(lǐng)域。“中國制造2025技術(shù)路線圖”更將工業(yè)大數(shù)據(jù)平臺作為我國工業(yè)軟件領(lǐng)域唯一重點突破產(chǎn)品。本議題將著重介紹在工業(yè)這個特定領(lǐng)域中,如何構(gòu)建以處理機器設(shè)備產(chǎn)生的大量時序數(shù)據(jù)為主的大數(shù)據(jù)系統(tǒng),其中的關(guān)鍵技術(shù)突破,以及如何通過大數(shù)據(jù)平臺以及大數(shù)據(jù)分析技術(shù)對工業(yè)智能制造與服務(wù)轉(zhuǎn)型予以有力支撐。?

            16:20–17:00 Saturday, 2016-08-06
            Twitter實時計算平臺技術(shù)主管

            地點: 報告廳(Auditorium)
            Fu Maosong (Twitter Inc.)
            Twitter每秒會產(chǎn)生億級的事件數(shù)據(jù)。穩(wěn)定、實時、高效地處理這些數(shù)據(jù)成為一個巨大的挑戰(zhàn)。為此,Twitter設(shè)計部署了新一代的實時計算框架,Heron,使得工程師們可以簡單地基于Heron開發(fā)分布式實時計算應(yīng)用。Heron在2014年底已經(jīng)完全取代Storm成為了Twitter新一代的實時計算框架,被廣泛地適用于各種場景,如實時數(shù)據(jù)挖掘,實時信息監(jiān)控......?

            16:20–17:00 Saturday, 2016-08-06
            HDFS Erasure Coding: 一半的成本,更快的速度

            地點: 紫金大廳A(Grand Hall A)
            Zhang Zhe (LinkedIn), Li Rui (Intel)
            HDFS-EC通過引入糾錯碼的方式大幅降低了HDFS的存儲開銷,目前項目的第一階段已經(jīng)進入Trunk,并將作為主要的新功能隨Hadoop 3.0發(fā)布。隨著項目的進展,我們也對HDFS-EC的性能進行了全面的測試。本次演講的主題是展示并分析最新的測試數(shù)據(jù),幫助用戶了解HDFS-EC的性能特性。?

            16:20–17:00 Saturday, 2016-08-06
            大學習時代:應(yīng)對大數(shù)據(jù)和大模型的挑戰(zhàn)

            地點: 紫金大廳B(Grand Hall B)
            zhou hucheng (Microsoft Research)
            人們已經(jīng)不滿足于從大量數(shù)據(jù)中做一些簡單的查詢和挖掘,而是需要從大量數(shù)據(jù)中自動學習能夠進行準確的預測、排序以及推薦的模型。相應(yīng)的,從技術(shù)上來看,針對大數(shù)據(jù)分析的類map-reduce計算系統(tǒng)已經(jīng)發(fā)展成熟,而設(shè)計和實現(xiàn)針對大規(guī)模機器學習的系統(tǒng)卻面臨大數(shù)據(jù)和大模型帶來的挑戰(zhàn)。針對這種“大學習”系統(tǒng)的相關(guān)研究也方興未艾,是當前工業(yè)界和學術(shù)界都很關(guān)心和投入的一個方向。我們致力于在Apache Spark上設(shè)計和實現(xiàn)一個通用的、高性能的、以及可擴展的分布式機器學習平臺Zen。這個平臺,我們重點實現(xiàn)當前工業(yè)界運用最廣泛的模型,包括適用于廣告點擊率預測的logistic regression,主題模型LDA,搜索排序模型LambdaMART (GBDT), 以及推薦模型FM。這里,我很榮幸和大家分享我們過去一年中的取得的成果和經(jīng)驗教訓。?

            16:20–17:00 Saturday, 2016-08-06
            基于Druid和Drill的OLAP引擎

            地點: 多功能廳2(Function Room 2)
            楊 克特 (阿里巴巴)
            Druid是一個基于列存儲的分布式OLAP查詢系統(tǒng),支持多維度AdHoc的查詢以及具有良好的擴展性。我們將介紹druid在阿里巴巴的實踐以及我們對druid做出的擴展和改進,以及我們?nèi)绾螌ruid集成進drill,使其具有SQL查詢和應(yīng)對更加復雜的Query的能力。 了

            查看更多

            會議嘉賓 (最終出席嘉賓以會議現(xiàn)場為準)


            韓卿?

            Kyligence

            CEO

            崔岸雍?

            阿里云

            經(jīng)理

            范斌?

            Alluxio

            工程師

            王奕恒?

            intel

            軟件工程師

            李雪巖

            去哪兒網(wǎng)

            工程師

            徐凱

            去哪兒網(wǎng)

            高級工程師

            孫垚光?

            百度

            架構(gòu)師

            朱金清

            Alibaba

            高級數(shù)據(jù)專家

            hucheng zhou

            Microsoft Research

            researcher

            Jeff Zhang

            Hortonworks

            Member of the Technical Staff

            楊玉皓

            intel

            軟件工程師

            Yiheng Wang?

            intel

            Software Engineer

            HONG SHEN

            騰訊

            高級工程師

            Jerry Shao?

            Hortonworks

            Member of Technical Staff

            Jianfeng Qian

            Huawei

            researcher

            Shengsheng Huang

            intel

            Software Architect

            Cheng He?

            Huawei

            Principal Engineer

            富羽鵬

            Alluxio

            工程師

            Biao Chen?

            Cloudera

            經(jīng)理

            Anne Yu?

            Cloudera

            軟件工程師

            Hao Hao?

            Cloudera

            軟件工程師

            陳奇

            大中華區(qū)域

            總經(jīng)理

            王晨

            昆侖智匯數(shù)據(jù)科技(北京)有限公司

            CTO

            周明偉

            浙江大華技術(shù)股份有限公司

            架構(gòu)師

            Maosong Fu?

            Twitter

            主管

            Yi Ai?

            滴滴出行

            技術(shù)經(jīng)理

            劉鵬翔

            易鯨捷

            總監(jiān)

            Zhe Zhang

            LinkedIn

            Software Engineer

            Rui Li?

            intel

            Software Engineer

            Xiao Chen?

            Cloudera

            Software Engineer

            Zhenxiao

            Uber

            Senior Software Engineer

            henry zeng?

            IBM

            Senior Solution Architect

            huiju song?

            IBM

            Big Data Engineer

            Min Shen?

            LinkedIn

            Senior Software Enginee

            韓卿

            Kyligence

            聯(lián)合創(chuàng)始人兼CEO

            譚耀宗 ?

            湯森路透企業(yè)

            數(shù)據(jù)科學家

            崔寶秋

            小米

            人工智能與云平臺副總裁

            史少鋒

            Kyligence

            架構(gòu)師

            Tony Xing

            微軟中國有限公司

            經(jīng)理

            褚崴?

            阿里云iDST

            專家

            朱軍

            清華大學計算機科學與技術(shù)系

            副教授

            張銘 ?

            北京大學

            教授

            Yingsong Zhang?

            ASI,

            Data Scientist

            王婷

            宜人貸

            數(shù)據(jù)科學家

            Angie Ma?

            ASI

            COO

            劉軼

            intel

            軟件工程師

            黃宜華

            南京大學計算機系

            教授

            Pengcheng He?

            Microsoft

            Senior Software Engineer

            種驥科

            宜人貸

            科學家

            zhifeng chen

            Google

            Software Engineer

            Jianmin Chen?

            Google

            Software Engineer

            顧榮?

            南京大學

            博士

            羅德祥 ?

            星環(huán)信息科技(上海)有限公司

            高級工程師

            楊克特?

            阿里巴巴

            專家

            富羽鵬

            Alluxio

            軟件工程師

            孫玄?

            58同城

            架構(gòu)師

            周云慶

            Google

            工程師

            Sean Zhong?

            intel

            Senior Developer

            Tianlun Zhang?

            intel

            Software Engineer

            楊仿

            Imply

            CEO

            Haojun Wang?

            Baidu

            Software Architect

            Dongjie Shi

            intel

            Senior Software Engineer

            李浩源

            Alluxio

            CEO

            Bin Fan?

            Alluxio

            Software Engineer

            查看更多

            會議門票


            會議門票

            ?

            【標準價格】

            青銅門票(8月5日周五—8月6日周六) 白銀門票(8月4日周四—8月6日周六)
            4430 RMB 5390 RMB

            費用包含:

            1、所有主題演講&議題 (8月5日周五—8月6日周六);

            2、贊助商區(qū)域&全部社交活動 (8月5日周五—8月6日周六)

            費用包含:

            1、全部輔導課(8月4日周四);

            2、所有主題演講&議題 (8月5日周五—8月6日周六);

            3、贊助商區(qū)域&全部社交活動 (8月5日周五—8月6日周六)

            *早期門票價格7月8日截止

            請注意:這些會議門票不包括8月3日周三或8月4日周四的培訓。

            ?

            【公司團購優(yōu)惠價】

            1、如果一個公司注冊3-5人則享受八折。

            2、如果你的公司計劃派遣6人或者更多人參加首屆Strata + Hadoop World北京大會我們可以提供更大折扣:

            ·6-9人:七五折

            ·10人或10人以上:七折

            ?

            培訓門票

            ?

            【標準價格】

            培訓門票(8月3日周三—8月4日周四) 白金門票(8月3日周三—8月6日周六)
            5030 RMB 8990 RMB

            費用包含:

            1、2天的培訓 (8月3日周三—8月4日周四; 不包括輔導課);

            2、贊助商區(qū)域&全部社交活動 (8月5日周五—8月6日周六)

            費用包含:

            1、2天的培訓 (8月3日周三—8月4日周四; 不包括輔導課);

            2、所有主題演講&議題 (8月5日周五—8月6日周六);

            3、贊助商區(qū)域&全部社交活動 (8月5日周五—8月6日周六)

            *早期門票價格7月8日截止

            請注意:這些培訓門票不包括8月4日周四的輔導課。白金門票和培訓門票無團購票。

            查看更多

            北京國際飯店會議中心 會議場地:北京國際飯店會議中心

            交通指南:

                 離機場距離(公里):24; 離北京火車站距離(公里):2; 離市中心距離(公里):2.5; 離建國門距離(公里):2;

            介紹:

                五星級的商務(wù)酒店北京國際飯店,位于長安街上,面向恒基中心、中糧廣場,距北京站僅咫遲之遙,酒店2002年由國外設(shè)計師重新設(shè)計全面裝修,極具歐式風情,客房的設(shè)計古典而現(xiàn)代,頂層的旋轉(zhuǎn)餐廳可俯視北京長安街上的浪漫夜景。酒店1987年12月開業(yè),2002年重新裝修,樓高29層,共有客房總數(shù)993間套??头吭O(shè)有中央空調(diào)控制系統(tǒng)、先進的音響、閉路電視、迷你型酒吧、冰箱、電子門鎖及國際直撥電話。飯店由二十九層主樓及輔助裙房樓宇組成。機場班車、北京西站專線車可直達飯店,盡享交通便利;加上飯店完善、齊全的餐廳和娛樂設(shè)施,讓您耳目一新,物有所值。地處北京的中央商務(wù)區(qū)、首都的心臟地帶 - 東長安街上,毗鄰人民大會堂、外經(jīng)貿(mào)部、北京市政府、中國海關(guān)等國家機關(guān), 與各國駐華使館和各跨國公司中國區(qū)辦事處近在咫尺, 距離亞洲最大的商業(yè)建筑群王府井步行街僅一街之遙, 距離首都飛機場僅有30分鐘車程,交通暢捷、旺中取靜,為商務(wù)及旅游人士居停北京之理想下榻之所。 酒店1987年12月開業(yè),2002年重新裝修,樓高29層,共有客房總數(shù)993間套。主樓是一幢呈三叉曲面體的白色高層建筑,寬闊的門前廣場,點綴著綠柏、水池和噴泉,地上、地下停車場可同時停放大小汽車300輛。主樓外側(cè)有幽靜舒適的室外庭院。經(jīng)過全面裝修改造后的國際飯店,明亮寬敞的大堂、環(huán)境幽雅的四季酒吧、特色濃郁的"大上海"和"福臨門"餐廳、鳥瞰京城的28層"星光旋轉(zhuǎn)餐廳"、異域風情的日本餐廳、設(shè)備先進的商務(wù)中心,齊全的娛樂設(shè)施和會議中心;以及專為海內(nèi)外公司、商社裝修的辦公樓層,全新的房間、明亮的燈光、高質(zhì)量的管理。

            溫馨提示
            酒店與住宿: 為防止極端情況下活動延期或取消,建議“異地客戶”與活動家客服確認參會信息后,再安排出行與住宿。
            退款規(guī)則: 活動各項資源需提前采購,購票后不支持退款,可以換人參加。

            還有若干場即將舉行的 Strata大會

            猜你喜歡

            部分參會單位

            • 中信證券股份有限公司
            • 北京領(lǐng)英信息技術(shù)有限公司
            • 天云融創(chuàng)數(shù)據(jù)科技(北京)有限公司
            • 北京齊爾布萊特科技有限公司

            郵件提醒通知

            分享到微信 ×

            打開微信,點擊底部的“發(fā)現(xiàn)”,
            使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

            錄入信息

            請錄入信息,方便生成邀請函