演讲嘉宾:黄洁——Intel的Apache Chukwa PMC Committer
演讲嘉宾:黄洁,中国Hadoop技术峰会2015北京站(CHS2015 Beijing)
标签:中国hadoop技术峰会chs2015beijingsparkintelcommitter
黄洁标签:Intel大数据技术中心 研发经理 Spark ApacheChukwa PMC Committer 上海交通大学 分布式大数据框架
黄洁,Intel大数据技术中心研发经理,Apache Chukwa PMC & Committer
黄洁,目前就职于英特尔亚太研发中心大数据技术中心,担任研发经理,致力于大数据技术的性能优化及开发工作,涉及Hadoop、Spark、HBase等开源项目。在多年的工作过程中,积累了一定的分布式大数据框架性能调优经验,并且是ApacheChukwa项目的PMC成员和Committer。在此之前,毕业于上海交通大学并获硕士研究生及学士学位。
微博:http://www.weibo.com/sysolver
Grace Huang is currently an engineering manager inIntel SSG (Software and Services Group), responsible for advanced Big Datatechnology enhancement and optimization including Haodop, Spark and etc. Priorto that, she had been working in the big data area in Intel for over 6 years,with intensive experience on Hadoop, HBase performance tuning and optimization.
黄洁在本次中国Hadoop技术峰会(CHS2015 Beijing)上的演讲主题是StreamSQL: 在Spark上使用SQL实现流式处理。
Grace Huang's topic in CHS2015Beijing is StreamSQLon Spark: Manipulating Streams by “SQL” using Spark.
超越MapReduce的崭新大数据分析范式已经势不可挡地出现了。尤其是如何从流式数据上进行数据挖掘或者分析已然成为实际生产中不断产生的迫切需求。作为继Hadoop MR之后下一代的大数据分析框架,Spark已经能够很好地为实时分析计算提供简便易用的开发平台。但是作为一个完整的流数据管理系统,如何使用简单易用的查询接口(例如SQL),来进行流式数据的处理,是更多的数据分析师所关心和期待的。
在此演讲中,我们会展示所开发的基于Spark-Streaming和Spark-SQL模块所开发的一个原型验证(StreamSQL)。它可以为数据分析师提供非常简单、类似SQL的查询接口,进行流式数据分析计算。从而省去了许多对新系统(例如Spark-Streaming)底层开发原语的学习代价,使得用户可以更快速地实现各种流式处理的统计计算。目前版本所支持的功能有:静态结构数据和流数据的交互;流数据上对于LINQ表达式支持;各种Spark模块之间与流式分析或查询的集成;可滑动的时间窗口流式数据分析等。此外,我们也会分享更多正在开展的和未来计划中的各项工作。
New big data analysis paradigms beyond MapReduce have inevitably emerged. Particularly, there is increasing demand to mine and explore data in a real-time, streaming manner. As the next generation big data analytics stack, Spark already well served such kind of new Real-Time Analytical Processing paradigm with further development efforts. To be a complete data stream management system (DSMS), some SQL-liked streams manipulation is quite essential for better user experience in RTAP paradigm.
In this talk, we will present our POC implementation of StreamSQL by using Spark-streaming and Catalyst modules, which makes SQL-user quickly grasp stream processing with ease. Currently, it supports simple stream queries and mutual operations between streams and structured data, and also typical usages in Catalyst(e.g., L I N Q exps, mixture of SQL and DStreamoperators).
中国Hadoop技术峰会大会官网:http://chinahadoop.com
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。