AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

以Hadoop为核心的大数据开放平台建设 by 孙利兵

发布者 dber
发布于 1450313699420  浏览 6311 关键词 Hadoop, 大数据 
分享到

第1页

http://www.xfyun.cn/




第4页

大数据技术发展



运维管理⼯工具 不断完善的生态系统



YARN



架构不断优化 一头奔跑的大象,不断进化



第5页

大数据技术发展



第7页

Apache Hadoop Ecosystem



Doug Cutting Cloudera & Apache




第8页

以Hadoop为核心,融合其他技术的平台系统 Avro是实现融合的关键技术




第10页

Develop With CDK




第11页

Maple



第12页

Maple 大数据开放平台



第13页

大数据全新应用体验Evolution




Maple-SDK



基础集群



Maple-BDWS



第14页

讯⻜飞大数据开放平台-架构图



Maple-BDWS

Maple-SDK



搜索引擎



数据库



语音云



应用层



Apps



Flume-ng



ETL



Sqoop



Hive&Pig Storm&Spark Hadoop(存储&计算)



Hbase



Redis



缓存



第15页

Maple-BDWS



第18页

Maple-SDK



第19页

SDK For Integration Technical 

Maple-SDK



第21页

Data Source



第22页

用大数据的眼光看数据-DataSource



Partition

基本属性

Schema



文本格式 Avro格式

数据格式

列存储格式 数据库文件



HDFS LocalFs

存储位置

DataBase Memory



第23页

用大数据的眼光看数据-Data Source



Data Source



Partition Schema



第24页

围绕DataSourcce建立的数据导向API



In Out

Data Source



MERGERS & JOIN



Data Source



Out To Out To



Solr DB



HiveQL On Source



Spark Load Source



SharkQL On Source



Impala On Source



Pig On Source



第26页

开发 者



Thrift & Protobuf已经很成熟了,为 什么选择Avro?



Avro开发中代码⽣生成是可选的,Avro ⽀支持通⽤用数据读取,更适应⼤大数据变

化的特性。



有实践 的程序





第27页

Avro在讯⻜飞大数据开放平台的应用



第28页

分布式结构化 ⽇日志收集系统



第30页

结 构 化

日 志



多 点

监 控



第31页

Avro-Mapreduce 实时日志检索系统



第32页

云知道数据流程图



第33页

云知道

千亿级别

•目前每天日志索引记 录15亿+ •支持检索几个月数据, 索



即⽤用即搜



第34页

Data Source



Avro-Mapreduce



Sunflower语音云统 计分析系统



http://www.xfyun.cn/services/analysis/mobileapp




第35页

讯⻜飞开放平台统计分析



七大类,50多个小类统 计分析功能,综合指标

上千个



日2亿次PV,在语音重 度服务下,日志量进千

亿条



第36页

Data Source

Maple-Report



Avro-Mapreduce



第37页

Maple



第38页

http://www.xfyun.cn/




支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。