AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

让机器学习得更快 by 鹿晓亮@科大讯飞

发布者 machinelearning
发布于 2015-07-06 01:09:54  浏览 7427 关键词 机器学习, 人工智能 
分享到
Loading...

第1页

让机器学习得更快

科大讯飞 鹿晓亮



第2页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第3页

计算智能

能存会算



感知智能

能听会说、能看会认



认知智能

能理解会思考



第4页

语音识别的血泪史

1920年代:RadioRex玩具狗 1950年代:Bell Lab Audry系统 6-70年代:DSP、DTW、Viterbi、HMM、DARPA 1980年代:特征提取、大规模语料、DARPA、NIST、Sphinx 1990年代:区分性训练、模型自适应、噪声鲁棒性、HTK 2000年后:更好的区分性训练技术等



第6页

深度学习应用于语音识别



猫 老虎 眼睛 嘴 鼻子 边缘特征 像素特征



第7页

深度学习应用于语音识别

声 语识 学 言别 模 模结 型 型果



HMM



第8页

深度学习应用于语音识别



DNN



RNN



LSTM



第9页

大数据及云计算应用于语音识别

2010年10月28日,“语音云”在业界率先发布,为手机、汽车、智能家电等 终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力



语音云启动仪式



周光召致辞



柳传志致辞



第10页

深度学习和大数据的力量



2012年5月 DNN技术正式上线



86.2%



95%+

2013年7月 DNN并行训练技术 获得突破,数万小时

训练数据



2011年1月 基于上线数据

首次更新

75.3%



2011年8月

81.2% 超大规模语言模型技

术第二次更新



60.2% 2010年10月28日

语音云正式发布

未来几年将语音识别的句正确率提升到90%!



第11页

图像识别同样获得巨大成功



系统 DeepID3 Face++ DeepID2+ DeepID2 DeepID DeepFace-ensemble FR+FCN GaussianFace Betaface.com TL JointBayesian

人眼



方法 DeepLearning

传统方法



效果 99.53% 99.50% 99.47% 99.15% 97.45% 97.35% 96.45% 98.52% 98.08% 96.33% 99.20%



第12页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第13页

超算是人工智能的关键要素

• 深度学习技术的再度崛起,正在颠覆 统计模式识别、机器学习和人工智能 领域,相关专家成为“香饽饽”

• 大数据目前已经和深度学习融合,在 语音识别及图像识别等感知人工智能 方面发挥了巨大作用

• 超算平台是人工智能的基础,提供海 量数据处理、存储以及高性能运算解 决方案



第14页

CPU集群



组成部分



硬件组成



业务支撑



软件调度 支持业务



软件架构



业务场景



硬件架构



大规模数据预处理



数据 预处 理



特征 提取



Ngra m



……



资源调度系统



集群编程框架



Linux & 监控体系 & 运维体系



CPUs、4TB & 6TB、10Gb/s



进行GMM-HMM等经典模型的训练



第15页

GPU集群



组成部分 硬件组成 软件调度 支持业务

业务场景



业务支撑 DNN RNN CNN ……



软件架构 资源调度系统



集群编程框架



硬件架构



Linux & 监控体系 & 运维体系



GPGPUs、IB



并行文件系统



进行Deep Learning相关模型训练,如DNN、RNN、



CNN等



第16页

深度学习平台



业务支撑 DNN



RNN



CNN



HMM



GMM



……



软件架构 资源调度系统 融合调度界面 集群编程框架



硬件架构



Linux & 监控体系 & 运维体系



CPUs,10Gb/s



GPGPUs、IB



程序开 发

任务提 交



集群文件系统



并行文件系统



在硬件层面,全局设计网络方案、融合文件系统;在软件层面,重新设计



并揉和调度界面、使HPC&BigData开发一体化;以提升程序开发效率和流 程执行效率。



第17页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第18页

深度学习应用于语音识别

 Acoustic model

DNN-HMM VS GMM-HMM

 Computation of DNN in SR

model parameters : more than tens of millions speech corpus: more than ten thousand of hours

 Acceleration

CPU – GPU – GPUs



第19页

深度学习应用于语音识别



training corpus

Fig. 2 Model parallelism



training corpus

Fig. 3 Data parallelism



第20页

Tradeoff between Speed-up and Convergence



第21页

传统的异步SGD方案



Central Node



 central node, high bandwidth requirement



 conflict between model latency



GPU0



GPU1



GPU2



GPU3



and efficiency



training corpus

Fig. 4 ASGD applied to multiGPU in a server [4][6]



第22页

环形并行学习策略



③ GPU0



③ ①



② Training corpus



GPU1



GPU3



GPU2



Fig. 5 Ring structure parallel strategy for multiple GPUs



① get mini-batch from training corpus

② receive the model from the previous node, and merge the local gradient to generate a new model

③ send the new model to the next node and train the next mini-batch simultaneously



第23页

环形并行学习策略



GPU0 start point



GPU1



GPU2



GPU3



residual residual



merge time



 asynchronous mode



transmit



time  no central node, one



train time



transmission per mini-batch



for each node, low bandwidth



requirement



 easy to hide transmission



...



and so on



...



Fig. 6 Timing analysis of the RSPS



第24页

环形并行学习策略



GPU0 start point



GPU1



GPU2



GPU3



residual



merge time



overlap of transmission and



transmit time



computation



train

time Tresidual  Tcalc [nTtransmit  (n1)Tmerge ]  0



n(Ttransmit  Tmerge )  Tcalc +Tmerge



residual



...



and so on



...



Fig. 6 Timing analysis of the RSPS



n  Tcalc  Tmerge T  Ttransmit merge



第25页

环形并行学习策略



Twait  max{Tresidual , 0} max{nTtransmit  (n 1)Tmerge  Tcalc , 0}



Speedup  Tsingle  n(Tcalc  Tmerge ) Tmultipe Tcalc  Tmerge  Twait



n



Speedup







 TtTracnaslmc it TTmemrgerege



if



n







Tcalc  Tmerge T  Ttransmit merge



 







else



 



第26页

环形并行学习策略



Speedupmax







Tcalc  Tmerge T  Ttransmit merge



• Tcalc (larger mini-batch, eg. rectified linear units) • Ttransmit (compress transmission data, eg. quantize the gradient) • Tmerge (overlap merging, eg. pipelining, hierarchical merging)



第27页

speedup



实验结论

7 6 5 4 3 2 1 0

the number of GPUs

Fig. 7 Relationship between the speedup and the number of GPUs



第28页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第29页

讯飞超脑计划



9,634,057 平方公里



……



英国



16410 平方公里



13.5404 亿人 口



中国



北京



2069.3 万



北纬 38°56'



3.1525



东经 116°20'



亿



北纬 38°53′



国家



日本



1.26亿



美国



377835 平方公里



9,629,091 华盛顿 平方公里



东京



北纬 35°44'



东经 2188 140°50'

平方公里



西经





77°02' 平方公里



• 讯飞超脑的三大研究方向:

– 更加贴近人脑认知机理的人工神 经网络设计,更好的支撑认知智 能的实现

– 实现与人脑神经元复杂度可比的 超大人工神经网络(相当于目前 感知智能网络规模的1000倍)

– 实现基于连续语义空间分布式表 示的知识推理及自学习智能引擎



第30页

讯飞超脑预期成果

实现世界上第一个中文认知智能计算引擎!

• 通过模拟人脑的知识表示达到联想和推理 • 通过自动学习获取新的知识实现不断进化 • 通过自然交互(语音、文字)更加拟人化



第31页

超算平台对讯飞超脑的支持

数千倍训练数据及数千倍模型参数的巨大挑战!

• 更大规模的超算平台集群建设 • 更优的深度学习并行化算法及集群调度算法 • 深度定制的人工神经网络专属芯片



第32页

THANK YOU!



支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。