AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

“跨越语言的鸿沟”电商系统中的多语言翻译技术-如何利用翻译技术帮助电商网站的国际化 by 曾晓东@里巴巴

发布者 devops
发布于 1465951368006  浏览 5743 关键词 机器学习, 人工智能 
分享到

第1页

“跨越语言的鸿沟”

-电商系统中的多语言翻译技术

曾晓东 阿里巴巴



第2页

自我介绍

曾晓东

阿里巴巴集团 B2B技术部-翻译平台 技术专家

澳门大学计算机硕士,2014年加入阿里,担任联盟 搜索翻译算法团队的技术专家,主要负责阿里机器 翻译算法设计与优化,同时也负责多语言自然语言 处理技术的构建。在加入阿里之前,曾担任澳门 INESC-MACAU与澳门自然语言处理与葡中机器 翻译实验室的助理研究员。有超过7年的自然语言处 理、机器翻译研究经验,其多项研究成果发表在国 际顶级会议与期刊中。



第3页

今天讲些什么

如何利用翻译技术帮助

电商网站的国际化



第4页

翻译



第5页

网站国际化



•多语言 •翻译 •混搜



•用户体验 •性能优化



国际化 国际化



内容



体验



•开放AP 



国际化 开放



国际化 可靠

•多中心容灾 •数据同步



第6页

目录

1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结



第7页

阿里巴巴全球化战略

Global Business(跨境贸易)



第8页

阿里巴巴全球化战略

to C

进口

to B



出口



第9页

为什么本地化很重要



买家



卖家



阿里巴巴国际电商平台



第10页

为什么本地化很重要



交易



买家



卖家



阿里巴巴国际电商平台



第11页

为什么本地化很重要



买家



卖家



来自世界各地,说着“不同的语言”



第12页

为什么本地化很重要

买家 语⾔言是跨境电⼦子商务的障碍 卖家

来自世界各地,说着“不同的语言”



第13页

看不懂的结果…

当⽤用户浏览商品⺴⽹网⻚页的时 候,必须能读懂、理解⺴⽹网

⻚页内容



第14页

什么需要进行翻译

交流沟通



卖家



后编辑/ 发布

多语言商品 数据库



搜索



多语言商品 页面



买家



原发商品数 据库



翻译(本地化)



第15页

什么需要进行翻译

举个“栗⼦子”



第16页

什么需要进行翻译



第17页

什么需要进行翻译

俄语 葡语 韩语 ⽇日语

商翻品译信成多息…国翻语译⾔言



第18页

什么需要进行翻译



第19页

什么需要进行翻译



多翻语译⾔言场翻景译还成有很英多⽂文…



vestidos



dresses 进⾏行英⽂文搜索



第20页

交流沟通



卖家



后编辑/ 发布

多语言商品 数据库



搜索



多语言商品 页面



买家



原发商品数 据库



翻译(本地化)

翻译场景还有很多…



第21页

翻译场景还有很多…



量级大 速度要求高



量级小 精度要求高



分为2种类型



第22页

翻译场景还有很多…



量级大 速度要求高

机器翻译



量级小 精度要求高

⼈人⼯工翻译



第23页

如何进行翻译

电商网站国际化



提供快速翻译



机器翻译



提升



语料



提供高质量翻译 或提升转化需求

积累 人工翻译



提供初翻,降低翻译成本



第24页

目录

1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结



第25页

机器翻译,你怎么看?



第26页

机器翻译能做什么?

快速翻译 大规模翻译 中等译文质量



第27页

主流机器翻译技术



… Now



词典



2nd generation MTs 基于规则的翻译 需要制定大量的 翻译语法规则



3rd generation MTs 基于统计的翻译

统计方式产生翻译规则 无需手工制定语法规则



1st generation MTs 词对词的翻译 少量的调序规则



4th generation MTs 基于统神经网络翻译



第28页

统计机器翻译

I am a boy . 我是⼀一个男孩。

寻找概率最⼤大候选翻译



第29页

统计机器翻译



I am a boy .

搜寻空间



我是一个男孩。 0.5634 我是一个小子。 0.2325 我是一男子。 0.1231 我是一个小伙。 0.0233 …..



寻找概率最大候选翻译

概率计算



第30页

统计机器翻译



f = (我, 看到, 一只, 狗, 咬了, 一个, 男孩, 。)



双语语料



w1

特征 f1



+

w2 w3



wn



特征 f2



特征 f3







特征 fn



单语语料

e = (I, saw, a, dog, bite, a, boy, .)



log p(f|e) ≈ ∑wi fi(e, f ) + C i

翻译系统选型为Log-linear Model, 融合大量的文本翻译特征,支持传统的Feature Engineering方式 Maximize another metric, e.g., BLEU



第31页

统计机器翻译



训练

翻译模型 语⾔言模型 调序模型



a dog bite a man ⼀一只 狗 咬了 ⼀一个 男⼦子

p(s)=p(狗|⼀一只) x p(咬了|狗)..

dog bite dog bite 狗 咬了 咬了 狗



翻译(解码)



权重 特征



译⽂文



原⽂文



m



exp ∑ wi f (s,t)



∑ ∑t∗ = arg max p(t | s) = arg max tt



i =1 m

exp wi f (s,t ′)



t ′ i =1



n个候选翻译

一只狗咬了一个男孩 0.5634 一只狗啃了一个男子 0.2325 ……



MERT调参



翻译模型 语⾔言模型 调序模型 寻找“最优”权重:0.53, 0.12, 0.31



A dog bite a boy



第32页

神经网络机器翻译

f = (我, 看到, 一只, 狗, 咬了, 一个, 男孩, 。)

语言生成

理解

e = (I, saw, a, dog, bite, a, boy, .)



第33页

神经网络机器翻译

f = (我, 看到, 一只, 狗, 咬了, 一个, 男孩, 。) Decoder Encoder

e = (I, saw, a, dog, bite, a, boy, .)



第34页

神经网络机器翻译



第35页

面向电商的阿里机器翻译引擎



统翻计机译器规则翻翻译记 译忆



精确匹配

重要信息

日期 命名实体翻译 数字

单位



MEBTG 一般文本



第36页

面向电商的阿里机器翻译引擎



训练

翻译模型 语⾔言模型 调序模型



a dog bite a man ⼀一只 狗 咬了 ⼀一个 男⼦子

p(s)=p(狗|⼀一只) x p(咬了|狗)..

dog bite dog bite 狗 咬了 咬了 狗



翻译(解码)



权重 特征



译⽂文



原⽂文



m



exp ∑ wi f (s,t)



∑ ∑t∗ = arg max p(t | s) = arg max tt



i =1 m

exp wi f (s,t ′)



t ′ i =1



n个候选翻译

⼀一只狗咬了⼀一个男孩 0.5634 ⼀一只狗啃了⼀一个男⼦子 0.2325 ……



MERT调参



翻译模型 语⾔言模型 调序模型 寻找“最优”权重:0.53, 0.12, 0.31



A dog bite a boy



第37页

搭建电商领域的机器翻译引擎

数据驱动系统

训练、翻译可能会很慢

领域相关性强



第38页

搭建电商领域的机器翻译引擎 数据驱动系统

要什么样的数据?数据从哪里来?



第39页

要什么样的数据



电商领域的双语语料



电商专业词表



电商领域的单语语料



领域 数据



电商品牌词表



电商高频短语翻译



通用领域单语语料



通用领域双语语料



第40页

要什么样的数据



网络抓取



人工翻译



第41页

要什么样的数据

行业化数据 行业化高质量双语



行业化高质量双语



行业化分类管理



高质量数据



高质量双语



高质量单语



双语质量评估过滤



单语质量评估过滤



原始双语平行语料



原始单语语料



原始数据



web数据 人工翻译数据



第42页

搭建电商领域的机器翻译引擎

数据驱动系统

训练、翻译可能会很慢

领域相关性强



第43页

训练&翻译的效率

机器翻译人员最大的一项技能...

等待



第44页

原来...



翻译模型



语言模型



语 料



调序模型



参数优化



训练



48~72小时 6小时 4小时 1小时

约3天



第45页

原来...



翻译模型



语言模型



语 料



调序模型



参数优化



训练



离线批量翻译

线上调用翻译

翻译



第46页

阿里翻译在云端



翻译模型



语3言天模型



语 料



调序模型



6参⼩数小优时化



训练



w=w+

离线批量翻译



0 12





MR实现⽅方式 线上调用翻译



0 1 2…3

BSP翻实现译⽅方式



第47页

阿里翻译在云端



翻译模型

数据分⽚片

语言模型

料语分布式集调序群模型

参数优化

训练



2离0天线批量翻1译天

20线0台上调用翻4译0台

翻译



第48页

搭建电商领域的机器翻译引擎

数据驱动系统

训练、翻译可能会很慢

领域相关性强



第49页

搭建电商领域的机器翻译引擎

领域相关性强

如何适应电商领域翻译?



第50页

电商领域翻译



数据



模型



评测



适应电商文本翻译技术体系



第51页

电商领域翻译



评测

模型

数据



单/双语质量自动评估技术

领域语料自动筛选技术 语料运营平台



web数据



运营 算法



人工翻译数据



领域数据



第52页

电商领域翻译



数据

评测

模型



电商原⽂文优化 领域特征⾃自动挖掘⽅方法 添加领域特征



第53页

电商领域翻译



数据

评测

模型



电商⽂文本优化 领域特征⾃自动挖掘⽅方法 添加领域特征



是否含hot word 是否含query

关键词的位置 …



模型拟合 CTR预估 模型



根据⽤用户线上数据挖掘⽂文本翻译特征



第54页

电商领域翻译



数据

评测

模型



电商文本优化 领域特征自动挖掘方法 添加领域特征



不同行业(类目)专业词的翻译错误

原文:...black nuts (黑螺母)… 译文:…Черный орехи (黑核桃)



特殊词 汇的⾃自动

挖掘







翻译运营 平台







类⺫⽬目主题 模型



第55页

电商领域翻译



模型 数据

评测



电商文本翻译的评测方法

电商翻译不仅仅只是语言学问题



标准测试集 自动评测 人工评测 线上测试



第56页

目录

1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结



第57页

机器翻译&人工翻译

翻译质量上还是有相当大的距离



第58页

传统人工翻译的优缺点

高翻译质量 低翻译效率



第59页

众包翻译

翻译需求



全世界的译员



众包平台

“独翻译,不如众翻译”



第60页

众包翻译



全世界的译员



买家即译员

买家

阿里巴巴国际电商平台



第61页

众包翻译

买家

阿里巴巴国际电商平台



第62页

众包翻译

买家

阿里巴巴国际电商平台



第63页

目录

1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结



第64页

经验1: 机器翻译充当网站国际化的主要 角色,为你的领域搭建专属的机翻系统



第65页

经验2: 人工翻译其实可以做更多事情



第66页

经验3: 永远别指望翻译模型解决所有问 题,可以更加关心翻译数据的累积



第67页

Thanks! Q&A



支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。