PGIZA的设计概述
大纲
简介
运行环境及所需程序包
系统设计
性能
总结
2
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
GIZA++:训练统计翻译模型的程序包
EM算法
HMM模型,IBM模型
使用时的问PGIZA的设计概述
大纲
简介
运行环境及所需程序包
系统设计
性能
总结
2
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
GIZA++:训练统计翻译模型的程序包
EM算法
HMM模型,IBM模型
使用时的问题
硬件
时间
3
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
PGIZA:基于GIZA++的平行统计翻译模型训练程序包
IBM模型1、HMM模型、IBM模型3
分而治之的策略
在可以接受的时间内,利用多台普通的PC机实现统计翻译模型的训练
4
行业报告 多媒体课件 友友情分享,欢迎收藏
运行环境及所需程序包
硬件
P4 2G (13台)
1G RAM
1000Mbps Network
软件
Debian
SSH
Simba
Perl
修改的GIZA++
5
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
目标:在普通机群环境下实现模型的多机并行训练
缩短训练时间
提高训练语料数量
保证模型质量
基本策略:分而治之
对部分语料分别训练(分机群)
模型合并(主机)
6
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
基本流程
主机向分机群分配语料
分机群对部分语料训练部分模型
分机群将部分模型上传至主机
主机对部分模型进行合并
主机将合并后的模型分发至分机群
分机群开始下一次迭代
7
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
8
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
模型合并
合并频数统计表
二进制方式存储模型
精度高 空间小
按条目排序
多路归并
内存使用量很小,由归并路数决定。
计算频率
频率裁减和平滑
9
行业报告 多媒体课件 友友情分享,欢迎收藏
PGIZA的设计概述 来自淘豆网www.taodocs.com转载请标明出处.