下载此文档

PGIZA的设计概述.ppt


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
PGIZA的设计概述
大纲
简介
运行环境及所需程序包
系统设计
性能
总结
2
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
GIZA++:训练统计翻译模型的程序包
EM算法
HMM模型,IBM模型
使用时的问PGIZA的设计概述
大纲
简介
运行环境及所需程序包
系统设计
性能
总结
2
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
GIZA++:训练统计翻译模型的程序包
EM算法
HMM模型,IBM模型
使用时的问题
硬件
时间
3
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
PGIZA:基于GIZA++的平行统计翻译模型训练程序包
IBM模型1、HMM模型、IBM模型3
分而治之的策略
在可以接受的时间内,利用多台普通的PC机实现统计翻译模型的训练
4
行业报告 多媒体课件 友友情分享,欢迎收藏
运行环境及所需程序包
硬件
P4 2G (13台)
1G RAM
1000Mbps Network
软件
Debian
SSH
Simba
Perl
修改的GIZA++
5
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
目标:在普通机群环境下实现模型的多机并行训练
缩短训练时间
提高训练语料数量
保证模型质量
基本策略:分而治之
对部分语料分别训练(分机群)
模型合并(主机)
6
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
基本流程
主机向分机群分配语料
分机群对部分语料训练部分模型
分机群将部分模型上传至主机
主机对部分模型进行合并
主机将合并后的模型分发至分机群
分机群开始下一次迭代
7
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
8
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
模型合并
合并频数统计表
二进制方式存储模型
精度高 空间小
按条目排序
多路归并
内存使用量很小,由归并路数决定。
计算频率
频率裁减和平滑
9
行业报告 多媒体课件 友友情分享,欢迎收藏

PGIZA的设计概述 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人南北旺
  • 文件大小562 KB
  • 时间2022-05-20