下载此文档

NVIDIAGPU结构.doc


文档分类:建筑/环境 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
NVIDIA GPU 结构
目前市场上的 NVIDIA 显卡都是基于 Tesla 架构的 ,分为 G80、G92、 GT200 三
个系列。 Tesla体系架构是一块具有可扩展处器数量的处理器阵列。每个 GT200 GPU 包含 240 个流处理器 (streaming processor,SP,每 8 个流处理器又组成了一个流多处理器 (streaming multiprocessor,SM,因此共有 30 个流多处理器。 GPU 在工作时 , 工作负载由 PCI-E 总线从 CPU 传入 GPU 显存 ,按照体系架构的层次自顶向下分
发。 PCI-E 规范中 ,每个通道上下行的数据传输速度达到了 ,这样 PCI-
×16 插槽能够为上下行数据各提供了 *16Gbit/s=10GB/s 的带宽 ,故有效带宽为 8GB/s,而 PCI-E 规范的上下行数据带宽各为 20GB/s。但是由于 PCI-E 数据封包的影响 ,实际可用的带宽大约在 5-6GB/s(PCI-E 16×。
在 GT200 架构中 ,每 3 个 SM 组成一个 TPC(Thread Processing Cluster,线程处理器集群 ,而在 G80 架构中 ,是两个 SM 组成一个 TPC,G80 里面有 8 个 TPC,因为 G80 有 128(2*8*8 个流处理器 ,而 GT200 中 TPC 增加到了 10(3*10*8 个,其中 ,每个 TPC
内部还有一个纹理流水线。
大多数时候 ,称呼 streaming processor为流处理器 ,其实并不太正确 ,因为如果称 streaming processor为流处理器的话 ,自然是隐式的与 CPU 相对 ,但是 CPU 有独立的一套输入输出机构 ,而 streaming processor并没有 ,不能在 GPU 编程中使用 printf 就是一个例证。将 SM 与 CPU 的核相比更加合适。和现在的 CPU 的核一样 ,SM 也拥有完整前端。
GT200 和 G80 的每个 SM 包含 8 个流处理器。流处理器也有其他的名称 ,如线程处理器 , “核 ”等 ,而最新的 Fermi 架构中 ,给了它一个新的名称 :CUDA Core 。SP并不是独立的处理器核 ,它有独立的寄存器和程序计数器 (PC,但没有取指和调度单元来构成完整的前端 (由 SM 提供。因此 ,SP更加类似于当代的多线程 CPU 中的一条流水线。 SM 每发射一条指令 , 8 个 SP 将各执行 4 遍。因此由 32 个线程组成的线程束 (warp 是 Tesla 架构的最小执行单位。由于 GPU 中 SP 的频率略高于 SM 中其他单元的两倍 ,因此每两个 SP周期 SP才能对片内存储器进行一次访问 ,所以一个 warp
中的 32 个线程又可以分为两个 half-warp, 这也是为什么取数会成为运算的瓶颈原因。 Warp 的大小对操作延迟和访存延迟会产生影响 ,取 Warp 大小为 32 是 NVIDIA 综合权衡的结果。
SM 最主要的执行资源是 8 个

NVIDIAGPU结构 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人泰山云雾
  • 文件大小41 KB
  • 时间2022-01-05