首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SSE 4内存负载优化

SSE 4内存负载优化
EN

Stack Overflow用户
提问于 2016-09-27 11:51:39
回答 1查看 90关注 0票数 0

当使用SSE指令/内部函数时,例如对于256位寄存器,有没有人能够通过在下一个32字节块上使用预取指令或通过某种其他技术来减少从内存加载扩展寄存器所花费的时间?假设要加载的数据已经在内存中正确对齐。

EN

回答 1

Stack Overflow用户

发布于 2016-10-01 17:56:13

有关x86 x86性能的更多信息,请参阅CPU标签维基。硬件预取器在锁定顺序访问模式方面做得很好,所以你通常不需要软件预取指令。

通常,将宽向量加载并解压缩到单独的整数寄存器中并不是一种成功的做法。一旦你接触到一条缓存线,更多的负载就会变得很便宜,而且从L1缓存到寄存器的吞吐量通常不是问题。使用ALU指令将256b加载解压成单独的32或64b整数只需要更多的指令,这意味着您更有可能在ALU吞吐量上遇到瓶颈。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39715677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档