我正在开发一个使用PBO在cpu和gpu之间传输数据的GPGPU应用程序。我的应用程序中的一个要求是,OpenGL呈现线程应该尽可能少地阻塞,并且处理应该具有尽可能低的延迟。
我的问题是,我是否必须在调用glTexSubImage2D (开始从主机到设备的转换)和实际使用/渲染纹理之间增加延迟?例如,对于1024x1024大小的纹理,这样的延迟应该有多大?
for(auto texture: textures)
{
glBindTexture(GL_TEXTURE_2D, texture.id());
glBindBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, ...);
glBufferData(GL_PIXEL_UNPACK_BUFFER_ARB, ..., NULL, GL_STREAM_DRAW);
void* mem = glMapBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, GL_WRITE_ONLY);
copy(mem, data);
glUnmapBuffer(GL_PIXEL_UNPACK_BUFFER_ARB);
glTexSubImage2D(GL_TEXTURE_RECTANGLE_ARB, 0, 0, 0, ..., NULL);
glBindBuffer(GL_PIXEL_UNPACK_BUFFER_ARB, 0);
glBindTexture(GL_TEXTURE_2D, 0);
}
do_other_cpu_stuff_while_data_is_transferring(); // Is this needed to avoid blocking calls while rendering? If so, what strategy can I use to estimate the minimum amount of time needed to transfer the data.
for(auto texture: textures)
{
render(texture);
}发布于 2011-08-01 03:11:50
我想说的是,最大的延迟将出现在对copy()和/或glUnmapBuffer()的调用中,但这将取决于太多的东西(主要是您的硬件),因此您最好的办法是在程序开始时执行一次传输并测量它们。对于计时,您应该使用具有高精度计时器(如QuerPerformanceCounter)的glFinish()函数。
发布于 2011-08-01 05:55:50
由于这是结构化的,它很可能会在glTexSubImage中阻塞(尽管它最终取决于实现,从理论上讲实现可以推迟这一点)。如果您先上传几个缓冲区,然后按定义/上传的顺序在每个缓冲区上调用glTexSubImage,则可能会有更少的延迟。
do_other_cpu_stuff调用可能不会有太大帮助,因为它在前面已经阻塞了。
如果您有可用的ARB_copy_buffer功能,您可以通过首先在临时缓冲区中定义一些缓冲区数据,然后告诉OpenGL在图形处理器上执行缓冲区到缓冲区的复制来进一步避免停滞。
直觉上,这应该不会更快(相当慢),但出于某种原因,这超出了我的能力范围,它实际上更快。
https://stackoverflow.com/questions/6891274
复制相似问题