首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >GLSL中光线跟踪着色器的优化

GLSL中光线跟踪着色器的优化
EN

Stack Overflow用户
提问于 2018-06-09 20:28:50
回答 3查看 1.7K关注 0票数 5

我已经编码了一个基于体素化的射线追踪器,它可以像预期的那样工作,但是非常慢。

目前,射线追踪程序代码如下:

代码语言:javascript
复制
#version 430 
//normalized positon from (-1, -1) to (1, 1)
in vec2 f_coord;

out vec4 fragment_color;

struct Voxel
{
    vec4 position;
    vec4 normal;
    vec4 color;
};

struct Node
{
    //children of the current node
    int children[8];
};

layout(std430, binding = 0) buffer voxel_buffer
{
    //last layer of the tree, the leafs
    Voxel voxels[];
};
layout(std430, binding = 1) buffer buffer_index
{
    uint index;
};
layout(std430, binding = 2) buffer tree_buffer
{
    //tree structure       
    Node tree[];
};
layout(std430, binding = 3) buffer tree_index
{
    uint t_index;
};

uniform vec3 camera_pos; //position of the camera
uniform float aspect_ratio; // aspect ratio of the window
uniform float cube_dim; //Dimenions of the voxelization cube
uniform int voxel_resolution; //Side length of the cube in voxels

#define EPSILON 0.01
// Detect whether a position is inside of the voxel with size size located at corner
bool inBoxBounds(vec3 corner, float size, vec3 position)
{
    bool inside = true;
    position-=corner;//coordinate of the position relative to the box coordinate system
    //Test that all coordinates are inside the box, if any is outisde, the point is out the box
    for(int i=0; i<3; i++)
    {
        inside = inside && (position[i] > -EPSILON);
        inside = inside && (position[i] < size+EPSILON);
    }

    return inside;
}

//Get the distance to a box or infinity if the box cannot be hit
float boxIntersection(vec3 origin, vec3 dir, vec3 corner0, float size)
{
    dir = normalize(dir);
    vec3 corner1 = corner0 + vec3(size,size,size);//Oposite corner of the box

    float coeffs[6];
    //Calculate the intersaction coefficients with te 6 bonding planes 
    coeffs[0] = (corner0.x - origin.x)/(dir.x);
    coeffs[1] = (corner0.y - origin.y)/(dir.y);
    coeffs[2] = (corner0.z - origin.z)/(dir.z);

    coeffs[3] = (corner1.x - origin.x)/(dir.x);
    coeffs[4] = (corner1.y - origin.y)/(dir.y);
    coeffs[5] = (corner1.z - origin.z)/(dir.z);
    //by default the distance to the box is infinity
    float t = 1.f/0.f;

    for(uint i=0; i<6; i++){
        //if the distance to a boxis negative, we set it to infinity as we cannot travel in the negative direction
        coeffs[i] = coeffs[i] < 0 ? 1.f/0.f : coeffs[i];
        //The distance is the minumum of the previous calculated distance and the current distance
        t = inBoxBounds(corner0,size,origin+dir*coeffs[i]) ? min(coeffs[i],t) : t;
    }

    return t;
}

#define MAX_TREE_HEIGHT 11
int nodes[MAX_TREE_HEIGHT];
int levels[MAX_TREE_HEIGHT];
vec3 positions[MAX_TREE_HEIGHT];
int sp=0;

void push(int node, int level, vec3 corner)
{
    nodes[sp] = node;
    levels[sp] = level;
    positions[sp] = corner;
    sp++;
}

void main()
{   
    int count = 0; //count the iterations of the algorithm
    vec3 r = vec3(f_coord.x, f_coord.y, 1.f/tan(radians(40))); //direction of the ray
    r.y/=aspect_ratio; //modify the direction based on the windows aspect ratio
    vec3 dir = r;
    r += vec3(0,0,-1.f/tan(radians(40))) + camera_pos; //put the ray at the camera position

    fragment_color = vec4(0);
    int max_level = int(log2(voxel_resolution));//height of the tree
    push(0,0,vec3(-cube_dim));//set the stack
    float tc = 1.f; //initial color value, to be decreased whenever a voxel is hit
    //tree variables
    int level=0;
    int node=0;
    vec3 corner;

    do
    {
        //pop from stack
        sp--;
        node = nodes[sp];
        level = levels[sp];
        corner = positions[sp];

        //set the size of the current voxel 
        float size = cube_dim / pow(2,level);
        //set the corners of the children
        vec3 corners[] =
            {corner,                        corner+vec3(0,0,size),
            corner+vec3(0, size,0),         corner+vec3(0,size,size),
            corner+vec3(size,0,0),          corner+vec3(size,0,size),
            corner+vec3(size,size,0),       corner+vec3(size,size,size)};

        float coeffs[8];
        for(int child=0; child<8; child++)
        {
            //Test non zero childs, zero childs are empty and thus should be discarded
            coeffs[child] = tree[node].children[child]>0?
                //Get the distance to your child if it's not empty or infinity if it's empty
                boxIntersection(r, dir, corners[child], size) : 1.f/0.f;
        }
        int indices[8] = {0,1,2,3,4,5,6,7};
        //sort the children from closest to farthest
        for(uint i=0; i<8; i++)
        {
            for(uint j=i; j<8; j++)
            {
                if((coeffs[j] < coeffs[i]))
                {
                    float swap = coeffs[i];
                    coeffs[i] = coeffs[j];
                    coeffs[j] = swap;

                    int iSwap = indices[i];
                    indices[i] = indices[j];
                    indices[j] = iSwap;

                    vec3 vSwap = corners[i];
                    corners[i] = corners[j];
                    corners[j] = vSwap;
                }
            }
        }
        //push to stack
        for(uint i=7; i>=0; i--)
        {
            if(!isinf(coeffs[i]))
            {
                push(tree[node].children[indices[i]],
                    level+1, corners[i]);
            }
        }
        count++;
    }while(level < (max_level-1) && sp>0);
    //set color
    fragment_color = vec4(count)/100;
}

由于可能不完全清楚这是什么,让我解释一下。

我们从一个大立方体开始检查射线盒交叉口。如果我们击中它,我们测试与组成它的8个立方体的交集。

如果我们碰到任何的那些,我们检查交叉与8个立方体组成的立方体。

在2D中,如下所示:

在这个例子中,我们有4层,我们首先检查大框,然后是红色,然后是绿色,最后是蓝色。

打印出作为颜色执行的光线跟踪步骤的次数(这就是我提供的代码片段所做的)

结果如下所示:

如您所见,大多数情况下,着色器的迭代次数不会超过100次。

然而,在gtx 1070中,这个着色器平均需要20万微秒来执行。

因为问题不是执行次数,所以我的问题可能是线程执行。

有人知道我如何优化这段代码吗?最大的瓶颈似乎是堆栈的使用。

如果我在不推到堆栈的情况下运行相同的代码(生成错误的输出),运行时就会有10倍的改进。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2018-06-18 23:14:29

GPU上的线程执行可能是大规模并行的,但这并不意味着所有线程都彼此独立运行。线程组执行完全相同的指令,唯一的区别是输入数据。这意味着分支和循环不能使线程在执行中发散,因此也不能让它们提前终止。

您的示例显示了这方面最极端的边缘情况:当存在高度相似时,在一组线程中,完成的所有工作只与一个线程相关。

为了缓解这种情况,您应该尽量减少组中线程(或总计)的执行长度差异(在您的情况下是迭代)。这可以通过设置每个着色器传递的迭代次数的限制来实现,并且只对那些需要更多迭代的线程/像素进行重新安排。

票数 1
EN

Stack Overflow用户

发布于 2018-06-12 18:09:02

似乎你测试的是与射线的交集,最主要的是在八叉树的每个层次上的所有体素。并对它们进行排序(按一定距离),并在每个级别进行排序。我提议另一种方法。

如果射线与包围框(八叉树的0级)相交,则使其位于盒的两个面。或者在一个角落或边缘,这些都是“角落”的情况。

找到三维射线平面相交可以像这里一样。可以通过测试该点是否位于面部的两个三角形之一(如这里 )中的一个,来确定该交叉口是否在脸部内部(四角)。

从摄像机中得到最远的交叉口I0。也让r是光线的单位矢量,在I0朝向照相机的方向上。

查找I0坐标中最深的体素。这是离摄像机最远的体素。

现在我们想要出口坐标I0e的射线在那个体素,通过另一个脸。虽然你可以再次计算所有6个面,如果你的体素是X,Y,X对齐,你定义射线在同一坐标系中,作为八叉树,那么计算器简化了很多。

通过射线的I0e单位向量I1 = I0e + r/1000,将微小的位移(例如最小体素大小的1/1000 )应用于r。找到这些I1的体素。这是体素射线交叉排序列表中的下一个体素。

重复查找I1e,然后I2,然后I2eI3等,直到边框退出。交叉体素的列表被排序。

使用八叉树可以根据存储其信息的方式进行优化:所有可能的节点或只是使用。具有数据的节点,或仅具有数据的另一个容器的“指针”。这是另一个问题。

票数 2
EN

Stack Overflow用户

发布于 2018-06-13 19:01:35

第一件突出的事情是你的盒子相交函数。查看一下inigo quilez程序盒函数,了解更快的版本。因为您的盒子大小在所有轴上都是一致的,并且您不需要outNormal,所以您可以得到一个更轻的版本。本质上,用数学代替检验每一个盒子平面的蛮力方法。

此外,在可能的情况下尽量避免临时存储。例如,可以根据每个八叉树框的需要计算角数组。当然,有了以上的建议,这些都将改为箱体中心。

由于nodeslevelspositions总是一起访问的,所以尝试将它们放在一个新的结构中,并作为一个单元访问它们。

等会儿再看..。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50778260

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档