OpenCV 없이 이미지 역투시

서문

자율주행 기술의 발전과 함께 더 많은 사람들이 새로운 기술을 접하게 되었고, 컴퓨터 세계에서 자율주행이 어떻게 구현되는지, 그리고 자율주행 시스템에 포함된 특정 기능들이 어떻게 작동하는지에 대한 호기심도 커지고 있습니다. 이번에는 시스템에서 「360° 후방 카메라」 뒤에 숨은 알고리즘 로직을 설명하고 실제로 구현해 보겠습니다.

역투시 변환

화면을 획득할 때, 차량은 여러 대의 카메라를 호출하여 하나의 「360° 파노라마 사진」을 합성합니다.

그리고 조감 시점을 형성하는 「360° 후방 카메라」 는 수학적 연산, 즉 역투시 변환(IPM)을 거쳐야 합니다.

이 분야에는 다양한 IPM 변환 방식이 있습니다. 예를 들어 「대응점 쌍 호모그래피 변환 방법」, 「단순화된 카메라 모델 역투시 변환」 등이 있으며, 모두 행렬 변환 법칙을 활용합니다.

대응점 쌍 호모그래피 변환 방법

이 변환 방식은 비교적 간단하므로 자세히 설명하지 않겠습니다.

최소 네 쌍의 대응점을 입력해야 하며, 세 점 이상이 공선상에 있으면 안 됩니다. 카메라 매개변수나 평면 위치에 대한 정보를 알 필요 없이 점 쌍을 이용하여 원근 변환 행렬을 구합니다. 행렬은 3차 정방행렬이므로 선형 방정식을 구성하여 풀 수 있습니다. 점이 네 개보다 많으면 $ransac$ 방법을 사용할 수 있으며, 점을 선택하는 방법은 일반적으로 수동으로 선택하며, 주로 소실점을 선택합니다.

\\begin{bmatrix} t_i x'_i \\\\ t_i y'_i \\\\ t_i \\end{bmatrix} = map\\_matrix \\cdot \\begin{bmatrix} x_i \\\\ y_i \\\\ 1 \\end{bmatrix}

dst(i) = (x'_i, y'_i), src(i) = (x_i, y_i), i = 0, 1, 2, 3

이 변환은 코드로 구현하기 비교적 간단하며, IPM 변환을 쉽게 구현할 수 있습니다. 여기서는 더 이상 자세히 설명하지 않고 코드 예제도 제공하지 않겠습니다.

단순화된 카메라 모델 IPM 방법

이번에 중점적으로 분석할 변환 방법입니다. 이 알고리즘의 핵심은 카메라 이미징 과정에서의 다양한 좌표 간 변환 관계를 활용하고, 이를 추상화 및 단순화하여 최종적으로 세계 좌표를 얻는 것입니다.

그런 다음 세계 좌표와 이미지 좌표 간의 대응 관계를 설정하고, 이 관계를 사용하여 수학적 변환을 수행하여 얻습니다.

일부 복잡하고 긴 계산 공식과 달리, 여기서는 여전히 좌표 연산을 사용합니다. 이러한 IPM 계산 방법을 위해서는 먼저 카메라의 실제 매개변수를 측정해야 합니다.

여기서 앙각 $θ$ 는 $23°$ , 중심 높이 $H$ 는 $37 cm$ , 시점에서 시평면까지의 거리 $d$ 는 $87 cm$ 이며, 세계 좌표 $P_W$ 를 구합니다.

카메라 이미지 좌표를 $\boldsymbol{P_G} = (x, y, z, 1)$ 로 설정하고, 세계 좌표와 이미지 좌표의 관계로부터 행렬 방정식을 세우면,

\boldsymbol{P_G} = \boldsymbol{P_W} \\begin{bmatrix} 1 & 0 & 0 & 0 \\\\ 0 & 1 & 0 & 0 \\\\ 0 & 0 & 1 & 0 \\\\ 0 & 0 & -H & 1 \\end{bmatrix} \\begin{bmatrix} \\cos\\theta & 0 & -\\sin\\theta & 0 \\\\ 0 & 1 & 0 & 0 \\\\ \\sin\\theta & 0 & \\cos\\theta & 0 \\\\ 0 & 0 & 0 & 1 \\end{bmatrix} \\cdot \\begin{bmatrix} 1 & 0 & 0 & \\frac{1}{d} \\\\ 0 & 1 & 0 & 0 \\\\ 0 & 0 & 1 & 0 \\\\ 0 & 0 & 0 & 1 \\end{bmatrix}. \\tag{1}

이미지 좌표를 식 $(1)$ 에 대입하여 세계 좌표의 행렬을 구하면,

\boldsymbol{P_W} = \left[ \\frac{x\\cos\\theta - z\\sin\\theta}{1 - \\frac{x}{d}} \\quad \\frac{y}{1 - \\frac{x}{d}} \\quad \\frac{x\\sin\\theta + z\\cos\\theta - \\frac{H}{d}}{1 - \\frac{x}{d}} \\quad 1 \\right]. \\tag{2}

$A = H\\cos\\theta$ , $B = -d$ , $C = d\\sin\\theta - \\frac{H}{d}$ , $D = \\cos\\theta$ , $E = d\\sin\\theta$ 로 두고, 기하학적 관계에 의해 $x\\sin\\theta + z\\cos\\theta - \\frac{H}{d} = 0$ 임을 알 수 있습니다. $\boldsymbol{P_W}$ 의 가장 단순한 형태를 구하면

\boldsymbol{P_W} = \left[ \\frac{A + Bz}{C + Dz} \\quad \\frac{Ey}{C + Dz} \\quad 0 \\quad 1 \\right]. \\tag{3}

마지막으로 이미지를 처리합니다. 처리하는 이미지는 2차원 평면도이므로 이미지 깊이는 항상 0입니다. $(3)$ 에 따라, 배열의 가로 및 세로 좌표를 대입하기만 하면 세계 좌표계의 좌표값, 즉 IPM 후의 조감도를 얻을 수 있습니다.

CPP

#include <cmath>
#include <cstdint>
#include <vector>
#include <algorithm>

namespace ipm
{
    // =========================
    // 基础数据结构
    // =========================

    struct Vec3
    {
        double x;
        double y;
        double z;
    };

    struct GroundPoint
    {
        double X;     // 世界坐标 X（左右）
        double Y;     // 世界坐标 Y（前后）
        bool valid;   // 是否与地面有有效交点
    };

    struct CameraParam
    {
        // 焦距（像素单位）
        // 如果你只有一个 d，可以令 fx = fy = d
        double fx;
        double fy;

        // 主点（通常是图像中心）
        double cx;
        double cy;

        // 相机离地高度，单位例如 cm
        double H;

        // 相机向下俯角（弧度）
        double pitch;
    };

    struct IPMParam
    {
        // 输出俯视图尺寸
        int outWidth;
        int outHeight;

        // 世界坐标范围（单位与 H 一致，例如 cm）
        // X: 左右范围
        // Y: 前后范围
        double minX;
        double maxX;
        double minY;
        double maxY;
    };

    // =========================
    // 工具函数
    // =========================

    inline double clampDouble(double v, double lo, double hi)
    {
        return (v < lo) ? lo : ((v > hi) ? hi : v);
    }

    inline uint8_t clampToByte(double v)
    {
        if (v < 0.0) return 0;
        if (v > 255.0) return 255;
        return static_cast<uint8_t>(v + 0.5);
    }

    // 绕 X 轴旋转：把相机坐标系下的方向，转到世界坐标系
    // 这里假定：
    // - 世界 Z 轴向上
    // - 相机光轴默认朝世界 Y 正方向
    // - pitch > 0 表示相机向下俯视
    //
    // 为了和图像坐标（v向下）匹配，构造一个工程上常用的映射：
    //
    // 相机系射线 rc = [x, y, 1]
    // 先映射到"未俯仰时"的世界方向：
    //   x -> Xw
    //   y -> -Zw
    //   z -> Yw
    //
    // 再绕世界 X 轴旋转 pitch
    //
    inline Vec3 cameraRayToWorldRay(const Vec3& rc, double pitch)
    {
        // 未俯仰时的世界方向
        // 相机右 -> 世界右
        // 相机下 -> 世界负上
        // 相机前 -> 世界前
        const double X0 = rc.x;
        const double Y0 = rc.z;
        const double Z0 = -rc.y;

        const double c = std::cos(pitch);
        const double s = std::sin(pitch);

        // 绕 X 轴旋转
        Vec3 rw;
        rw.x = X0;
        rw.y = c * Y0 - s * Z0;
        rw.z = s * Y0 + c * Z0;

        return rw;
    }

    // =========================
    // 像素点 -> 地面世界坐标
    // =========================
    //
    // 输入像素点 (u, v)，计算它在地面 Z=0 上对应的世界点 (X, Y)
    //
    // 注意：
    // 1. 如果这条射线朝天或者平行地面，则 invalid
    // 2. fx, fy 用像素单位
    // 3. H 的单位决定输出世界坐标单位
    //
    inline GroundPoint imagePixelToGround(
        double u,
        double v,
        const CameraParam& cam)
    {
        // 1) 像素坐标 -> 相机归一化坐标
        Vec3 rc;
        rc.x = (u - cam.cx) / cam.fx;
        rc.y = (v - cam.cy) / cam.fy;
        rc.z = 1.0;

        // 2) 相机射线 -> 世界射线
        Vec3 rw = cameraRayToWorldRay(rc, cam.pitch);

        // 3) 相机中心在世界坐标中的位置
        // Cw = (0, 0, H)
        // 射线方程：P(t) = Cw + t * rw
        //
        // 与地面 Zw = 0 相交：
        // H + t * rw.z = 0  =>  t = -H / rw.z
        //
        GroundPoint gp{};
        gp.valid = false;

        // 射线没有指向地面，或者几乎平行地面
        if (std::abs(rw.z) < 1e-12)
            return gp;

        const double t = -cam.H / rw.z;

        // 只接受"向前"的交点
        if (t <= 0.0)
            return gp;

        gp.X = t * rw.x;
        gp.Y = t * rw.y;
        gp.valid = true;
        return gp;
    }

    // =========================
    // 世界坐标 -> 俯视图像素
    // =========================
    //
    // 把地面点 (X, Y) 映射到输出俯视图中的 (bx, by)
    //
    // 输出图约定：
    // - 左边是 minX，右边是 maxX
    // - 上边是 maxY（更远处）
    // - 下边是 minY（更近处）
    //
    inline bool groundToBirdPixel(
        double X, double Y,
        const IPMParam& ipmParam,
        double& bx, double& by)
    {
        if (X < ipmParam.minX || X > ipmParam.maxX ||
            Y < ipmParam.minY || Y > ipmParam.maxY)
        {
            return false;
        }

        const double xRatio =
            (X - ipmParam.minX) / (ipmParam.maxX - ipmParam.minX);

        const double yRatio =
            (Y - ipmParam.minY) / (ipmParam.maxY - ipmParam.minY);

        // X 从左到右
        bx = xRatio * (ipmParam.outWidth - 1);

        // 希望"远处在图像上方"
        by = (1.0 - yRatio) * (ipmParam.outHeight - 1);

        return true;
    }

    // =========================
    // 双线性采样（灰度图）
    // =========================
    inline uint8_t bilinearSampleGray(
        const uint8_t* src,
        int width,
        int height,
        int stride,
        double u,
        double v)
    {
        if (u < 0.0 || v < 0.0 || u > width - 1.0 || v > height - 1.0)
            return 0;

        const int x0 = static_cast<int>(std::floor(u));
        const int y0 = static_cast<int>(std::floor(v));
        const int x1 = std::min(x0 + 1, width - 1);
        const int y1 = std::min(y0 + 1, height - 1);

        const double dx = u - x0;
        const double dy = v - y0;

        const double p00 = src[y0 * stride + x0];
        const double p10 = src[y0 * stride + x1];
        const double p01 = src[y1 * stride + x0];
        const double p11 = src[y1 * stride + x1];

        const double v0 = p00 * (1.0 - dx) + p10 * dx;
        const double v1 = p01 * (1.0 - dx) + p11 * dx;
        const double val = v0 * (1.0 - dy) + v1 * dy;

        return clampToByte(val);
    }

    // =========================
    // 双线性采样（RGB 三通道）
    // 每像素 3 字节，RGBRGB...
    // =========================
    inline void bilinearSampleRGB(
        const uint8_t* src,
        int width,
        int height,
        int stride,
        double u,
        double v,
        uint8_t outRGB[3])
    {
        if (u < 0.0 || v < 0.0 || u > width - 1.0 || v > height - 1.0)
        {
            outRGB[0] = outRGB[1] = outRGB[2] = 0;
            return;
        }

        const int x0 = static_cast<int>(std::floor(u));
        const int y0 = static_cast<int>(std::floor(v));
        const int x1 = std::min(x0 + 1, width - 1);
        const int y1 = std::min(y0 + 1, height - 1);

        const double dx = u - x0;
        const double dy = v - y0;

        const uint8_t* p00 = src + y0 * stride + x0 * 3;
        const uint8_t* p10 = src + y0 * stride + x1 * 3;
        const uint8_t* p01 = src + y1 * stride + x0 * 3;
        const uint8_t* p11 = src + y1 * stride + x1 * 3;

        for (int c = 0; c < 3; ++c)
        {
            const double v0 = p00[c] * (1.0 - dx) + p10[c] * dx;
            const double v1 = p01[c] * (1.0 - dx) + p11[c] * dx;
            const double val = v0 * (1.0 - dy) + v1 * dy;
            outRGB[c] = clampToByte(val);
        }
    }

    // =========================
    // 俯视图像素 -> 世界坐标
    // =========================
    //
    // 这是做"逆映射"的关键：
    // 对输出俯视图的每个像素，先求它在世界地面的点，
    // 再反算它在原图中的位置，最后从原图采样。
    //
    inline void birdPixelToGround(
        double bx,
        double by,
        const IPMParam& ipmParam,
        double& X,
        double& Y)
    {
        const double xRatio = bx / (ipmParam.outWidth - 1);
        const double yRatio = 1.0 - by / (ipmParam.outHeight - 1);

        X = ipmParam.minX + xRatio * (ipmParam.maxX - ipmParam.minX);
        Y = ipmParam.minY + yRatio * (ipmParam.maxY - ipmParam.minY);
    }

    // =========================
    // 世界地面点 -> 原图像素
    // =========================
    //
    // 已知世界点 (X, Y, 0)，反投影到输入图像，便于做逆映射采样。
    //
    inline bool groundToImagePixel(
        double X,
        double Y,
        const CameraParam& cam,
        double& u,
        double& v)
    {
        // 世界点 Pw = (X, Y, 0)
        // 相机中心 Cw = (0, 0, H)
        // 世界方向向量 d_w = Pw - Cw = (X, Y, -H)
        const double dwx = X;
        const double dwy = Y;
        const double dwz = -cam.H;

        // 需要把世界方向转回相机方向
        // cameraRayToWorldRay 里用的是：Rw = Rx(pitch) * base
        // 因此这里做逆旋转：Rx(-pitch)
        const double c = std::cos(cam.pitch);
        const double s = std::sin(cam.pitch);

        // 先逆旋转到未俯仰状态
        const double X0 = dwx;
        const double Y0 = c * dwy + s * dwz;
        const double Z0 = -s * dwy + c * dwz;

        // 再映射回相机坐标
        // base: [X0, Y0, Z0] = [xc, zc, -yc]
        const double xc = X0;
        const double yc = -Z0;
        const double zc = Y0;

        // 在相机后方，无效
        if (zc <= 1e-12)
            return false;

        u = cam.fx * (xc / zc) + cam.cx;
        v = cam.fy * (yc / zc) + cam.cy;
        return true;
    }

    // =========================
    // 灰度图 IPM
    // =========================
    //
    // src: 输入灰度图
    // dst: 输出灰度图，需由外部分配 outHeight * dstStride 字节
    //
    inline void warpIPMGray(
        const uint8_t* src,
        int srcWidth,
        int srcHeight,
        int srcStride,
        uint8_t* dst,
        int dstStride,
        const CameraParam& cam,
        const IPMParam& ipmParam)
    {
        for (int by = 0; by < ipmParam.outHeight; ++by)
        {
            uint8_t* dstRow = dst + by * dstStride;

            for (int bx = 0; bx < ipmParam.outWidth; ++bx)
            {
                // 1) 输出俯视图像素 -> 世界地面点
                double X, Y;
                birdPixelToGround(static_cast<double>(bx),
                                  static_cast<double>(by),
                                  ipmParam, X, Y);

                // 2) 世界地面点 -> 原图像素
                double u, v;
                if (!groundToImagePixel(X, Y, cam, u, v))
                {
                    dstRow[bx] = 0;
                    continue;
                }

                // 3) 双线性采样
                dstRow[bx] = bilinearSampleGray(src, srcWidth, srcHeight, srcStride, u, v);
            }
        }
    }

    // =========================
    // RGB 图 IPM
    // =========================
    //
    // src: 输入 RGB 图，按 RGBRGB... 排列
    // dst: 输出 RGB 图，按 RGBRGB... 排列
    //
    inline void warpIPMRGB(
        const uint8_t* src,
        int srcWidth,
        int srcHeight,
        int srcStride,
        uint8_t* dst,
        int dstStride,
        const CameraParam& cam,
        const IPMParam& ipmParam)
    {
        for (int by = 0; by < ipmParam.outHeight; ++by)
        {
            uint8_t* dstRow = dst + by * dstStride;

            for (int bx = 0; bx < ipmParam.outWidth; ++bx)
            {
                double X, Y;
                birdPixelToGround(static_cast<double>(bx),
                                  static_cast<double>(by),
                                  ipmParam, X, Y);

                double u, v;
                if (!groundToImagePixel(X, Y, cam, u, v))
                {
                    uint8_t* p = dstRow + bx * 3;
                    p[0] = p[1] = p[2] = 0;
                    continue;
                }

                uint8_t rgb[3];
                bilinearSampleRGB(src, srcWidth, srcHeight, srcStride, u, v, rgb);

                uint8_t* p = dstRow + bx * 3;
                p[0] = rgb[0];
                p[1] = rgb[1];
                p[2] = rgb[2];
            }
        }
    }

}