机器视觉

2020-09-04| programme

二维视觉

变换模型

图像变换

图像变换的方式：translation(平移), rotation(旋转), aspect(两边不等比例放缩), affine(保持平行关系), perspective(四边不等比例放缩)

变换模型

变换	说明	矩阵	自由度数量
Translation	平移：位置变化，大小不变		2，位置
Euclidean	欧几里得：位置和旋转变化，大小不变	$\begin{bmatrix} R & t \\ 0^T & 1 \end{bmatrix}$	3，位置+旋转
Similarity	放缩：大小和旋转变化	$\begin{bmatrix} sR & t \\ 0^T & 1 \end{bmatrix}$	4，位置+旋转+缩放
Affine	仿射：保持平行关系	$\begin{bmatrix} A & t \\ 0^T & 1 \end{bmatrix}$	6
Projective	投影：相机的结果，只保持直线形态不变	$\begin{bmatrix} A & t \\ v^T & 1 \end{bmatrix}$	8
Homography	单应性：Projective的一种，描述两个二维平面变换		8，虽然是9个未知数但是 $h_{22}$ 为1

投影Projective

交比不变性(cross ratio)

$t = \frac{||P_3-P_1||||P_4-P_2||}{||P_3-P_2||||P_4-P_1||}$
原理证明

交比不变性

单应性变换Homography

单应性矩阵的限制

单应性矩阵描述的两张图片的变换，只能是平面和平面。
只能应用于固定光心纯旋转的相机拍摄的两个平面，否则会出现歧义

单应性矩阵的限制

定义

在计算机视觉中，平面的单应性被定义为一个平面到另外一个平面的投影映射。因此一个二维平面上的点映射到摄像机成像仪上的映射就是平面单应性的例子。如果使用齐次坐标将标定板上一点P 映射到成像仪上的点m的，这种映射可以用所谓的单应性矩阵来表示。

单应性
Homography

不损失一般性，可以将标定板平面定义为世界坐标系的Z = 0平面： $s\begin{bmatrix} x_i^\prime \\ y_i^\prime \\1\end{bmatrix}= A\begin{bmatrix} R & t \end{bmatrix}\begin{bmatrix} x_i \\ y_i \\ z_i \\1\end{bmatrix}= A\begin{bmatrix} r_1 &r_2 &r_3 & t \end{bmatrix}\begin{bmatrix} x_i \\ y_i \\ 0 \\1\end{bmatrix}= A\begin{bmatrix} r_1 &r_2 & t \end{bmatrix}\begin{bmatrix} x_i \\ y_i \\1\end{bmatrix}$
多出的1表示齐次坐标系
其中 s 为一尺度因数， $H = A \begin{bmatrix} r_1 &r_2 & t \end{bmatrix}$ 即为将成像平面与标定板平面之间的单应性矩阵，这里引入参数s的目的是使得单应性定义到该尺度比例。 $\begin{bmatrix} R & t \end{bmatrix}$ 为将世界坐标系下的标定板平面上的3D点变换到相机坐标系的外参数矩阵，A 是相机的内参数矩阵。
因为使用了齐次坐标，给定一个单应H，给它的元素乘上同一个数a，得到的的单应a*H和H作用相同，因为新单应无非把齐次点x1变成了齐次点a*x1，在其次坐标下表示同一个点。因此我们可以把a换成1/h22，那么H就变成了只有8个自由元素的矩阵。
单应性变换Homography： $\begin{bmatrix} x_i^\prime \\ y_i^\prime \\1\end{bmatrix}\cong \begin{bmatrix} h_{00} & h_{01} & h_{02} \\h_{10} & h_{11} & h_{12} \\h_{20} & h_{21} & h_{22}\end{bmatrix}\begin{bmatrix} x_i \\ y_i \\1\end{bmatrix}$ 。这里是近似等于，实际上他们之间有比例关系 $\lambda p=HQ$

求解

$x_i^\prime=\frac{h_{00}x_i+h_{01}y_i+h_{02}}{h_{20}x_i+h_{21}y_i}+h_{22}$ => $x_i^\prime(h_{20}x_i+h_{21}y_i+h_{22})={h_{00}x_i+h_{01}y_i+h_{02}}$
$y_i^\prime=\frac{h_{10}x_i+h_{11}y_i+h_{12}}{h_{20}x_i+h_{21}y_i+h_{22}}$ => $y_i^\prime(h_{20}x_i+h_{21}y_i+h_{22})={h_{10}x_i+h_{11}y_i+h_{12}}$
结合得到： $\begin{bmatrix} x_i&y_i &1&0&0&0&-x_i^\prime x_i&-x_i^\prime y_i&-x_i^\prime \\0&0&0&x_i&y_i &1&-y_i^\prime x_i&-y_i^\prime y_i&-y_i^\prime \end{bmatrix}\begin{bmatrix} h_{00}\\h_{01}\\h_{02}\\h_{10}\\h_{11}\\h_{12}\\h_{20}\\h_{21}\\h_{22} \end{bmatrix}=\begin{bmatrix} 0\\0 \end{bmatrix}$
那么需要多少个点对求解这个H呢？如果需要唯一解的话，需要4个点对（对应8个方程，去解H中的8个未知数）。由于无法获得准确的x,y，所以通过多个点求解矩阵
$\begin{bmatrix} x_1&y_1 &1&0&0&0&-x_1^\prime x_1&-x_1^\prime y_1&-x_1^\prime \\0&0&0&x_1&y_1 &1&-y_1^\prime x_1&-y_1^\prime y_1&-y_1^\prime\\&&&&&\vdots\\x_n&y_n &1&0&0&0&-x_n^\prime x_n&-x_n^\prime y_n&-x_n^\prime \\0&0&0&x_n&y_n &1&-y_n^\prime x_n&-y_n^\prime y_n&-y_n^\prime \end{bmatrix}\begin{bmatrix} h_{00}\\h_{01}\\h_{02}\\h_{10}\\h_{11}\\h_{12}\\h_{20}\\h_{21}\\h_{22} \end{bmatrix}=\begin{bmatrix} 0\\0 \end{bmatrix}=A_{2n\times 9}\cdot h_9=0_{2n}$
定义最小二乘法求解： $minimize\;||Ah-0||^2$
利用SVD分解，得到 $\hat{h}$ =eigenvector of $A^TA$ with smallest eigenvalue

opencv计算

opencv 的findHomography 函数用于计算（估计两个平面的单应性矩阵）：Mat cv::findHomography ( InputArray srcPoints, InputArray dstPoints, int method = 0, double ransacReprojThreshold = 3, OutputArray mask = noArray(), const int maxIters = 2000,const double confidence = 0.995)
- method:Method used to computed a homography matrix. The following methods are possible:
  0 - 使用最小化投影误差
  RANSAC - 基于RANSAC的鲁棒性方法
  LMEDS - Least-Median robust method
  RHO - PROSAC-based robust method
如果参数method设置为默认值0，该函数使用一个简单的最小二乘方案来计算初始的单应性估计。

RANSAC求解

然而，如果不是所有的点对（srcPoints,dstPoints）都适应这个严格的透视变换。（也就是说，有一些异常值），这个初始估计值将很差。在这种情况下，我们可以使用两个鲁棒性算法中的一个。RANSCA和LMEDS这两个方法都尝试不同的随机的相对应点对的子集，每四对点集一组，使用这个子集和一个简单的最小二乘算法来估计单应性矩阵，然后计算得到单应性矩阵的质量quality/goodness。（对于RANSAC方法是内层围点的数量，对于LMeDs是中间的重投影误差）。然后最好的子集用来产生单应性矩阵的初始化估计和inliers/outliers的掩码。
RANSAC方法，几乎可以处理任含有何异常值比率的情况，但是它需要一个阈值用来区分inliers和outliers。LMeDS方法不需要任何阈值，但是它仅在inliers大于50%的情况下才能正确的工作。最后，如果你确信在你计算得到的特征点仅含一些小的噪声，但是没有异常值，默认的方法可能是最好的选择。（因此，在计算相机参数时，我们或许仅使用默认的方法）

边缘、角点检测

harris

canny

图像畸变

图像畸变是由于透镜制造精度以及组装工艺的偏差会引入畸变，导致原始图像失真。对于针孔相机模型，镜头的畸变分为径向畸变和切向畸变两类。

畸变种类

学名	类	含义	运用
扩展变形	透视	近大远小，距离感+	近距离拍摄，广角镜头，画面有纵深感
压缩变形	透视	近小远大，距离感-	远距离拍摄，长焦镜头视角窄，画面显得近
桶形畸变	径向畸变	镜头中央区域放大比例大于边缘区
枕形畸变	径向畸变	镜头中央区域放大比例小于边缘区
切向畸变	切向畸变	摄像头感光平面和镜头不平行

数学描述

使用归一化坐标变换来描述，使用极坐标系 $(\theta,r)$ ， $(x,y)$ 是真实点的坐标， $(x_{distorted},y_{distorted})$ 是矫正后的点的坐标， $k_1,k_2,k_3,p_1,p_2$ 一般是已经确定的
径向畸变，随着远离中心点，畸变强度增加，
- $\begin{cases}x_{distorted}=x(1+k_1r^2+k_2r^4+k_3r^6)\\y_{distorted}=y(1+k_1r^2+k_2r^4+k_3r^6)\end{cases}$
- 一般 $k_1,k_2$ 就可以满足畸变的校准，但是鱼眼相机这种畸变比较严重的设备，则需要 $k_3$
切向畸变
- $\begin{cases}x_{distorted}=x+2p_1xy+p_2(r^2+2x^2)\\y_{distorted}=y+p_1(r^2+2y^2)+2p_2xy\end{cases}$
综合考虑：上面两种畸变在现实世界中一般是同时存在的
- $\begin{cases}x_{distorted}=x(1+k_1r^2+k_2r^4+k_3r^6)+x+2p_1xy+p_2(r^2+2x^2)\\y_{distorted}=y(1+k_1r^2+k_2r^4+k_3r^6)+y+p_1(r^2+2y^2)+2p_2xy\end{cases}$

畸变矫正

三维坐标点投影到归一化平面上，确定 $(x,y)$
对规划化的平面进行校正，得到 $(x_{distorted},y_{distorted})$
将确定的点通过内参数矩阵，投影到像素平面，得到该点的正确位置
$\begin{cases}u=f_xx_{corrected}+c_x\\v=f_yy_{corrected}+c_y\end{cases}$

成像原理

基础知识

已知两条直线，求交点： $I=x_1\times x_2$
已知两点，求直线： $x=I_1\times I_2$

向量的混合积

向量的混合积vector mixed product： $a\cdot(b\times c)$ $a \cdot (b \times c)$ ，意义是
- the volume of a parallelepiped defined by the three vectors a,b,c. three vectors a,b,c are coplanar iff $a\cdot(b\times c)=0$
- abc组成的立方体的体积，当abc共面则为0

相机成像模型-小孔成像

针孔模型(pin-hold)

小孔成像

数学描述

有图可以看出，以镜头为世界坐标系原点，点P(X,Y,Z)、镜头焦距f、屏幕坐标X’Y’、物体坐标XY的关系是
- $\frac{Z}{f}=\frac{X}{X'}=\frac{Y}{Y'}$
- 上式可得出成像公式： $X'=f\frac{X}{Z}$ ， $Y'=f\frac{Y}{Z}$
像素坐标习惯表示为一个矩阵，所以需要对屏幕坐标进行了缩放和偏移，由此可得：
- 屏幕坐标到像素坐标： $u=\alpha X'+c_x$ ， $v=\beta Y'+c_y$
- 物体坐标到像素坐标，将缩放系数 $\alpha\beta$ 和焦距f进行合并可得：

$\begin{cases}u=f_x\frac{X}{Z}+c_x\\v=f_y\frac{Y}{Z}+c_y\end{cases}$

内参矩阵

将uv转换的公式变为矩阵形式：
- 齐次坐标： $\begin{bmatrix}u\\v\\1\end{bmatrix}=\frac{1}{Z}\begin{bmatrix}f_x&&0&&c_x\\0&&f_y&&c_y\\0&&0&&1\end{bmatrix}\begin{bmatrix}X\\Y\\Z\end{bmatrix}:=\frac{1}{Z}KP$
- 除掉Z的原因是，在图像中已经将深度信息丢失了，统一变为归一化坐标系的坐标。
- 其中的K为相机的内参矩阵 $K(fx,fy,u_0,v_0)$ ，通常在相机生产之后就已经固定

外参矩阵

相机坐标系 $P_{uv}$ $P_{u v}$ 与世界坐标系 $P_w$ $P_{w}$ 之间的变换 $T(R,t)$ $T (R, t)$
- $P_{uv}=\frac{1}{Z}K(RP_w+t)=\frac{1}{Z}KTP_w$
- 这里R,t或T称为外参，是姿态估计的目标

双目模型

左右相机中心距离成为基线，左右像素的几何关系：
- $\frac{z-f}{z}=\frac{b-u_L+u_R}{b}$
整理得
- $z=\frac{fb}{d}$
- $d=u_L-u_R$
d称为视差（disparity），描述同一个点在左右目上成像的距离d。最小为1个像素，因此双目能测量的z有最大值：fb
虽然距离公式简单，但d不容易计算

RGBD相机

Kinect 获取深度测量的原理是三角测距原理，采用一种名为光编码技术，不同于传统的 ToF 光或者结构光测量技术，Kinect 传感器自带红外发射器和红外摄像头，不需要其他的光源，可以直接获取到深度图。

RGBD相机

假设目标k在距传感器距离为0z的参考平面上，红外相机捕捉到目标k处的激光散斑的红外图像上成像的位置为k’。当目标的深度发生变化时，图像上的激光散斑k’沿X轴移动到o’。测量出时差d，也就是此激光散斑移动的距离。
- $\frac{D}{b}=\frac{z_0-z_k}{z_0}$
- $\frac{d}{f}=\frac{D}{z_k}$
- Zk表示目标距传感器的深度，b指基线长度，f指红外相机的焦距。D是点k在空间的位移，d是在红外图像上的视差
可推导出：
- $z_k=\frac{z_0}{1+\frac{z_0}{fb}d}$
若固定参量Z0，f和b已通过标定获得，则可根据式得到深度信息。在 Kinect 内部，这些深度运算已经写入到芯片中。

概念

在现实世界中有一点P，在世界坐标系坐标为 $P(X,Y,Z)$ $P (X, Y, Z)$ ，P投影在相机坐标系坐标为 $Z(u,v)$ $Z (u, v)$ ，两者之间满足变换关系：
- $Z=(R,t)P$
- 确定 $T=(R,t)$ 也就是确定系统外参： $Z=(R',t')P$
- 确定 $K(f_x,f_y,u_0,v_0)$ 也就是确定相机内参，内参是固定的，一般相机会有标识。
图像坐标系 $(c_x,c_y)$ ，在成像平面上的坐标系。通常转换为像素坐标系 $(u_x,v_y)$ ，是对真是事物的投影平面
相机到成像平面的距离也就是相机的焦距 $(f_x,f_y)$ $(f_{x}, f_{y})$ 。成像平面的中心 $(u_0,v_0)$ $(u_{0}, v_{0})$ ，中心可能会调整为左下或者左上的位置。这是相机的内参
- $K(fx,fy,u_0,v_0)=\begin{bmatrix}f_x&0&c_x\\0&f_y&c_y\\0&0&1\end{bmatrix}$
假设知道内参数矩阵和在图像上的位置，那么可以根据外参矩阵求得物体在世界坐标系的位置。这就是标定的过程。
假设相机坐标系和世界坐标系重合，已知三维坐标(X,Y,Z)，根据相似三角形可知
- $\frac{f}{Z}=\frac{v}{Y}$ ，可以得到投影平面的坐标 $v=\frac{fY}{Z}$ ，同理可以得到 $u=\frac{fX}{Z}$
变换矩阵：
- $\begin{bmatrix} X\\Y\\Z\\1 \end{bmatrix} \rightarrow \begin{bmatrix} fX\\fY\\Z \end{bmatrix} =\begin{bmatrix} f&&&0\\&f&&0\\&&1&0 \end{bmatrix}\begin{bmatrix} X\\Y\\Z\\1 \end{bmatrix}$

成像平面中心平移

相机成像平面中心在右下角时，需要平移：
- $\begin{bmatrix} X\\Y\\Z\\1 \end{bmatrix} \rightarrow \begin{bmatrix} fX+Zp_x\\fY+Zp_y\\Z \end{bmatrix} =\begin{bmatrix} f&&p_x&0\\&f&p_y&0\\&&1&0 \end{bmatrix}\begin{bmatrix} X\\Y\\Z\\1 \end{bmatrix}$
最终得到内参矩阵:
- $K=\begin{bmatrix} f&&p_x&0\\&f&p_y&0\\&&1&0 \end{bmatrix}$
投影矩阵P：
- $P=K[R|t]$
- 当世界坐标系和相机坐标系重叠时R=I，t=0： $P=K[I|0]$
相机的感光尺寸长宽可能是不一致的： $m_x,m_y$ ，pixel size= $\frac{1}{m_x\times m_y}$ ，表示每米的像素数量，相机内参的像素坐标可以表示为：
- $K=\frac{pixels}{m}\times m=\begin{bmatrix} m_x&&\\&m_y&\\&&1 \end{bmatrix}\begin{bmatrix} f&&p_x&0\\&f&p_y&0\\&&1&0 \end{bmatrix}=\begin{bmatrix} \alpha_x&&\beta_x\\&\alpha_y&\beta_y\\&&1 \end{bmatrix}$
- 一般情况下 $m_x=m_y$ ，同时也需要考虑畸变

世界坐标系和相机坐标系

当世界坐标系和相机坐标系不重叠，需要进行空间变换:
- $\hat{X}_{cam}=R(\hat{X}-\hat{C})$ ，
表示X坐标减去中心位置坐标，再乘以旋转矩阵，得到变换方程：
- $X_{cam}=\begin{bmatrix} \hat{X}_{cam}\\1 \end{bmatrix}=\begin{bmatrix} R&-R\hat{C}\\0&1 \end{bmatrix}\begin{bmatrix}\hat{X}\\1 \end{bmatrix}=\begin{bmatrix} R&-R\hat{C}\\0&1 \end{bmatrix}X$
外参标定：
- $x=K\begin{bmatrix} I|0 \end{bmatrix}X_{cam}=K[R|-R\hat C]X$

相机标定

相机标定就是确定外参K
- $x=K\begin{bmatrix} R &t \end{bmatrix}X$
- $\begin{bmatrix} \lambda x\\\lambda y\\\lambda \end{bmatrix}=\begin{bmatrix} *&*&*&*&\\*&*&*&*&\\*&*&*&*& \end{bmatrix}\begin{bmatrix} X\\Y\\Z\\1 \end{bmatrix}$
假设在三维空间中已知n个点的世界坐标 $X_i$ 以及投影坐标 $x_i$ ，需要求解投影矩阵P
线型方法：
- $x=PX$ ， $x\times PX=\begin{bmatrix} x\\y\\1 \end{bmatrix}\times\begin{bmatrix} P_1^TX_i\\P_2^TX_i\\P_3^TX_i \end{bmatrix}=\begin{bmatrix} 0&-X_i^T&y_iX_i^T\\X_i^T&0&-x_iX_i^T\\-y_i^TX_i^T&x_iX_i^T&0 \end{bmatrix}\times\begin{bmatrix} P_1\\P_2\\P_3 \end{bmatrix}=0$
多个已知点组合为：
- $\begin{bmatrix} 0&-X_1^T&y_1X_1^T\\X_1^T&0&-x_1X_1^T\\ &\vdots\\0&-X_n^T&y_nX_n^T\\X_n^T&0&-x_nX_n^T \end{bmatrix}\times\begin{bmatrix} P_1\\P_2\\P_3 \end{bmatrix}=0$
P有11个自由度，至少需要6个点得到精确解，同样由于特征点精度问题，需要最小二乘的方法求解最小特征值的特征向量 $||Ap||^2$
线型方法只求解了P，但是没有将内外参区分。实际中使用非线性方法求解：
1. 定义投影矩阵方程
2. 定义损失函数，计算偏差
3. 根据牛顿法迭代求取最小化解

消失点vanishing points

场景的一条直线的无穷远处，在相机平面会展现为一个点，相机点和消失点的连线与场景中的直线平行
$X_t=\begin{bmatrix} x_0+td_1\\y_0+td_2\\z_0+td_3 \\1 \end{bmatrix}=\begin{bmatrix} x_0/t+d_1\\y_0/t+d_2\\z_0/t+d_3 \\1/t \end{bmatrix}$
$X_{\infty}=\begin{bmatrix} d_1\\d_2\\d_3\\0 \end{bmatrix}$

高度测量

根据交比不变性，三维空间中： $\frac{||T-B||||\infty-R||}{||R-B||||\infty-T||}=\frac{H}{R}$
在投影平面上： $\frac{||t-b||||v_z-r||}{||r-b||||v_z-t||}=\frac{H}{R}$

特征提取和匹配

图像中特征的查找在姿态估计和环境感知具有重要作用，在两张不同视角的图像中，找到相同的特征点，根据图像点的坐标变换，以及相机姿态变换或者改坐标实际三维坐标，就可以退出对应的信息。
但图像的特征提取受光照、噪声、能够检测的特征点个数所影响

特征点

定义

在其他含有相同场景或目标的相似图像中以一种相同的或至少非常相似的不变形式表示图像或目标。具有尺度不变性。

特征点类型

角点作为特征点最具代表性，在两个方向上都具有强烈变化。边缘和区块相对难以区分。

特征

可重复性(Repeatability)：相同区域可以在不同的图像中被找到
可区别性(Distinctiveness)：不同区域有不同的表达
高效性(Efficiency)：同一图像中，特征点的数量应远小于像素的数量
局部性(Locality)：特征仅与一小片图像区域有关

组成

关键点(Key Point)；位置、大小、方向、评分等
- FAST/Moravec/Harris
描述子(Descriptor)：特征点周围的图像信息，对旋转、平移、噪声等干扰具有抵抗能力
- SIFT/SURF/ORB/BRIEF/BRISK

关键点检测

Harris角点检测

在(x,y)这个点统计x,y的变化率，得到变换方向[u,v]和Harris矩阵，再根据SVD分解，可以得到两个特征值，得到在两个方向的变化情况。若两个特征点都变化较大，则为角点
$E(u,v)=\sum_{x,y}[I(x+u,y+v)-I(x,y)]^2\approx\sum_{x,y}w(x,y)[I(x,y)+\frac{\partial I}{\partial x}(x,y)u+\frac{\partial I}{\partial y}(x,y)v-I(x,y)]^2=\begin{bmatrix}u\\v\end{bmatrix}^TH\begin{bmatrix}u\\v\end{bmatrix}$
- 图像梯度： $\triangle I(x,y)=(\frac{\partial I}{\partial x}(x,y),\frac{\partial I}{\partial y}(x,y))$
- Harris矩阵： $H=\begin{bmatrix}\sum_{x,y}w(x,y)(\frac{\partial I}{\partial x}(x,y))^2&\sum_{x,y}w(x,y)(\frac{\partial I}{\partial x}(x,y)\frac{\partial I}{\partial y}(x,y))\\\\sum_{x,y}w(x,y)(\frac{\partial I}{\partial x}(x,y)\frac{\partial I}{\partial y}(x,y))&\sum_{x,y}w(x,y)(\frac{\partial I}{\partial y}(x,y))^2\end{bmatrix}$
$SVD(H)=U\Sigma V$ ， $\lambda_1,\lambda_2$
- 根据 $\lambda_1,\lambda_2$ 判断是否为角点
为了简化SVD求解，使用角点准则： $C=det(H)-ktrace(H)^2=\lambda_1\lambda_2-k(\lambda_1+\lambda_2)^2$ ,k=0.04
- k越小，检测子越敏感
- 只有当 $\lambda_1\lambda_2$ 同时取得最大值时，c才能取得最大
非极大值抑制(NMS)，避免重复检测

缺点

不具有尺度不变性

LoG特征点检测

尺度归一化的LoG算子
尺度空间： $L(x,y,\sigma)$

SIFT

尺度不变特征变换（SIFT）

步骤

尺度空间的极值检测：
- 尺度空间指一个变化尺度(σ)的二维高斯函数G(x,y,σ)与原图像I(x,y)卷积（即高斯模糊）后形成的空间,尺度不变特征应该既是空间域上又是尺度域上的局部极值。极值检测的大致原理是根据不同尺度下的高斯模糊化图像差异（Difference of Gaussians,DoG）寻找局部极值，这些找到的极值所对应的点被称为关键点或特征点。
关键点定位：
- 在不同尺寸空间下可能找出过多的关键点，有些关键点可能相对不易辨识或易受噪声干扰。该步借由关键点附近像素的信息、关键点的尺寸、关键点的主曲率来定位各个关键点，借此消除位于边上或是易受噪声干扰的关键点。
方向定位：
- 为了使描述符具有旋转不变性，需要利用图像的局部特征为给每一个关键点分配一个基准方向。通过计算关键点局部邻域的方向直方图，寻找直方图中最大值的方向作为关键点的主方向。
关键点描述子：
- 找到关键点的位置、尺寸并赋予关键点方向后，将可确保其移动、缩放、旋转的不变性。此外还需要为关键点建立一个描述子向量，使其在不同光线与视角下皆能保持其不变性。SIFT描述子是关键点邻域高斯图像梯度统计结果的一种表示，见下图。通过对关键点周围图像区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象，具有唯一性。Lowe在原论文中建议描述子使用在关键点尺度空间内44的窗口中计算的8个方向的梯度信息，共44*8=128维向量表征。(opencv中实现的也是128维)

SURF

(Speeded-Up Robust Features) 加速稳健特征
SURF(Speeded Up Robust Features, 加速稳健特征) 是一种稳健的图像识别和描述算法。它是SIFT的高效变种，也是提取尺度不变特征，算法步骤与SIFT算法大致相同，但采用的方法不一样，要比SIFT算法更高效（正如其名）。SURF使用海森(Hesseian)矩阵的行列式值作特征点检测并用积分图加速运算；SURF 的描述子基于 2D 离散小波变换响应并且有效地利用了积分图。

步骤

特征点检测：
- SURF使用Hessian矩阵来检测特征点，该矩阵是x,y方向的二阶导数矩阵，可测量一个函数的局部曲率，其行列式值代表像素点周围的变化量，特征点需取行列式值的极值点。用方型滤波器取代SIFT中的高斯滤波器，利用积分图（计算位于滤波器方型的四个角落值）大幅提高运算速度。
特征点定位：

与SIFT类似，通过特征点邻近信息插补来定位特征点。

方向定位：
- 通过计算特征点周围像素点x,y方向的哈尔小波变换，并将x,y方向的变换值在xy平面某一角度区间内相加组成一个向量，在所有的向量当中最长的(即x、y分量最大的)即为此特征点的方向。
特征描述子：
- 选定了特征点的方向后，其周围相素点需要以此方向为基准来建立描述子。此时以55个像素点为一个子区域，取特征点周围2020个像素点的范围共16个子区域，计算子区域内的x、y方向(此时以平行特征点方向为x、垂直特征点方向为y)的哈尔小波转换总和Σdx、ΣdyΣdx、Σdy与其向量长度总和Σ|dx|、Σ|dy|Σ|dx|、Σ|dy|共四个量值，共可产生一个64维的描述子。

FAST

是一种角点检测，主要检测局部像素灰度变化明显的地方，以速度快著称
如果一个像素与它邻域的像素差别较大，则其更有可能是角点。

计算过程：
- 在图像中选取像素p，假设亮度为Ip
- 设置阈值T（比如Ip的20%）
- 以像素为中心，选取半径为3的圆上的16个像素点
- 选取的圆上，若有连续的N个点亮度大于Ip+T或小于Ip-T
N的取值的不同，可以分为：FAST-9、FAST-11、FAST-12。常用的FAST-12

Oriented FAST

由于相机的旋转，相同的角点会有旋转变化，按照相同矩形框范围计算描述子会导致结果的不同
Oriented FAST在FAST基础上，计算旋转，得到的选择框可以与之前的检测更为相似，具体过程：
- 在一个细小的图像块B中，定义图像块的矩为：
  - $m_{pq}=\sum_{x,y\in B}x^py^qI(x,y),\;p,q={0,1}$
- 通过矩可以找到图像块的质心：
  - $C=(\frac{m_{10}}{m_{00}},\frac{m_{01}}{m_{00}})$
- 链接图像块的几何中心O与质心C，得到一个方向向量 $\overrightarrow{OC}$ $O C$ ，特征点的方向可以定义为
  - $\theta=arctan(\frac{m_{01}}{m_{10}})$

描述子

BRIEF

是一种二进制描述，对特征点区域的block中，选取很多对点，每对点与特征点呈中心对称，计算两者的像素差，这种方法对光照的变化非常鲁棒
算法具体过程：
- 为减少噪声干扰，先对图像进行高斯滤波(方差为2，高斯窗口为9×9)
- 以特征点为中心，取S×S的邻域窗口，在窗口内随机选取一对(两个)点，比较二者像素的大小，进行二进制赋值：
  - $\tau(p;x,y)=\begin{cases} 1 & if\;p(x)<p(y)\\0&otherwise\end{cases}$
- 其中，p(x)、p(y)分别是随机点x=(u1,v1)，y=(u2,v2)的像素值
- 在窗口中随机选取N对随机点，重复步骤2的二进制赋值，形成一个二进制编码，这个编码就是对特征点的描述，即特征描述子。
BRIEF-128/256/512：在特征点附近的128次像素比较
度量需要用汉明距离
- 两个二进制的值进行比较，得到两者不同的位数

随机选点

随机选点的方法
1. $x_i$ ， $y_i$ 都呈均匀分布 $[-\frac{S}{2},\frac{S}{2}]$
2. $x_i$ ， $y_i$ 都呈高斯分布 $[0,\frac{1}{25}S^2]$ ，准则采样服从各向同性的同一高斯分布
3. $x_i$ 服从高斯分布 $[0,\frac{1}{25}S^2]$ ， $y_i$ 服从高斯分布 $[x_i,\frac{1}{100}S^2]$ ，采样分为2步进行，首先在原点处为 $x_i$ 进行高斯采样，然后在中心为 $x_i$ 处为 $y_i$ 进行高斯采样
4. $x_i$ ， $y_i$ 在空间量化极坐标下的离散位置处进行随机采样
5. $x_i=(0,0)^T$ ， $y_i$ 在空间量化极坐标下的离散位置处进行随机采样
作者实验证明第2种方法效果更好

经典特征点

Harris
SIFT
SURF

特征点提取

特征提取就是关键点和描述子的组合

ORB特征

关键点：Oriented FAST，计算了特征点的主要方向，增加了旋转不变性
描述子：BRIEF，对前一步的特征点周围图像区域进行描述

特征匹配

特征匹配：通过描述子的差异判断哪些特征为同一个点，ORB可以用汉明距离
暴力匹配：比较两图每个特征间的距离

特征匹配

多视几何

得到特征点后，需要得到特征点之间的对应关系，得到相机的旋转和平移
- 如果只有两个单目图像：对极几何2D-2D
- 帧和地图：PnP，3D-2D
- RGB-D图：ICP，3D-3D

对极几何2D-2D

Epipolar Geometry：不知道3D信息时，估计相机的运动(外参)

数学定义

双目立体几何

极点(epipoles)：相机的远点，在另外一个相机的投影： $e_1$ ， $e_2$
极线(epipolar line)：目标点到相机的连线： $l_1$ ， $l_2$
基线(baseline)： $O_1O_2$
极平面(epipolar plane)： $O_1O_2P$ 所确定的平面
空间点的世界坐标为 $P(X,Y,Z)$ ，将 $O_1$ 作为参考系，世界坐标的原点，两个相机对应的成像平面 $I_1$ 、 $I_2$ ，P在成像平面的投影为 $p_1$ 、 $p_2$ ，用特征匹配可以将 $p_1$ 、 $p_2$ 提取出来。
$O_1P$ 和 $O_2P$ 在对方图像上的投影为： $e_2p_2(l_2)$ 、 $e_1p_1(l_1)$
$O_1O_2$ 与两个图像的交点： $e_1$ ， $e_2$
根据p,q，一定可以恢复3维的坐标P，通过对极线和对极平面，在image1中的特征点，对应image2中，只需要查找对极线的位置就可以了，减小了搜索范围

对极约束

同一点的两个视角

相机 $O_1$ 可以通过旋转矩阵进行变换 $T_{12}(R,t)$ ，变换为到 $O_2$ 的状态
以第一个 $O_1$ 为参考系，投影 $sp$ ：
- $s_1p_1=KP$ ，图像坐标到世界坐标的映射，s是P点的距离，因为二维图像丢失了深度信息。
- $s_2p_2=K(RP+t)$ ，K为内参，P为空间坐标
利用归一化坐标的性质(齐次坐标)，x乘以任意s都表示同一向量，将尺度s放进x里：
- $x_1=K^{-1}p_1$ ， $x_2=K^{-1}p_2$
- 可以得到齐次关系： $x_2=Rx_1+t$
等式两边同乘 $x_2^Tt^\wedge$ ，得到
- $x_2^Tt^\wedge x_2=x_2^Tt^\wedge Rx_1+x_2^Tt^\wedge t$ $x_{2}^{T} t^{\land} x_{2} = x_{2}^{T} t^{\land} R x_{1} + x_{2}^{T} t^{\land} t$
  - $t^\wedge t$ ：由于之间平行，叉乘之后为0
  - $x_2^Tt^\wedge x_2$ ：因为 $t^\wedge x_2$ 同时垂直t和x2，所以与 $x_2^T$ 点积，投影为0
- 得到对极约束：
  - $x_2^Tt^\wedge Rx_1=0$
- 带内参形式的对极约束：
  - $p_2^TK^{-1}t^\wedge RK^{-1}p_1$
对极约束的意义是 $O_1O_2P$ 三者共面
定义 $E=t\wedge R$ 为本质矩阵， $F=K^{-1}EK^{-1}$ 为基础矩阵
由于尺度放在x中，实际对于任意 $\lambda$ ， $\lambda x$ 也满足，同时对轨迹乘以n倍，对地图乘以n倍，得到的观测结果是一样的，需要其他里程计或者加速度计确定路程等帮助确定尺度。

本质矩阵essential matrix

作用：两个相机中三维点的对应关系

essential matrix

两个相机的位置，可以用R|t表示，已知p和q，根据向量的混合积公式，由于op、ot和tq共线，他们的混合积为零： $p\cdot(t\times R^Tq)=0$ ， $R^Tq$ 是q在image1的方向向量
叉乘可以转化为：
- $[a]_\times=\begin{bmatrix} 0&-a_z&a_y\\a_z&0&-a_x\\-a_y&a_x&0 \end{bmatrix}$
- $p\cdot(t\times R^Tq)=p^T[t]_\times R^Tq=q^TR[t]_\times p=q^TEp=0$
$E=R[t]_\times$ 就是essential matrix
本质矩阵： $E=t\wedge R$ 是3×3的矩阵，R|t共有6个自由度，E尺度等价性，所以是5个自由度，理论上需要5对点求解。一般考虑误差的因素，按照一般矩阵求解，8个自由度，使用8点法求解

八点法求本质矩阵eight-point algorithm

两对点 $x_1=[u_1,v_1,1]^T$ ， $x_2=[u_2,v_2,1]^T$
根据对极约束：
- $\begin{bmatrix}u_1&v_1&1\end{bmatrix}\cdot E\cdot\begin{bmatrix}u_2&v_2&1\end{bmatrix}=0$ ，
- 其中 $E=\begin{bmatrix}e_1&e_2&e_3\\e_4&e_5&e_6\\e_7&e_8&e_9\\\end{bmatrix}$
把约束向量化：
- $\begin{bmatrix}u_1u_2&u_1v_2&u_1&v_1u_2&v_1v_2&v_1&u_2&v_2&1\end{bmatrix}\begin{bmatrix}e_1\\e_2\\e_3\\e_4\\e_5\\e_6\\e_7\\e_8\\e_9\end{bmatrix}=0$
- $\begin{bmatrix}u_1^1u_2^1&u_1^1v_2^1&u_1^1&v_1^1u_2^1&v_1^1v_2^1&v_1^1&u_2^1&v_2^1&1\\\vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\u_1^8u_2^8&u_1^8v_2^8&u_1^8&v_1^8u_2^8&v_1^8v_2^8&v_1^8&u_2^8&v_2^8&1\end{bmatrix}\begin{bmatrix}e_1\\e_2\\e_3\\e_4\\e_5\\e_6\\e_7\\e_8\\e_9\end{bmatrix}=0$
将8对点组合成为线性方程组，进行奇异值分解：
- $E=U\Lambda V^T$
- 四个可能解：
  - $t_1^\wedge=UR_Z(\frac{\pi}{2}\Lambda U^T)$
  - $t_2^\wedge=UR_Z(-\frac{\pi}{2}\Lambda U^T)$
  - $R_1=UR_Z^T(\frac{\pi}{2}\Lambda V^T)$
  - $R_2=UR_Z^T(\frac{\pi}{2}\Lambda V^T)$

四个可能的解，但只有一个深度为正

图一深度都是正的，其余深度不全为正
8点法求得的E具有8个自由度，需要反推变换矩阵时还需要满足内在性质要求，奇异值为： $[\delta,\delta,0]$ ，变为真正的E
- 在SVD过程中取： $E=U diag(\frac{\delta_1+\delta_2}{2},\frac{\delta_1+\delta_2}{2},0)V^T$

八点法

用于单目SLAM初始化
尺度不确定性：无法知道尺度，一般方法归一化t或特征特点的平均深度
由于 $E=t\wedge R$ ，遇到纯旋转问题t=0时，E也为0，无法求解R；需要用户在初始化时，手动平移操作
多于8对点时，可以使用最小二乘法确定E
有外点时：RANSAC
特征点共面的时候，E会退化，这就可以用单应矩阵解决

单应矩阵Homography

描述两个平面的映射关系

单应矩阵

设特征点位于某平面上：
- $n^TP+d=0$ 或 $-\frac{n^TP}{d}=1$
- 其中法线是n，截距是d，P是位于平面上的点
两个图像特征点的坐标关系：
- $p_2=K(RP+t)=K(RP+t\cdot(-\frac{n^TP}{d}))$
- $=K(R-\frac{tn^T}{d})k^{-1}p_1$
- $p_2=Hp_1$
- 其中H就是单应矩阵
上面可以用矩阵表示为：
- $\begin{bmatrix}u_2\\v_2\\1\end{bmatrix}=\begin{bmatrix}h_1&h_2&h_3\\h_4&h_5&h_6\\h_7&h_8&h_9\end{bmatrix}\begin{bmatrix}u_1\\v_1\\1\end{bmatrix}$
线型方程为：
一对点提供两个约束
H求解方式与八点法求解是一样的，求出H，在计算K，n，d，再求解R，t

基础矩阵Fundamental matrix

作用：将image1上的点映射到image2中
当已知相机内参K时：相机像素坐标系可以转化为世界坐标系: $y=K^{-1}x$
根据 $p=K^{-1}_1\hat p$ 和 $q=K^{-1}_2\hat q$ ，带入到 $q^TEp=0$ ， $\hat p\hat q$ 是像素坐标
可以得到： $\hat q^TK^{-1}_2EK^{-1}_1\hat p=\hat q^T(K^{-1}_2EK^{-1}_1)\hat p=\hat q^TF\hat p=0$
F就是3x3的Fundamental matrix

简化模型

如果使两个相机高度相同，焦距相同，成像的平面也是平行的，此时两个对极线会在图像的同一高度上

$x^{\prime T}Ex=0$ ， $E=[t]_\times R$ ， $R=I$ ， $t=(T,0,0)$
$E=[t]_\times R=\begin{bmatrix} 0&0&0\\0&0&-T\\0&T&0\end{bmatrix}$
可得： $Tv^\prime=Tv$
对于非标准的相机，可以矫正为标准的

已知匹配点求深度

已知Baseline：B，x和x’坐标，焦距都为f，可以通过相似三角形得到深度

深度求取

$\frac{x-x\prime}{f}=\frac{B}{z}$
$disparity=x-x^\prime=\frac{B\cdot f}{z}$
$z=\frac{B\cdot f}{x-x^\prime}$

PnP：3D-2D

Perspective n Points，有n个点已知具体位置，估计相机的姿态(外参)
代数解法，主要利用线性代数求解：
- DLT(Direct Linear Transform)
- P3P
- EPnP/UPnp/…
优化解法，非线性最小二乘估计R,t
- BA(Bundle Adustment)

直接线型变换–DLT

已知空间一点的齐次化坐标 $P(X,Y,Z,1)^T$ ，和投影点归一化坐标 $x_1=(u_1,v_1,1)^T$
投影关系：
- $sx=R\cdot p+t=[R,t]P$ ，齐次化方后，Rt组合为3x4的矩阵，包含12个未知量
- $s\begin{bmatrix}u_1\\v_1\\1\end{bmatrix}=\begin{bmatrix}t_1&t_2&t_3&t_4\\t_5&t_6&t_7&t_8\\t_9&t_{10}&t_{11}&t_{12}\end{bmatrix}\begin{bmatrix}X\\Y\\Z\\1\end{bmatrix}$ ，
最后一行求得s，用于消去前两行的s：
- $s=[t_9,t_{10},t_{11},t_{12}][X,Y,Z,1]^T$
求得u1,v1：
- $u_1=\frac{t_1X+t_2Y+t_3Z+t_4}{t_9X+t_{10}Y+t_{11}Z+t_{12}}$
- $v_1=\frac{t_5X+t_6Y+t_7Z+t_8}{t_9X+t_{10}Y+t_{11}Z+t_{12}}$
为了简化，定义：
- $t_1=(t_1,t_2,t_3,t_4)^T$
- $t_2=(t_5,t_6,t_7,t_8)^T$
- $t_3=(t_9,t_{10},t_{11},t_{12})^T$
则一个特征点提供两个方程：
- $t_1^TP-t_3^Tu_1=0$
- $t_2^TP-t_3^Tv_1=0$
向量化：
- $\begin{bmatrix}P_1^T&0&-u_1P_1^T\\0&P_1^T&-v_1P_1^T\\&\vdots&\\P_N^T&0&-u_1P_N^T\\0&P_N^T&-v_1P_N^T\end{bmatrix}\begin{bmatrix}t_1\\t_2\\t_3\end{bmatrix}=0$
其中可以直接求出 $t=[t_4,t_8,t_12]$ ，求解R需要将 $[R|t]$ 矩阵投影回SO(3)通常用QR分解实现
理论上使用6对点就可以求得结果，超定时求最小二乘解。这种方法叫做直接线型变换。
通常在噪声的情况下，矩阵的秩、特征值、线性关系等并不能很好的保持，一般使用优化方法：BA

Bundle Adustment光束法平差(BA)

最小化重投影误差(minimize the Reprojection Error)

误差e

已知在o1坐标系下的N个空间点 $P(X_i,Y_i,Z_i,1)^T$ ，和对应o2的投影点 $u_i=(u_1,v_i)^T$ ，相机内参K，位姿变化为R,t，李代数 $\xi$ 表示相机位姿
投影关系(齐次坐标)：
- $s_iu_i=Kexp(\xi^\wedge)P_i$
现实世界存在误差， $p_1$ 映射的 $\hat{p}_2$ 与真实 $p_2$ 有一个误差e
求取 $\xi$ 最优解 $\xi^*$ ，最小化误差的公式为：
- $\xi^*=\arg\min_{\xi}\frac{1}{2}\sum_{i=1}^{n}\left\|u_i-\frac{1}{s_i}Kexp(\xi^\wedge)P_i\right\|_2^2$
求解最小化的方法就是使用非线性最小二乘的方法，求解雅克比矩阵 $J^TJ\triangle x=-J^Te$
- $e_i=u_i-\frac{1}{s_i}Kexp(\xi^\wedge)P_i$
- 其一阶泰勒展开。线性化：
- $e_i(x+\triangle x)\approx e_i(x)+J(x)\triangle x$
使用李代数形式求解雅克比形式：
- $\frac{\partial e}{\partial\delta\xi}=\lim_{\delta\xi\rightarrow0}\frac{e(\delta\xi\oplus\xi)}{\delta\xi}=\frac{\partial e}{\partial P'}\frac{\partial P'}{\partial \delta \xi}$
- 其中 $\oplus$ 表示李代数的左扰动求导
P’为P在相机坐标系下的坐标 $P'=(exp(\xi^\wedge)P)_{1:3}=[X',Y',Z']^T$
对P’进行投影，求P’投影的内参矩阵表示：
- $su=KP'=\begin{bmatrix}su\\sv\\s\end{bmatrix}=\begin{bmatrix}f_x&0&c_x\\0&f_y&c_y\\0&0&1\end{bmatrix}\begin{bmatrix}X'\\Y'\\Z'\end{bmatrix}$
(u,v)的公式
- $\begin{cases}u=f_x\frac{X'}{Z'}+c_x\\v=f_y\frac{Y'}{Z'}+c_y\end{cases}$
根据链式法则，可得第一项的求导：
- $\frac{\partial e}{\partial P'}=-\begin{bmatrix}\frac{\partial u}{\partial X'}&\frac{\partial u}{\partial Y'}&\frac{\partial u}{\partial Z'}\\\frac{\partial v}{\partial X'}&\frac{\partial v}{\partial Y'}&\frac{\partial v}{\partial Z'}\end{bmatrix}=-\begin{bmatrix}\frac{f_x}{Z'}&0&-\frac{f_xX'}{Z'^2}\\0&\frac{f_y}{Z'}&-\frac{f_yY'}{Z'^2}\end{bmatrix}$
第二项的求解：
- $\frac{\partial(TP)}{\partial\delta\xi}=(TP)^\odot=\begin{bmatrix}I&-P'^\wedge\\0^T&0^T\end{bmatrix}$
- 非齐次形式： $\frac{\partial P'}{\partial\delta\xi}=[I\; -{P'}^\wedge]$
两项相乘，总的求导结果为：
- $\frac{\partial e}{\partial\delta\xi}=-\begin{bmatrix}\frac{f_x}{Z'}&0&-\frac{f_xX'}{Z'^2}&-\frac{f_xX'Y'}{Z'^2}&f_x+\frac{f_xX^2}{Z'^2}&-\frac{f_xY'}{Z'}\\0&\frac{f_y}{Z'}&-\frac{f_yY'}{Z'^2}&-f_y-\frac{f_yY^2}{Z'^2}&\frac{f_yX'Y'}{Z'^2}&\frac{f_yX'}{Z'}\end{bmatrix}$
以此为J，用于计算增量迭代更新
- $\sum J^TJ\triangle x=-\sum J^Te$
- 其中 $\triangle x=\delta\xi$
- 更新： $T\leftarrow exp(\delta\xi^\wedge)\cdot T$
也可以对3D点求导：
- $e_i=u_i-\frac{1}{s_i}Kexp(\xi^\wedge)P_i$
- $\frac{\partial e}{\partial P}=-\begin{bmatrix}\frac{f_x}{Z'}&0&-\frac{f_xX'}{Z'^2}\\0&\frac{f_y}{Z'}&-\frac{f_yY'}{Z'^2}\end{bmatrix}R$

ICP：3D-3D

迭代最临界点(Iterative Closest Point)：给定配对好的两组3D点，估计相机的旋转和平移运动(外参)
两个点
- $P=[p_1,\dots,p_n]$ ， $P'=[p_1',\dots,p_n']$
运动关系
- $\forall i,p_i=Rp_i' +t$
误差项
- $e_i=p_i-(Rp_i'+t)$
最小二乘问题：
- $\min{R,t}J=\frac{1}{2}\sum_{i=1}^{n}\left\|p_i-(Rp_i'+t)\right\|_2^2$
计算质心并定义质心p和p’，根据质心位置可以用于空间点的平移：
- $p=\frac{1}{n}\sum_{i=1}^{n}(p_i)$ ， $p'=\frac{1}{n}\sum_{i=1}^{n}(p_i')$
去除质心后的目标函数
- $\frac{1}{2}\sum_{i=1}^{n}\left\|p_i-(Rp_i'+t)\right\|^2=\frac{1}{2}\sum_{i=1}^{n}\left\|p_i-Rp_i'-t-p+p-Rp'+Rp'\right\|^2=\frac{1}{2}\sum_{i=1}^{n}\left\|(p_i-p-R(p_i'-p'))+(p-Rp'-t)\right\|^2=\frac{1}{2}\sum_{i=1}^{n}\left\|p_i-p-R(p_i'-p')\right\|^2+\left\|p-Rp'-t\right\|^2+2(p_i-p-R(p_i'-p'))^T(p-Rp'-t)$
由于交叉项部分求和为零 $(p_i-p-R(p_i'-p'))^T(p-Rp'-t)=0$ ，误差函数可以化简为两项：
- $\min{R,t}J=\frac{1}{2}\sum_{i=1}^{n}\left\|p_i-p-R(p_i'-p')\right\|^2+\left\|p-Rp'-t\right\|^2$
ICP求解过程
- 计算两组点的质心的位置p、p’，然后计算每个点的去质心坐标
  - $q_i=p_i-p$ ， $q_i'=p_i'-p'$
- 根据优化问题，得到旋转矩阵R：
  - $R^*=\arg\min_{R}\frac{1}{2}\sum_{i=1}^{n}\left\|q_i-Rq_i'\right\|^2=\frac{1}{2}\sum_{i=1}^{n}q_i^Tq_i+{q_i}'^TR'Rq_i'-2q_i^TRq_i'$
- 其中第一项与R无关，第二项 $R'R=I$ $R^{'} R = I$ 也与R无关，只与第三项有关，可以将这个交叉项写成trace形式：
  - $\sum_{i=1}^{n}-q_i^TRq_i'=\sum_{i=1}^{n}-tr(Rq_i'q_i^T)=-tr(R\sum_{i=1}^{n}q_i'q_i^T)$
- 通过SVD求解R：设 $W=\sum_{i=1}^{n}q_i'q_i^T)$ $W = \sum_{i = 1}^{n} q_{i}^{'} q_{i}^{T})$ ，对W进行SVD的求解：
  - $W=U\Sigma V^T$ ， $R=UV^T$
- 得到t： $t^*=p-Rp'$
当两组P对应关系呈非线性分布时，SVD有解析解，是可以确定唯一的R和t
在两组点都在一条直线上，会遇到退化问题，可能有无穷多解
激光环境下，匹配点位置，将指定最近点为匹配点，此时问题非凸极小值不一定为最小值。
利用非线性优化可以将ICP与PnP结合一起求解
- $e=e_{3D-3D}+e_{3D-2D}$

三角化与深度估计

深度估计

当已知相机运动，求解特征点P的3D位置
几何关系：
- $s_1x_1=s_2Rx_2+t$
- 其中x1,x2为归一化坐标
求解 $s_2$ 时，两边同乘 $x_1^\wedge$ ，因为正交等于0： $s_1x_1^\wedge x_1=0$
- $s_2x_1^\wedge Rx_2+x_1^\wedge t$
- 求解 $s_1$ 亦然
或者同时解 $s_1,s_2$ :
- $\begin{bmatrix}-Rx_2&x_1\end{bmatrix}\begin{bmatrix}s_1\\s_2\end{bmatrix}=t$
因为上式是超定方程，可以用最小二乘法求解
- $x=(A^TA)^{-1}A^Tb$
求解的s1和s2可能不再同一个坐标位置，一般取平均

问题
平移问题的影响

解得深度的质量与平移相关，平移小时误差的影响很大，但是平移大时特征匹配可能不成功
方程 $\begin{bmatrix}-Rx_2&x_1\end{bmatrix}\begin{bmatrix}s_1\\s_2\end{bmatrix}=t$ $[- R x_{2} x_{1}] [s_{1} s_{2}] = t$ 中
- 系数矩阵伪逆不可靠
- $A^TA$ 行列式接近于0，说明两条线近似平行
- 例如，相机前进时，虽有位移，但是图像中心的点无法三角化，没有视差

光流法

特征点法的缺点，在提取特征点、特征匹配都比较耗时，匹配时丢弃了大量有用信息
计算VO的方法

关键点	描述子	方法
√	√	特征匹配
√	×	光流法、直接法
×	×	直接法

光流法：最小化重投影误差(Reprojection Error)
直接法：最小化光度误差(Photometric Error)

光流定义

追踪原图像某个点在其他图像中的运动，本质是估计像素在不同时刻图像中的运动

光流分类	说明	算法
稀疏光流	计算部分像素运动	Lucas Kanade(LK)
稠密光流	计算几乎所有像素运动	Horn Schunck(HS)

光流的计算

设t时刻位于(x,y)处像素点的灰度值为
- $I(x,y,t),I\in[0,255]$
设t时刻位于(x+dx,y+dy)处像素点的灰度值为
- $I(x+dx,y+dy,t)$
设t+dt时刻像素运动到了(x+dx,y+dy)处像素点的灰度值为
- $I(x+dx,y+dy,t+dt)$
希望计算运动 $(dx,dy)$

灰度不变假设

在同一空间点的像素灰度值，在微笑时刻各个图像中是固定不变的 $I(x+dx,y+dy,t+dt)=I(x,y,t)$
这是理想情况下的假设，实际中由于高光/阴影/材质/曝光等不同，很可能不成立
对t+dt时刻的灰度值一阶泰勒展开：
- $I(x+dx,y+dy,t+dt)\approx I(x,y,t)+\frac{\partial I}{\partial x}dx+\frac{\partial I}{\partial y}dy+\frac{\partial I}{\partial t}dt$
由于灰度不变原理，后面的导数项都为0
- $\frac{\partial I}{\partial x}dx+\frac{\partial I}{\partial y}dy+\frac{\partial I}{\partial t}dt=0$
可得，x和y方向梯度=I的时间变化梯度：
- $\frac{\partial I}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial I}{\partial y}\frac{\partial y}{\partial t}=-\frac{\partial I}{\partial t}$
- 其中：
- $\frac{\partial x}{\partial t}$ 表示x轴运动速度u，可以用于求解dx
- $\frac{\partial y}{\partial t}$ 表示y轴运动速度v，可以用于求解dy
- $\frac{\partial I}{\partial x}$ 表示x方向梯度Ix，可以根据 $\frac{I_{x-1,y}-I_{x+1,y}}{2}$ 求解
- $\frac{\partial I}{\partial y}$ 表示y方向梯度Iy，可以根据 $\frac{I_{x,y-1}-I_{x,y+1}}{2}$ 求解
- $\frac{\partial I}{\partial t}$ t时间变化
用矩阵表示上式：
- $\begin{bmatrix}I_x&I_y\end{bmatrix}\begin{bmatrix}u\\v\end{bmatrix}=-I_t$
是一个欠定二元一次线型方程，需要引用额外的约束，假设窗口(w×w)内像素具有相同运动(光度不变)，可以引入 $w^2$ 的约束
- $\begin{bmatrix}I_x&I_y\end{bmatrix}_k\begin{bmatrix}u\\v\end{bmatrix}=-I_{tk},\;k=1,\cdots,w^2$
- 设 $A=\begin{bmatrix}{[I_x,I_y]}_1\\\vdots\\{[I_x,I_y]}_k\end{bmatrix}$ ， $b=\begin{bmatrix}I_{t1}\\\vdots\\I_{tk}\end{bmatrix}$
- $A\begin{bmatrix}u\\v\end{bmatrix}=-b$
当A可逆并且是方阵时：
- $\begin{bmatrix}u\\v\end{bmatrix}=-A^{-1}b$
因为是超定方程，使用最小二乘法求解，使用伪逆形式：
- $\begin{bmatrix}u\\v\end{bmatrix}^*=-(A^TA)^{-1}A^Tb$
可以看成最小化像素误差的话，可以用Gauss-Newton求解非线性优化问题

光流法优化

问题

光流依赖图像的梯度，但梯度不够平滑，可能会剧烈变化
局部梯度不能用于预测长期图像走向
运动过快导致像素跟不上

解决方法

多层光流，解决运动较大的问题

图像金字塔coarse-to-fine optical flow estimation

把不同尺度的图像都进行光流计算并进行统计

光流法缺陷

光流法仅估计了像素间的平移，没有用到相机本身的几何结构，相机的旋转和图像的缩放
跟踪在物体的边缘上，容易在跟踪时产生滑动

直接法

利用相机的运动关系，根据图像直接估计姿态变化，不再聚焦于某个像素，而是更加整体性的约束

定义

直接法

设一点P(X,Y,Z)，有两帧图像，有初始估计的R,t，用李群表示为 $exp(\xi^\wedge)$ $e x p (ξ^{\land})$ ，第一帧看到的P投影为p1，按照初始估计，P在第二帧投影为p2，利用投影关系估计变换矩阵。如果初始估计是正确的，那p1和p2应该是近似的
- $I_1(p_1)\approx I_2(p_2)$
投影关系：
- $p_1=\begin{bmatrix}u\\v\\1\end{bmatrix}_1=\frac{1}{Z_1}KP$
- $p_2=\begin{bmatrix}u\\v\\1\end{bmatrix}_2=\frac{1}{Z_2}K(RP+t)=\frac{1}{Z_2}(Kexp(\xi^\wedge)P)_{1:3}$
- $Z_1Z_2$ 是两个深度
- 因为 $exp(\xi^\wedge)$ 是齐次化的，通过 $1:3$ 取李代数的齐次坐标中前三维，变为3x1
估计相机的运动，建立最小化光度误差问题：
- $\min_\xi J(\xi)=\left\|e\right\|^2$
- 其中：
- $e$ $e$ 为光度误差Photometric Error，基于灰度不变假设(相机缓慢平移)：
  - $e=I_1(p_1)-I_2(p_2)$
- $\xi$ 表示相机运动，关心误差相对于相机的导数
在多个空间点的条件下：
- $\min_\xi J(\xi)=\sum_{i=1}^{N}e_i^Te_i$
- $e_i=I_1(p_1,i)-I_2(p_2,i)$
待估计的量为相机运动 $\xi$ ，我们关系误差相对于相机的导数，这是一个无约束最小二乘问题，使用高斯牛顿方法求解伪逆， $\xi$ 的求导可以利用扰动模型

求解过程

求解最优解过程：使用李代数左乘扰动计算梯度，沿梯度方向求最优解
- 左乘扰动： $e(\delta T\oplus T)=I_1(\frac{1}{Z_1}KP)-I_2(\frac{1}{Z_2}Kexp(\delta\xi^\wedge)exp(\xi^\wedge)P)$
- 对第二项做泰勒展开，用一阶近似： $\approx I_1(\frac{1}{Z_1}KP)-I_2(\frac{1}{Z_2}K(1+\delta\xi^\wedge)exp(\xi^\wedge)P)=I_1(\frac{1}{Z_1}KP)-I_2(\frac{1}{Z_2}Kexp(\xi^\wedge)P+\frac{1}{Z_2}K\delta\xi^\wedge\exp(\xi^\wedge)P)$
- 为了简便，令：
- $q=\delta\xi^\wedge\exp(\xi^\wedge)P$ ，表示三维点坐标
- $u=\frac{1}{Z_2}Kq$ ，投影之后的像素坐标
$I_1(\frac{1}{Z_1}KP)-I_2(\frac{1}{Z_2}Kexp(\xi^\wedge)P+u)$
对第二项做泰勒展开，用一阶近似，可以链式法则求出I对 $xi$ 的导数： $\approx I_1(\frac{1}{Z_1}KP)-I_2(\frac{1}{Z_2}Kexp(\xi^\wedge)P)+\frac{\partial I_2}{\partial u}\frac{\partial u}{\partial q}\frac{\partial q}{\partial\xi}\delta\xi$
$=e(\xi)-\frac{\partial I_2}{\partial u}\frac{\partial u}{\partial q}\frac{\partial q}{\partial\xi}\delta\xi$ $= e (ξ) - \frac{\partial I _{2}}{\partial u} \frac{\partial u}{\partial q} \frac{\partial q}{\partial ξ} δ ξ$
- 其中：
- $\frac{\partial I_2}{\partial u}$ 表示图像梯度
- $\frac{\partial u}{\partial q}$ $\frac{\partial u}{\partial q}$ 表示像素对投影点导数，记作 $q=(X,Y,Z)^T$ $q = (X, Y, Z)^{T}$
  - $\frac{\partial u}{\partial q}=\begin{bmatrix}\frac{\partial u}{\partial X}&\frac{\partial u}{\partial Y}&\frac{\partial u}{\partial Z}\\\frac{\partial u}{\partial X}&\frac{\partial u}{\partial X}&\frac{\partial u}{\partial X}\end{bmatrix}=\begin{bmatrix}\frac{f_x}{Z}&0&\frac{f_xX}{Z^2}\\0&\frac{f_y}{Z}&\frac{f_yY}{Z^2}\end{bmatrix}$
- $\frac{\partial q}{\partial\xi}$ $\frac{\partial q}{\partial ξ}$ 表示投影点对位姿导数：
  - $\frac{\partial q}{\partial\xi}=[I,-q\wedge]$
最终可得：
- $J=-\frac{\partial I_2}{\partial u}\frac{\partial u}{\partial \delta\xi}$
- $\frac{\partial u}{\partial \delta\xi}=-\begin{bmatrix}\frac{f_x}{Z}&0&-\frac{f_xX}{Z^2}&-\frac{f_xXY}{Z^2}&f_x+\frac{f_xX^2}{Z^2}&-\frac{f_xY}{Z}\\0&\frac{f_y}{Z}&-\frac{f_yY}{Z^2}&-f_y-\frac{f_yY^2}{Z^2}&\frac{f_yXY}{Z^2}&\frac{f_yX}{Z}\end{bmatrix}$

类别

从式中可见有图像梯度因子，在图像中梯度不明显的地方，相机估计贡献就小
根据利用图像信息的不同，可分为：
- 稀疏直接法：利用角点或关键点
- 稠密直接法：使用所有像素
- 半稠密直接法：使用部分梯度明显的像素

特点

像素灰度引导着优化方向
要使优化成立，必须保证从初始估计到最优估计中间的梯度一直下降
这很容易受到图像非凸性的影响（可部分地由金字塔减轻）
优势
- 省略特征提取的时间
- 只需有像素梯度而不必是角点
- 可稠密或半稠密
劣势
- 灰度不变难以满足
- 单像素区分性差
- 图像非凸性