Допустим параметры камеры (FOV и всякие коэф. искажения) мы знаем.
Тогда решение "в лоб":
1. Входных параметров 4*N, где N - количество точек.
2. Неизвестных 3*N+6 (координаты каждой точки относительно камеры в первом кадре + матрицы сдвига и вращения камеры в 3D-пространстве во втором кадре относительно своего положения в первом кадре).
Т.е. теоретически тупо строим систему уравнений и находим нечто, наиболее похожее на решение.
Строить с ходу её сейчас не возьмусь
Но реально будет так, что часть из N точек будут на движущихся объектах или вообще хаотичны.
Поэтому если в кадре будет слишком много точек не из ландшафта - они всё испортят.
Как вариант - найти первое решение, выкинуть ту часть точек, которая наиболее далека от него и повторить поиск решения.