Я тут немного не в теме, но хочу сказать, смотря на видео, что с одной камерой ничего путного не получится.
Я бы заюзал две камеры и сделал управление по такому алгоритму:
1) Находим объект на обоих камерах
2)С помощью датчиков на манипуляторе определяем текущие сгибы суставов
3)На основе данных о суставах (длина и угол поворота) делаем микромодель мира относительно некой центральной точки(например, центра основания робо-руки)
4)Вычисляем положение объекта относительно камер
5)Привязываем положение камер к микромодели
6)Вычисляем абсолютное положение объекта относительнео центральной точки
7)Инверсной кинематикой высчитываем конечное состояние суставов
Делаем проверочку на предмет отсутсвия на "пути" преград и если все ок, то включаем серваки и поехали!
Кстати, по поводу трекинга шара если известно что он не будет слишком быстро двигаться, то советую применить боле "интелектуальный" алгоритм поиска- сначала искать ближе к тому месту, где он был раньше. Вот мысля пришла
P.S. Все, начинаю свою систему зрения делать как раз и опробую новую структуру нейронных сетей, основанную на биологическом зрении. Только соотношения амакриновых/горизонтальных/ганглиозных нужно продумать.