Я бы заюзал две камеры и сделал управление по такому алгоритму:
1) Находим объект на обоих камерах
2)С помощью датчиков на манипуляторе определяем текущие сгибы суставов
3)На основе данных о суставах (длина и угол поворота) делаем микромодель мира относительно некой центральной точки(например, центра основания робо-руки)
4)Вычисляем положение объекта относительно камер
5)Привязываем положение камер к микромодели
6)Вычисляем абсолютное положение объекта относительнео центральной точки
7)Инверсной кинематикой высчитываем конечное состояние суставов
Делаем проверочку на предмет отсутсвия на "пути" преград и если все ок, то включаем серваки и поехали!Кстати, по поводу трекинга шара если известно что он не будет слишком быстро двигаться, то советую применить боле "интелектуальный" алгоритм поиска- сначала искать ближе к тому месту, где он был раньше. Вот мысля пришла

P.S. Все, начинаю свою систему зрения делать как раз и опробую новую структуру нейронных сетей, основанную на биологическом зрении. Только соотношения амакриновых/горизонтальных/ганглиозных нужно продумать.


просто хз, как назвать всё это разнообразие из различных типов нейронов, групп, путей, полей, ...
а накука больше? в этом же весь смысл предобработки (для подобного вычислительные шейдеры имхо в самый раз). +микродвижения глаз, вообще много инфы добавляется