Ну первое - разбиваем задачу на понятные блоки, например:
1. Детекция объекта:
1.1. Определение объекта на плоском кадре;
1.2. Определение относительных (от камеры) координат объекта в 3D;
1.3. Доработка пункта 1 с учетом накопленной ранее информации и произведенных движений (а-ля Калман);
2. Матмодель объекта в статике:
2.1. Прямая кинематика;
2.2. Инверсная кинематика;
3. Алгоритмы управления верхнего уровня с учетом динамики манипулятора, чтобы он на каждый следующий момент не двигался, как будто не имеет скорости и момента инерции:
2.1. Для подведения манипулятора к зоне "уверенного поражения цели";
2.2. Поведения манипулятора в "зоне уверенного поражения цели" - захват цели и перемещение в корзину;
Далее каждый блок прикидываем как решаем, выписываем основные риски, как-то:
1. Получим фиговую точность;
2. Будет слишком долго обрабатываться;
3. Ваще непонятно как делать (маловероятно - это обычно надо решать на уровне декомпозиции);
4. Не сможем победить железяку;
Задачи с наиболее высокими рисками должны быть запрототипированы в первую очередь на отдельных моделях.
Если задача имеет несколько составляющих - железо, алгоритм, софт - тогда их желательно разбивать на этапы\подзадачи, то есть алгоритмы детекции имело смысл отладить на вебкамере на ПК, а только потом переносить на АРМ. Причем на ПК к отладке могли подключиться пользователи робофорума.
Добавлено спустя 1 минуту 46 секунд:
Часть из этого была сделано, но принципиальные ошибки:
1. Вы смешали алгоритмические, софтовые и железные задачи;
2. Вы не оценили риски по задачам и не выбрали задачи, которые надо запротипировать в первую очередь.