Технический форум по робототехнике.
=DeaD= » 21 июл 2005, 23:05
Надумалось сегодня:
Утверждение 1: Человек способен распознавать образ только поместив его в центр сетчатки, то есть если строить систему по аналогии, то нам не нужно втупую перебирать все варианты расположения образов на изображении, а нужно сначала выбрать исследуемые области, а затем проводить их анализ.
Утверждение 2: Кроме этого человек сначала определяет масштаб рассматриваемой области, а потом пытается сопоставить её с изображениями в памяти.
Следствие:
Всю систему технического зрения можно разбить на 3 части:
1. Система определения потенциально интересных элементов на изображении, по яркости, по обнаружению движения и т.п.
2. Система формирования из этих элементов потенциальных центров и областей (масштабов) для анализа;
3. Сама система сопоставления образов.
Думаем дальше...
Outcaster » 22 июл 2005, 11:24
В догонку:
Предположение 1: разные области сетчатки обрабатываються по разному. Заметил такую вещь - "боковое зрение" намного более чувствительно к движению (изменению картинки), чем прямой взгляд. Проверить довольно просто - "боковым зрением" вполне реально и довольно запросто заметить перерисовку картинки дисплея, а "прямой" взгляд её практически не видит.
Предположение 2: картинка относительно глаза всегда достаточно подвижна, чтобы зрительная система способна была это заметить. В самом деле, жёстко зафиксировать голову довольно сложно, да и глаза почему-то всегда подвижны (предполагаю, сама сетчатка тоже бы должна "шуметь", на что и откликаеться видеосистема поворотом глаз, и отсекает эти шумы статистически).
Предположение 3: видеосистема человека довольно точно "знает" перемещение самого глаза в 3Д пространстве (включая провороты). Самый чувствительный акселлерометр неспроста установлени именно в голове.
Предположение 4: основная обработка видеоинформации ведёться в памяти, видеосистема только намекает на что из известного это похоже и в случае необходимости строиться новый образ, как "мутанта" известного. В конце концов, когда обьект изучен достаточно "мутация" образа достигает такой величины, что он уже считаеться самостоятельным обьектом. Короче говоря, генерация образа идёт эволюционным путём - таким образом надёжнее можно опознать это "одно и то-же" или "это совсем разные вещи".
Предположение 5: при обработке образов учитываеться не только их видеоэквивалент, но и их физика. Так-же предполагаю, что так сказать "теор.мех" "зашит" в систему заспознавания образов (зашиваеться скорее всего при накоплении опыта). И это знание имеет немаловажное значение при формировании образа обьекта (возможно даже и решающее, особенно при грубой разбивке).
ASin » 22 июл 2005, 11:46
Outcaster писал(а):Предположение 2: картинка относительно глаза всегда достаточно подвижна, чтобы зрительная система способна была это заметить. В самом деле, жёстко зафиксировать голову довольно сложно, да и глаза почему-то всегда подвижны (предполагаю, сама сетчатка тоже бы должна "шуметь", на что и откликаеться видеосистема поворотом глаз, и отсекает эти шумы статистически).
Это точно. Вот
подтверждающий примерЧем неподвижнее фиксируем взгляд, тем лучше эффект.
=DeaD= » 22 июл 2005, 11:50
Outcaster писал(а):В догонку:
Предположение 1: разные области сетчатки обрабатываються по разному. Заметил такую вещь - "боковое зрение" намного более чувствительно к движению (изменению картинки), чем прямой взгляд. Проверить довольно просто - "боковым зрением" вполне реально и довольно запросто заметить перерисовку картинки дисплея, а "прямой" взгляд её практически не видит.
Логично, потому как задача бокового зрения - вовремя среагировать и привлечь туда внимание основного зрения.
Outcaster писал(а):Предположение 2: картинка относительно глаза всегда достаточно подвижна, чтобы зрительная система способна была это заметить. В самом деле, жёстко зафиксировать голову довольно сложно, да и глаза почему-то всегда подвижны (предполагаю, сама сетчатка тоже бы должна "шуметь", на что и откликаеться видеосистема поворотом глаз, и отсекает эти шумы статистически).
Немного не понял - смысл такой что при естественной работе зрения картинка постоянно меняется, даже если мы смотрим на 1 объект, мы разглядываем его детали - так?
Outcaster писал(а):Предположение 3: видеосистема человека довольно точно "знает" перемещение самого глаза в 3Д пространстве (включая провороты). Самый чувствительный акселлерометр неспроста установлени именно в голове.
Бесспорно, если 95% информации поступает от зрения, то погрешность этой информации должна быть минимальна.
Outcaster писал(а):Предположение 4: основная обработка видеоинформации ведёться в памяти, видеосистема только намекает на что из известного это похоже и в случае необходимости строиться новый образ, как "мутанта" известного. В конце концов, когда обьект изучен достаточно "мутация" образа достигает такой величины, что он уже считаеться самостоятельным обьектом. Короче говоря, генерация образа идёт эволюционным путём - таким образом надёжнее можно опознать это "одно и то-же" или "это совсем разные вещи".
Совсем не понял - можно подробнее?
Outcaster писал(а):Предположение 5: при обработке образов учитываеться не только их видеоэквивалент, но и их физика. Так-же предполагаю, что так сказать "теор.мех" "зашит" в систему заспознавания образов (зашиваеться скорее всего при накоплении опыта). И это знание имеет немаловажное значение при формировании образа обьекта (возможно даже и решающее, особенно при грубой разбивке).
Скорее не физика, а динамические свойства - скорость, ускорение, характер движения - это все анализируется вместе с основными свойствами объекта (основной цвет, общая яркость и т.п.), а анализ изображения на сходство со зрительными образами идет позже.
=DeaD= » 22 июл 2005, 11:54
2ASin: Кстати, в этой фенечке похоже используется 2 эффекта:
1. Автоматическая калибровка бокового зрения - именно по этому расплываются и сливаются с фоном фиолетовые кружки;
2. Дифференциальное восприятие - то есть нормальный цвет восстановился, а глаз уже откалиброван под фиолетовое пятно, поэтому мы видим не исчезновение фиолетового пятна, а зеленую вспышку.
Вроде нигде не наврал?
Outcaster » 22 июл 2005, 12:05
=DeaD= писал(а):Немного не понял - смысл такой что при естественной работе зрения картинка постоянно меняется, даже если мы смотрим на 1 объект, мы разглядываем его детали - так?
Приблизительно так - когда основное зрение рассматривает детали интересующего обьекта, глаз ведь постоянно меняет "точку прицела", соответственно и в боковом зрении происходят изменения. Тогда, если предположить, что то что в поле зрения неподвижно, то по идее боковое зрение должно-бы указывать на наиболее пёстрые участки, что и логично - они наиболее интересны для изучения, т.к. вероятно, что там несколько обьектов, а не один и тот-же (который можно с достаточной точностью и вообразить).
Outcaster » 22 июл 2005, 12:18
=DeaD= писал(а):Скорее не физика, а динамические свойства - скорость, ускорение, характер движения - это все анализируется вместе с основными свойствами объекта (основной цвет, общая яркость и т.п.), а анализ изображения на сходство со зрительными образами идет позже.
Я думаю, в пакет идут все каналы восприятия информации. Все, что только можно ассоциировать с видеоинформацией.
=DeaD= » 22 июл 2005, 12:52
Хм, надо будет все это опробовать на какой-нибудь модели...
Сегодня вечером попробую заняться
Кстати, если мы знаем центр объекта и его размер - какие у нас есть средства для быстрого определения его поворота? И как работает человеческий мозг при этом? Может ли он одинаково хорошо распознавать повернутые на любой угол образы?
=DeaD= » 22 июл 2005, 12:54
Потому как поворот - это получится самое последнее, что удерживает нас от "тупого" сравнения картинок методами типа "сумма квадратов отклонений".
Outcaster » 22 июл 2005, 13:02
Стоп, а откуда появилось понятие "центр обьекта", и как его определить?
=DeaD= » 22 июл 2005, 13:08
Outcaster писал(а):Стоп, а откуда появилось понятие "центр обьекта", и как его определить?
А вот есть такая мысль
Если алгоритм определения центра и масштаба одинаковый при снятии образа с объекта и при сопоставлении, то ничего определять не надо
Понятно что некоторые небольшие колебания центра и масштаба при сопоставлении нужно разрешить, но не более того.
gab » 22 июл 2005, 15:37
Ээээ... А может вам лучше книги по физиологии прочитать? Там всё это давно написано. Напрмер "Кодирование сенсорной информации" Дж. Сомьен 1972 г. Русское издание - 1975 год.
Краткое резюме всех исследований глаза:
1. Глаз совершает три типа движений, только одно из которых управляется нашим сознанием. Первый тип - тремор ~0,3 градуса, для возобновления чувствительности. Второй тип - волна "ощупывания" границ яркости.
2. Сенсоры соединены реципрокно.
3. Нейропаттерны левой и правой областей глаза поступают в головной мозг крест накрест.
4. Нейропаттерн содержит закодированный образ той части объекта на которую в данный момент смотрит глаз. Соответственно требуется много итераций для восстановления "картинки мира".
5. Межсоединение сенсоров в сетчатке напоминает пространственный ВЧ фильтр.
6. Отсутствие света такой же стимул, как и его наличие (следует из реципрокности).
=DeaD= » 22 июл 2005, 16:28
Может и лучше
Только это же надо знать что они такие есть, вот вы например нам это и сказали
PS: есть старая веселая история, вроде какого-то 18-19 века, когда один известный физик уехал на остров, 2 года там трудился, а когда вернулся и выступил с докладом - после доклада к нему подошел человек и сказал "вы тут рассказывали про таблицы числе и правила работы с ними, которые вы придумали - так они давно уже известны, называются матрицами, и все операции с ними давно прописаны"
=DeaD= » 22 июл 2005, 20:22
=DeaD= писал(а):Outcaster писал(а):Стоп, а откуда появилось понятие "центр обьекта", и как его определить?
Если алгоритм определения центра и масштаба одинаковый при снятии образа с объекта и при сопоставлении, то ничего определять не надо
Что-то я погнал слегка... похоже... однако пришла другая мысль, но четко сформулировать и обосновать пока её пригодность еще не могу - пойду думать...
Outcaster » 25 июл 2005, 17:09
gab писал(а):Ээээ... А может вам лучше книги по физиологии прочитать? Там всё это давно написано.
Почитываем.
Только там всё так сказать...абстрактно написано, творчески читать приходиться
...
gab писал(а):Краткое резюме всех исследований глаза:
Есть такое, только пару нюансов (ногами не пинать - это то что я понял, когда попытался свести воедино информацию из разных источников - мог и нагнать
)
Так вот:
1) "Волна" возникает как следствие изменения точки прицела, и уменьшаясь в амплитуде вырождаеться в тремор (пишут, что макс на 2-3 колебание уже меньше 1 град. по амплитуде).
2), 5), 6) - приблизительно выходит так, что уже при обработке в мозг передаються три принципиальных типа "битмапов" - изменение освещённости рецептора во времени, разница освещённости между соседними рецепторами и изменение разницы освещённости соседних рецепторов во времени. И это не только на яркость, но и на цвет такая-же система.