roboforum.ru

Технический форум по робототехнике.

Компьютерное зрение. Мысли по поводу.

Компьютерное зрение. Мысли по поводу.

Сообщение =DeaD= » 21 июл 2005, 23:05

Надумалось сегодня:

Утверждение 1: Человек способен распознавать образ только поместив его в центр сетчатки, то есть если строить систему по аналогии, то нам не нужно втупую перебирать все варианты расположения образов на изображении, а нужно сначала выбрать исследуемые области, а затем проводить их анализ.

Утверждение 2: Кроме этого человек сначала определяет масштаб рассматриваемой области, а потом пытается сопоставить её с изображениями в памяти.

Следствие:

Всю систему технического зрения можно разбить на 3 части:

1. Система определения потенциально интересных элементов на изображении, по яркости, по обнаружению движения и т.п.

2. Система формирования из этих элементов потенциальных центров и областей (масштабов) для анализа;

3. Сама система сопоставления образов.

Думаем дальше...
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение Outcaster » 22 июл 2005, 11:24

В догонку:
Предположение 1: разные области сетчатки обрабатываються по разному. Заметил такую вещь - "боковое зрение" намного более чувствительно к движению (изменению картинки), чем прямой взгляд. Проверить довольно просто - "боковым зрением" вполне реально и довольно запросто заметить перерисовку картинки дисплея, а "прямой" взгляд её практически не видит.

Предположение 2: картинка относительно глаза всегда достаточно подвижна, чтобы зрительная система способна была это заметить. В самом деле, жёстко зафиксировать голову довольно сложно, да и глаза почему-то всегда подвижны (предполагаю, сама сетчатка тоже бы должна "шуметь", на что и откликаеться видеосистема поворотом глаз, и отсекает эти шумы статистически).

Предположение 3: видеосистема человека довольно точно "знает" перемещение самого глаза в 3Д пространстве (включая провороты). Самый чувствительный акселлерометр неспроста установлени именно в голове.

Предположение 4: основная обработка видеоинформации ведёться в памяти, видеосистема только намекает на что из известного это похоже и в случае необходимости строиться новый образ, как "мутанта" известного. В конце концов, когда обьект изучен достаточно "мутация" образа достигает такой величины, что он уже считаеться самостоятельным обьектом. Короче говоря, генерация образа идёт эволюционным путём - таким образом надёжнее можно опознать это "одно и то-же" или "это совсем разные вещи".

Предположение 5: при обработке образов учитываеться не только их видеоэквивалент, но и их физика. Так-же предполагаю, что так сказать "теор.мех" "зашит" в систему заспознавания образов (зашиваеться скорее всего при накоплении опыта). И это знание имеет немаловажное значение при формировании образа обьекта (возможно даже и решающее, особенно при грубой разбивке).
Outcaster
 
Сообщения: 267
Зарегистрирован: 13 ноя 2004, 01:10
Откуда: Ривне, Украина

Сообщение ASin » 22 июл 2005, 11:46

Outcaster писал(а):Предположение 2: картинка относительно глаза всегда достаточно подвижна, чтобы зрительная система способна была это заметить. В самом деле, жёстко зафиксировать голову довольно сложно, да и глаза почему-то всегда подвижны (предполагаю, сама сетчатка тоже бы должна "шуметь", на что и откликаеться видеосистема поворотом глаз, и отсекает эти шумы статистически).

Это точно. Вот подтверждающий пример
Чем неподвижнее фиксируем взгляд, тем лучше эффект.
ASin
 
Сообщения: 155
Зарегистрирован: 18 дек 2004, 03:14
Откуда: Москва

Сообщение =DeaD= » 22 июл 2005, 11:50

Outcaster писал(а):В догонку:
Предположение 1: разные области сетчатки обрабатываються по разному. Заметил такую вещь - "боковое зрение" намного более чувствительно к движению (изменению картинки), чем прямой взгляд. Проверить довольно просто - "боковым зрением" вполне реально и довольно запросто заметить перерисовку картинки дисплея, а "прямой" взгляд её практически не видит.

Логично, потому как задача бокового зрения - вовремя среагировать и привлечь туда внимание основного зрения.

Outcaster писал(а):Предположение 2: картинка относительно глаза всегда достаточно подвижна, чтобы зрительная система способна была это заметить. В самом деле, жёстко зафиксировать голову довольно сложно, да и глаза почему-то всегда подвижны (предполагаю, сама сетчатка тоже бы должна "шуметь", на что и откликаеться видеосистема поворотом глаз, и отсекает эти шумы статистически).

Немного не понял - смысл такой что при естественной работе зрения картинка постоянно меняется, даже если мы смотрим на 1 объект, мы разглядываем его детали - так?

Outcaster писал(а):Предположение 3: видеосистема человека довольно точно "знает" перемещение самого глаза в 3Д пространстве (включая провороты). Самый чувствительный акселлерометр неспроста установлени именно в голове.

Бесспорно, если 95% информации поступает от зрения, то погрешность этой информации должна быть минимальна.

Outcaster писал(а):Предположение 4: основная обработка видеоинформации ведёться в памяти, видеосистема только намекает на что из известного это похоже и в случае необходимости строиться новый образ, как "мутанта" известного. В конце концов, когда обьект изучен достаточно "мутация" образа достигает такой величины, что он уже считаеться самостоятельным обьектом. Короче говоря, генерация образа идёт эволюционным путём - таким образом надёжнее можно опознать это "одно и то-же" или "это совсем разные вещи".

Совсем не понял - можно подробнее?

Outcaster писал(а):Предположение 5: при обработке образов учитываеться не только их видеоэквивалент, но и их физика. Так-же предполагаю, что так сказать "теор.мех" "зашит" в систему заспознавания образов (зашиваеться скорее всего при накоплении опыта). И это знание имеет немаловажное значение при формировании образа обьекта (возможно даже и решающее, особенно при грубой разбивке).

Скорее не физика, а динамические свойства - скорость, ускорение, характер движения - это все анализируется вместе с основными свойствами объекта (основной цвет, общая яркость и т.п.), а анализ изображения на сходство со зрительными образами идет позже.
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение =DeaD= » 22 июл 2005, 11:54

2ASin: Кстати, в этой фенечке похоже используется 2 эффекта:

1. Автоматическая калибровка бокового зрения - именно по этому расплываются и сливаются с фоном фиолетовые кружки;

2. Дифференциальное восприятие - то есть нормальный цвет восстановился, а глаз уже откалиброван под фиолетовое пятно, поэтому мы видим не исчезновение фиолетового пятна, а зеленую вспышку.

Вроде нигде не наврал?
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение Outcaster » 22 июл 2005, 12:05

=DeaD= писал(а):Немного не понял - смысл такой что при естественной работе зрения картинка постоянно меняется, даже если мы смотрим на 1 объект, мы разглядываем его детали - так?
Приблизительно так - когда основное зрение рассматривает детали интересующего обьекта, глаз ведь постоянно меняет "точку прицела", соответственно и в боковом зрении происходят изменения. Тогда, если предположить, что то что в поле зрения неподвижно, то по идее боковое зрение должно-бы указывать на наиболее пёстрые участки, что и логично - они наиболее интересны для изучения, т.к. вероятно, что там несколько обьектов, а не один и тот-же (который можно с достаточной точностью и вообразить).
Outcaster
 
Сообщения: 267
Зарегистрирован: 13 ноя 2004, 01:10
Откуда: Ривне, Украина

Сообщение Outcaster » 22 июл 2005, 12:18

=DeaD= писал(а):Скорее не физика, а динамические свойства - скорость, ускорение, характер движения - это все анализируется вместе с основными свойствами объекта (основной цвет, общая яркость и т.п.), а анализ изображения на сходство со зрительными образами идет позже.
Я думаю, в пакет идут все каналы восприятия информации. Все, что только можно ассоциировать с видеоинформацией.
Outcaster
 
Сообщения: 267
Зарегистрирован: 13 ноя 2004, 01:10
Откуда: Ривне, Украина

Сообщение =DeaD= » 22 июл 2005, 12:52

Хм, надо будет все это опробовать на какой-нибудь модели...

Сегодня вечером попробую заняться :)

Кстати, если мы знаем центр объекта и его размер - какие у нас есть средства для быстрого определения его поворота? И как работает человеческий мозг при этом? Может ли он одинаково хорошо распознавать повернутые на любой угол образы?
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение =DeaD= » 22 июл 2005, 12:54

Потому как поворот - это получится самое последнее, что удерживает нас от "тупого" сравнения картинок методами типа "сумма квадратов отклонений".
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение Outcaster » 22 июл 2005, 13:02

Стоп, а откуда появилось понятие "центр обьекта", и как его определить? :shock:
Outcaster
 
Сообщения: 267
Зарегистрирован: 13 ноя 2004, 01:10
Откуда: Ривне, Украина

Сообщение =DeaD= » 22 июл 2005, 13:08

Outcaster писал(а):Стоп, а откуда появилось понятие "центр обьекта", и как его определить? :shock:


А вот есть такая мысль :)

Если алгоритм определения центра и масштаба одинаковый при снятии образа с объекта и при сопоставлении, то ничего определять не надо :)

Понятно что некоторые небольшие колебания центра и масштаба при сопоставлении нужно разрешить, но не более того.
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение gab » 22 июл 2005, 15:37

Ээээ... А может вам лучше книги по физиологии прочитать? Там всё это давно написано. Напрмер "Кодирование сенсорной информации" Дж. Сомьен 1972 г. Русское издание - 1975 год.
Краткое резюме всех исследований глаза:
1. Глаз совершает три типа движений, только одно из которых управляется нашим сознанием. Первый тип - тремор ~0,3 градуса, для возобновления чувствительности. Второй тип - волна "ощупывания" границ яркости.
2. Сенсоры соединены реципрокно.
3. Нейропаттерны левой и правой областей глаза поступают в головной мозг крест накрест.
4. Нейропаттерн содержит закодированный образ той части объекта на которую в данный момент смотрит глаз. Соответственно требуется много итераций для восстановления "картинки мира".
5. Межсоединение сенсоров в сетчатке напоминает пространственный ВЧ фильтр.
6. Отсутствие света такой же стимул, как и его наличие (следует из реципрокности).
gab
 
Сообщения: 212
Зарегистрирован: 30 апр 2005, 03:11
Откуда: Москва
прог. языки: C/C++, Verilog
ФИО: Гвоздев Александр Борисович

Сообщение =DeaD= » 22 июл 2005, 16:28

Может и лучше :)

Только это же надо знать что они такие есть, вот вы например нам это и сказали :)

PS: есть старая веселая история, вроде какого-то 18-19 века, когда один известный физик уехал на остров, 2 года там трудился, а когда вернулся и выступил с докладом - после доклада к нему подошел человек и сказал "вы тут рассказывали про таблицы числе и правила работы с ними, которые вы придумали - так они давно уже известны, называются матрицами, и все операции с ними давно прописаны" :)
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение =DeaD= » 22 июл 2005, 20:22

=DeaD= писал(а):
Outcaster писал(а):Стоп, а откуда появилось понятие "центр обьекта", и как его определить? :shock:

Если алгоритм определения центра и масштаба одинаковый при снятии образа с объекта и при сопоставлении, то ничего определять не надо :)

Что-то я погнал слегка... похоже... однако пришла другая мысль, но четко сформулировать и обосновать пока её пригодность еще не могу - пойду думать...
Аватара пользователя
=DeaD=
 
Сообщения: 24218
Зарегистрирован: 06 окт 2004, 18:01
Откуда: Ебург
прог. языки: C++ / PHP / 1C
ФИО: Антон Ботов

Сообщение Outcaster » 25 июл 2005, 17:09

gab писал(а):Ээээ... А может вам лучше книги по физиологии прочитать? Там всё это давно написано.
Почитываем. :) Только там всё так сказать...абстрактно написано, творчески читать приходиться :? ...
gab писал(а):Краткое резюме всех исследований глаза:
Есть такое, только пару нюансов (ногами не пинать - это то что я понял, когда попытался свести воедино информацию из разных источников - мог и нагнать :oops:)
Так вот:
1) "Волна" возникает как следствие изменения точки прицела, и уменьшаясь в амплитуде вырождаеться в тремор (пишут, что макс на 2-3 колебание уже меньше 1 град. по амплитуде).
2), 5), 6) - приблизительно выходит так, что уже при обработке в мозг передаються три принципиальных типа "битмапов" - изменение освещённости рецептора во времени, разница освещённости между соседними рецепторами и изменение разницы освещённости соседних рецепторов во времени. И это не только на яркость, но и на цвет такая-же система.
Outcaster
 
Сообщения: 267
Зарегистрирован: 13 ноя 2004, 01:10
Откуда: Ривне, Украина

След.

Вернуться в Алгоритмы

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3