=DeaD= писал(а):Оценивать качество работы ИНС по времени жизни особи - не очень понятный вариант.
Хм. А действительно интересно. Вот имеем мы статистику жизни роботов. Какие состояния из каких жизней считать хорошими? Опять возвращаемся к вопросу топика.
Ответ в какой-то мере я давал - главное тут мнение создателя. Если мы имитируем создателя-природу - мы, возможно, выберем самые длинные жизни. И будем считать хорошими состояниями все из этих жизней. Может быть за исключением предсмертных. Или за несколько минут до появления критических повреждений. Можно создателя-природу имитировать более сложно - выжить должен вид. Нужны сигналы свой-чужой. Нужны брачные танцы, оплодотворение и дети... Суть понятна, думаю.
Но если создатель хочет не природу имитировать, а под какую-то задачу заточить роботов, то понятно, какие жизни хорошие - тех роботов, которые справились с заданием. Возможно, стоит считать хорошими только те состояния, которые непосредственно предшествовали успеху. А не тех роботов, которые съездили на Багамы, продав один двигатель, потом вернулись через год и выполнили задание. Хотя собственно даже у этих можно считать хорошими состояния за пять минут до выполнения. К успеху ведь шли.
Что-то меня так и тянет давать оценку состояниям не просто "хорошо", а -1...0...1 непрерывным рядом. И за отклонения от разных "хорошо" по разному "током бить". Чтобы выполнение задания после поездки на Багамы считалось не очень хорошим - создатель-то сидел, ждал, волновался... Впрочем, поскольку от них возьмём не все состояния, может и не надо градиента "хорошо". Какое-то сползание в генетические алгоритмы опять.
=DeaD= писал(а):Внутри жизни ей бы тоже нужно учиться, если мы хотим брать за основу природу.
Вот это не понял. Я тут немного инструментарий посмотрел на скриншотах. Вроде как строго разделяют этапы: обучаем, валидируем, тестируем. Т.е. математическая сеть потом не учится сама. Самообучаемые агенты на нейросетях, которые по жизни учатся, они есть, но они более сложную схему имеют, там не одна только сеть.
Добавлено спустя 16 минут 57 секунд:=DeaD= писал(а):И по памяти - там надо будет скорее допиливать обучалку, чтобы она могла поощрять или колбасить связи, которые сработали 5-10-15-20 секунд назад, потому что это привело к "плохо" сейчас.
Опять не понял. Сеть существует вне времени. Обучалки так устроены, что состояния не зависят друг от друга. Нет никаких последовательностей, состояния можно перемешать как угодно. Нет, не так? Иначе ведь придётся оперировать не состояниями, а последовательностями состояний. И тогда нужно подавать какие-то сигналы "начало новой последовательности", или иметь параметр "длина последовательности". А ничего подобного я пока не встречал. Пример: распознавание букв - буквы показываем по одной, распознаём по одной. А не слова и "Войну и мир" распознаём.
Поэтому если считать состояния абсолютно независимыми друг от друга, и при этом желать включения в состояния прошлых параметров, то и получится то, что я предложил - расширенное состояние, в которое как часть этого состояния частично продублированы параметры предыдущего состояния.
Ну ещё можно по-другому пояснить - я считал, что подача сигналов на вход, снятие сигналов с выходов, расчёт ошибок и стимуляция (наказание, поправки) - это всё одна итерация. И не может быть никакой отсроченной стимуляции за то, что было 5-10-15-20 секунд назад, т.е. стимуляции в следующей итерации за прошлую итерацию. У сети нет прошлого. Ни в обучении, ни в жизни. А я хотел этот факт обмануть.