Как пользоваться подкреплением
Подкрепление - обязательное условие любого научения и обучения. Главное правило: "Что подкрепляем - то и получаем".
Как пользоваться подкреплением
Принципы использования подкрепления положительного и отрицательного одинаковы.
- Моментальность или опережение действия
То есть в идеале подкреплять нужно не действия, а уже момент принятия решения об этих действиях и затем само действие. Так шанс, что нежелательное поведение вообще осуществится предельно мал. Однако давать подкрепление сильно заранее - тоже не стоит, и так, как предугадать действия не всегда возможно - то лучше подкрепление использовать «здесь и сейчас», то есть в момент, как нужное действие совершилось. Для этого дрессировщики животных часто используют кликер, который заменяет подкрепление моментальным звуком (щелчком).
- Чем подкрепление меньше - тем лучше
Подкрепление - всегда маленькое: фраза, слово, взгляд. Большое подкрепление отвлекает от работы, и может быть получено только в честь какого-то выдающегося события. Чем меньше подкрепление - тем лучше.
Опять же, применительно к лошадям. Учимся поднимать ногу вот уже месяц. И наконец, лошадь поднимает и удерживает ногу на весу в течении 5 секунд! Все, супер! Лошадь получает яблоко и окончание занятия, ее чистят, к ней много внимания, ее все любят - одним словом много положительных подкреплений. Но. Это только единственный раз, тот самый, когда она поняла, что делать. В следующее занятие в ответ на поднятую ногу лошадь получит обычную похвалу: щелчок кликера или лакомство и «Хорошо!»
- Чем труднее работа - тем больше подкрепление
Подкрепление разное для каждого действия. Чем труднее действие - тем больше подкрепление. Здесь еще важно осознание самого обучаемого: для кого-то написать статью - это так, фигня, а для кого-то трудная задача. Соответственно соизмерять подкрепление нужно не только со своим представлением о трудности работы, но и с ожиданием обучаемого.'
Для одной лошади - подвиг быть рядом с человеком и не бегать от него, а для другой - это естественная норма. Поощрять таких лошадей стоит по-разному: одну сильно и много, а вторую - слегка и достаточно равнодушно.
- Сформированный навык - это норма.
А значит ни о каком подкреплении речи уже не идет. Единственное, чтобы поддержать нужный навык иногда полезно поощрять спонтанно за выполненное действие. '
Вернемся к лошадям. Учимся останавливаться по команде человека. Первая остановка - это хорошо, это здорово, это похвала. Через два дня лошадь делает это моментально сама. За это больше не хвалим - это норма. Не бежать впереди человека - норма. Теперь хвалим редко, спонтанно, например 1 раз за занятие, только для того, чтобы поддерживать навык.