Урок 3.10

Как нейросети учатся на ошибках

Теория

Теория

Функция потерь — измеритель промаха

Представь: нейросеть угадывает, что на картинке — кот или собака. Она сказала «собака», а на самом деле кот. Насколько она ошиблась? Вот это и считает функция потерь (loss function) — она измеряет, насколько далеко ответ нейросети от правильного. Чем меньше число — тем лучше нейросеть справляется.

Градиентный спуск — как спускаться с горы

Нейросеть хочет сделать функцию потерь как можно меньше. Для этого она использует градиентный спуск — метод, который шаг за шагом подбирает нужные веса. Каждый шаг чуть уменьшает ошибку. Это как спускаться с горы в тумане: ты не видишь весь путь, но всегда делаешь шаг вниз — туда, где круче.

Эпоха — один полный круг

Эпоха — это когда нейросеть прошла по всем обучающим примерам ровно один раз. Если у тебя 1000 картинок котов и собак, нейросеть посмотрела на все 1000 — это одна эпоха. Обычно учат 10, 50, 100 эпох подряд. Каждый раз нейросеть становится чуть умнее.

Переобучение — заучить, но не понять

Бывает, что нейросеть слишком хорошо запомнила учебные примеры, но на новых картинках тупит. Это переобучение (overfitting). Как школьник, который перед тестом зазубрил ответы к конкретным задачам, а когда попались другие — растерялся. Нейросеть выучила примеры наизусть, но не поняла суть.

Learning rate — не беги слишком быстро

Learning rate — это размер шага при градиентном спуске. Слишком большой шаг — и нейросеть перепрыгнет правильный ответ, будет прыгать туда-сюда и никогда не найдёт дно. Слишком маленький — будет учиться вечно. Хороший learning rate — как оптимальная скорость на велосипеде: не слишком быстро, не слишком медленно.