Теория
Функция потерь — измеритель промаха
Представь: нейросеть угадывает, что на картинке — кот или собака. Она сказала «собака», а на самом деле кот. Насколько она ошиблась? Вот это и считает функция потерь (loss function) — она измеряет, насколько далеко ответ нейросети от правильного. Чем меньше число — тем лучше нейросеть справляется.
Градиентный спуск — как спускаться с горы
Нейросеть хочет сделать функцию потерь как можно меньше. Для этого она использует градиентный спуск — метод, который шаг за шагом подбирает нужные веса. Каждый шаг чуть уменьшает ошибку. Это как спускаться с горы в тумане: ты не видишь весь путь, но всегда делаешь шаг вниз — туда, где круче.
Эпоха — один полный круг
Эпоха — это когда нейросеть прошла по всем обучающим примерам ровно один раз. Если у тебя 1000 картинок котов и собак, нейросеть посмотрела на все 1000 — это одна эпоха. Обычно учат 10, 50, 100 эпох подряд. Каждый раз нейросеть становится чуть умнее.
Переобучение — заучить, но не понять
Бывает, что нейросеть слишком хорошо запомнила учебные примеры, но на новых картинках тупит. Это переобучение (overfitting). Как школьник, который перед тестом зазубрил ответы к конкретным задачам, а когда попались другие — растерялся. Нейросеть выучила примеры наизусть, но не поняла суть.
Learning rate — не беги слишком быстро
Learning rate — это размер шага при градиентном спуске. Слишком большой шаг — и нейросеть перепрыгнет правильный ответ, будет прыгать туда-сюда и никогда не найдёт дно. Слишком маленький — будет учиться вечно. Хороший learning rate — как оптимальная скорость на велосипеде: не слишком быстро, не слишком медленно.