La régularisation est la pénalité pour la complexité d’un modèle. Elle aide à éviter le surapprentissage.

Le sur-apprentissage nécessite une régularisation. Mettre certains coefficients à 0, c’est la régularisation L0 (peut utilisée).

Dans un vecteur creux de grande dimension, il est judicieux de favoriser des pondérations exactement égales à 0 lorsque c’est possible.

La régularisation L2 remplirait-elle cet objectif ? Malheureusement, non. La régularisation L2 réduit les pondérations, mais elle ne les oblige pas à être exactement égales à 0,0.

Il existe un facteur de régularisation, nommé L1, qui se rapproche de la régularisation L0, mais en ayant l’avantage d’être convexe et donc de permettre des calculs efficaces. Nous pouvons utiliser la régularisation L1 pour ramener un grand nombre de coefficients non informatifs du modèle à exactement zéro, et ainsi économiser de la RAM lors de l’inférence.

Les régularisations L2 et L1 ne pénalisent pas les pondérations de la même manière :

  • La pénalisation L2 porte sur pondération2.
  • La pénalisation L1 porte sur |pondération|.

Par conséquent, L2 et L1 ont des dérivées différentes :

  • La dérivée de L2 est 2 * pondération.
  • La dérivée de L1 est k (une constante, dont la valeur est indépendante de la pondération).

La dérivée de L1 est comparable à une force qui soustrait une constante de la pondération à chaque fois. Toutefois, grâce aux valeurs absolues, L1 présente une discontinuité à zéro, si bien que les résultats de la soustraction qui sont inférieurs à zéro sont mis à zéro.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *