J'ai l'impression qu'il y a une montée de plus en plus perceptible des préoccupations concernant l'empreinte carbone de Python et des modèles de machine learning. Même à mon niveau, je ne peux quasiment plus relayer une information sur un nouveau modèle de deep learning sans avoir un commentaire relatif à son empreinte. Si cette prise de conscience est quelque chose de positif en soi - que cela concerne les quelques organisations ayant les moyens de développer de gros modèles que le petit data scientist solo qui s'entraîne dans son coin -, il n'y a pas de raison que l'écologie échappe au bon principe de 80/20. D'une part, je ne suis pas sûr que le ML et Python soient le premier gisement de vertu écologique. D'autre part, il n'est pas encore démontré que ces technologiques ont une empreinte réellement négative. Et il y a plusieurs raisons d'en douter.
- Python est certes plus énergivore que d'autres langages, notamment compilés, sur des tâches élémentaires ; mais il est beaucoup plus simple à l'usage et permet de réduire d'une manière très significative la durée d'un projet.
- Tous les modèles de machine learning ne sont pas énergivores ; ils n'ont pas tous - heureusement - des milliards de paramètres et, dans "la vraie vie", la plupart des modèles utilisés se contentent de quelques dizaines à quelques milliers de paramètres. Par ailleurs, il est de bon sens en ML de privilégier des modèles simples, avec aussi peu de paramètres que possible, pour une application donnée. C'est plus judicieux pour le développement, le déploiement, plus explicable,... au-delà même des considérations écologiques (la morale de l'intérêt rejoint la morale absolue, comme diraient les philosophes).
- Les gros modèles de deep learning - de type GPT-3, etc. - sont effectivement très énergivores à entraîner. Mais ces modèles ne sont pas si nombreux ; seules quelques compagnies ont les moyens d'en entraîner et, une fois entraînés, ils peuvent être utilisés par des milliers, voire des millions, de personnes.
- L'empreinte des modèles de ML, par ailleurs, doit être mise en rapport avec leur impact positif sur l'environnement. Ces outils peuvent également servir à optimiser la consommation d'énergie, les flottes, les trajets, les process, etc. Il y a un nombre infini d'usage vertueux du ML pour l'environnement.
- Le calcul intensif n'est pas né avec le deep learning. Beaucoup de sujets en industrie, en météorologie, etc. nécessitent intrinsèquement beaucoup de calculs (qui sont classiquement des modèles en éléments finis, qui n'ont rien à voir avec l'IA). Ces calculs s'exécutent parfois pendant des jours et des semaines, mobilisant un très grand nombre de processeurs (pour peu que le phénomène modélisé soit plus ou moins complexe et non linéaire). Je me demande d'ailleurs quel est l'empreinte carbone d'une prévision météo ! L'une des pistes très en vogue depuis quelques années pour réduire drastiquement ces temps de calcul est d'utiliser justement... le deep learning !
Comentarios