Je reçois souvent des demandes de conseil de la part de data scientists, souvent juniors, sur le thème "comment m'améliorer en deep learning" - pas en machine learning, notons-le. Alors autant être clair : la data science, comme son nom l'indique bien (pour une fois), n'est pas la science des modèles ; mais la science des données. Bien maîtriser les modèles de machine learning - et idéalement bien au-delà - est une excellente chose ; mais ce qui fait un bon data scientist, avant tout, c'est sa passion et sa curiosité pour les données : il faut aimer la phase d'exploration des données bien plus que celle de la modélisation, même si elle comporte moins de "magie". Très souvent, d'ailleurs, le travail sur les données permet d'améliorer la performance des modèles plus que le fine tuning.
Et comme qui dit données dit métier, l'autre qualité principale d'un data scientist est de s'intéresser, sincèrement et authentiquement, aux problématiques métiers ; il doit aimer cette part du monde. Pour cela, il doit se documenter autant que faire se peut, se renseigner, poser des questions, etc. Il n'y a pas pire - et c'est malheureusement encore assez répandu dans les datalabs - qu'une équipe de data scientists qui travaille en autarcie : se pose ses propres questions, apporte ses propres réponses, définit ses propres cas d'usage. C'est de la pure destruction de valeur. Les projets de data science sont riches en externalités positives et, très souvent, celles-ci ne franchissent jamais les murs des datalabs. Par exemple, la phase d'exploration des données, qui est a priori simplement un préalable à l'élaboration du modèle, est toujours l'occasion de découvrir des choses très intéressantes , mais ces informations et ces connaissances n'arrivent que rarement aux métiers, pour les aider à prendre des décisions informées, créer de nouvelles opportunités, etc.
Je trouve d'ailleurs que les organisations accordent beaucoup d'importance - à juste titre, au demeurant - à leur architecture de données, mais pas assez à celle de leur organisation humaine, pour mettre les data scientists au plus près des métiers et de la décision.
Par ailleurs, comme tout le monde veut faire du deep learning, il n'est peut-être pas très pertinent, d'un point de vue stratégique, d'aller sur ce marché (qui est un océan de plus en plus rouge). Il vaut peut-être mieux aller sur des compétences plus rares et à très forte valeur ajoutée pour les entreprises : le knoweldge graph, par exemple - c'est aussi à la mode, mais pour de bonnes raisons.
コメント