Dans le monde actuel, les entreprises sont amenées à envoyer et recevoir une masse de données importante. Ces données sont une source d’information très importante pour les entreprises, car grâce à elles, elles peuvent améliorer la connaissance qu’elles ont de leurs clients et ainsi renforcer les parts de marché qu’elles ont acquises.
Pour exploiter ces données, comprendre les préférences de leurs clients, améliorer la connaissance client, améliorer l’efficacité de leurs campagnes marketing, les entreprises ont besoin de professionnels spécialisés dans le Big Data, mais pas n’importe lesquels.
En effet, plusieurs postes ont vu le jour à l’émergence du Big Data. Il existe donc plusieurs métiers dans le domaine. Dans cette article, nous allons principalement vous parler du Data engineer et du Data scientist. Ce sont deux métiers qui, souvent, sont interprétés par une même personne en entreprise, alors que leurs tâches et leurs compétences sont différentes. Regardons de plus près chaque aspect qui les différentie.
Data engineer : définition
Le Data engineer est la personne qui reçoit en premier les données venant des différentes sources. Souvent, ces données sont de formats différents, issus de bases de données différentes et de nature et de contexte différents. Le Data engineer doit les gérer et les réorganiser de façon à ce que les données rangées soient filtrées et propres pour faciliter l’accès à ces dernières.
Dans l’exécution de ses tâches, le Data engineer devra utiliser un certain nombre d’outils spécifiques au Big Data telles que Hadoop ou Spark, Data Lake ou Data Warehouse. Il devra également maitriser les outils de l’informatique et de la programmation nécessaires dans les traitements qu’il devra effectuer sur les données brutes.
Il se situe au début de la chaine de valorisation des données avec le Data Architect, ce qui fait de lui un des acteurs principaux de cette chaine.
Data scientist : définition
Le Data scientist, qu’on confond souvent avec le Data Analyst, est la personne chargée d’analyser et de tirer les données pertinentes parmi les masses de données réorganisées par le Data engineer. La pertinence des données dépendra des métiers cibles de ces données, ce qui veut dire que le Data scientist devra être en relation avec les départements et les services existants dans l’entreprise.
Le but ultime du Data scientist est la mise en valeur des données brutes que l’entreprise possède. C’est-à-dire qu’il doit les trier et les interpréter pour que l’entreprise puisse les utiliser dans sa prise de décision.
Le résultat du travail du Data scientist se présente souvent sous forme d’indicateurs et d’algorithme. Par exemple, les suggestions que nous recevons sur nos réseaux sociaux ou lors de nos achats en ligne sont le résultat des algorithmes construits par les Data Scientists.
Afin de délivrer ces résultats, il utilisera, comme le Data engineer, des outils spéciaux du Big Data mais également des outils de programmation et d’informatique en général.
Data engineer vs Data scientist : missions
Le Data engineer et le Data scientist, comme vous les avez pu percevoir dans leurs définitions, possèdent des missions qui sont complètement ou partiellement différentes.
Le Data engineer a pour mission de rendre les données consommables, ce qui veut dire qu’il doit :
- Désiloter les données (rendre les silos de données des différents métiers uniformes);
- Élaborer l’architecture qui va recevoir ces données ;
- Regrouper ces données dans des centres de données tels que les Data Warehouse et les Data Lake ;
- Concevoir les solutions de traitement et d’accès pour les données ;
- Effectuer des rapports concernant ses travaux ;
- Dans certains cas, effectuer des analyses décisionnelles.
Quant au Data scientist, sa mission est de mettre en valeur les données, et pour cela, il doit :
- Connaitre et comprendre le secteur d’activité dans lesquels il va intervenir, il doit être en relation avec les chefs des différents métiers ;
- Enquêter auprès de ces métiers pour en ressortir les différentes problématiques ;
- Mettre en place des modèles de Data Science pour élaborer des algorithmes adéquats de traitement des données ;
- Concevoir les outils pour ces traitements à partir de l’algorithme ;
- Trier et analyser les données pour en déduire des indicateurs ;
- Transformer ces traitements sous forme de rapports.
Data engineer vs Data scientist : compétences
Ces deux métiers sont des acteurs techniques de la chaine de valorisation des données. C’est-à-dire qu’ils ont tous les deux des compétences techniques (informatique en général et programmation). Sauf que les éléments techniques premiers qu’ils devront maitriser, en plus des autres éléments qui leur sont propres, possèdent quelques différences que nous allons tout de suite évoquer.
Tout d’abord, les compétences qu’ils ont en commun sont la maitrise des Framework tels que Hadoop et Spark, la connaissance des espaces de stockages tels que les Data Warehouse et les Data Lake, la maitrise des environnements cloud, les notions en intelligence artificielle telles que la Machine Learning et le Deep Learning mais également la maitrise de certains langages de programmation tels que Python et Java.
En plus de ces compétences, le Data Engineer devra maitriser la plupart des systèmes d’exploitation, les outils et systèmes relatifs aux SGBD, les outils de consolidation et d’intégration des données, les systèmes de Business intelligence, les techniques d’amélioration des performances et certains autres langages de programmation tels que Scala et VBA.
Pour le Data scientist, il devra maitriser, en plus des compétences communes, l’aspect relationnel relié à son métier, les modèles mathématiques et statistiques qu’il utilisera pour les prédictions telles que le modèle de régression ou encore les arbres de décision ; et d’autres langages tels que R.
Data engineer vs Data scientist : formations
Que vous vouliez devenir Data engineer ou Data scientist, vous pouvez commencer à vous mettre dans le bain en suivant des formations en ligne sur des MOOC ou sur des sites spécialisés en Big Data. Certaines de ces formations sont gratuites et d’autres sont payantes.
Sinon, pour aller plus loin, vous pouvez opter pour des cursus universitaires afin d’obtenir un diplôme de Master.
Pour devenir Data engineer, voici quelques établissements qui délivrent ce Master :
- Telecom Paris Tech ;
- Grenoble INP et Grenoble EM ;
- ESSEC & CentraleSupélec.
Pour les Data scientist, voici également certains établissements :
- L’université Louis-Lumière Lyon 2 ;
- L’université Dauphine ;
- L’université Paris-Saclay.
Vous pouvez aussi passer des certifications afin de confirmer votre aptitude à travailler dans le Big Data et notamment dans l’un de ces postes.
Parmi les certifications concernant le métier de Data engineer, vous avez :
- Cloudera Certified Professional Data Engineer ;
- EMC DELL Certified Data Scientist Associate ;
- MapR Certified Hadoop Developer.
Et pour les certifications concernant les Data scientist, vous pouvez retrouver plusieurs certifications délivrées par l’université Paris-Saclay.
Data engineer vs Data scientist : salaires
Comme tous les métiers clés du Big Data, les offres concernant les postes de Data engineer et de Data scientist sont supérieur à la demande. En effet, rien que sur Glassdoor, au mois de mars 2021, nous retrouvons près de 1600 offres concernant le poste de Data scientist et plus 3200 offres pour le poste de Data Engineer. Comme vous le constatez, vous ne manquerez pas de travail si vous envisagez de vous engager dans l’un de ces domaines.
En ce qui concerne les salaires sur ces deux postes, ils sont intéressants. Le salaire de base pour un Data engineer et un Data scientist est de 36 000 euros par an. La moyenne est de 45 142 euros par an pour un Data engineer et 45 000 euros par an pour un Data Scientist. Le salaire maximum est de 61 000 euros par an pour un Data engineer et de 56 000 euros par an pour un Data scientist. Ces chiffres proviennent du site Glassdoor dont la mise à jour date du mois d’avril 2021.