Les professionnels du Big Data doivent prendre de multiples décisions, notamment au niveau du langage de programmation. En effet, selon Supinfo, le choix du langage va permettre une exécution parfaite mais aussi d’atteindre les objectifs fixés. Explications.
Le choix du langage dans la Data science
Il existe différents langages de programmation qui peuvent être utilisés par les professionnels du Big Data. On retrouve ainsi Python, qui est le plus utilisé dans tout ce qui touche le développement et l’exploration de la Data Science. Il offre en effet un vaste catalogue d’outils et de bibliothèques afin d’explorer des données volumineuses.
R est un autre langage prisé. S’il a été pendant très longtemps l’apanage des statisticiens, des mathématiciens et des sciences dites dures, il est aujourd’hui également populaire auprès des analystes d’affaires pour tout ce qui touche aux mégadonnées, tout comme le langage SQL.
Il est à noter que le choix du langage du Big Data peut également déterminer celui du notebook utilisé par le data scientist. Ainsi, Jupyter est le successeur du bloc-notes iPython. S’il est aligné sur Python, il peut tout même prendre en charge Julia, R et Scala.
Rappel des principaux langages de programmation dans le Big Data :
|
Du côté des applications IoT et du développement des analyses de production
Les programmeurs choisissent généralement R ou Python au cours de la phase expérimentale d’un projet. Toutefois, ils sont souvent amenés à réécrire l’application puis à réimplanter les algorithmes d’apprentissage automatique.
On retrouve également le langage Java (qui a notamment servi à développer le framework Apache Haddop) ainsi que Scala (qui a permis d’écrire Apache Spark). Certains développeurs optent pour leur part pour C++, notamment lorsque la latence et la vitesse comptent. Ce type de langage (C ou C++) permet en effet un contrôle plus rigoureux sur la mémoire ainsi que sur les performances de l’application. On peut notamment évoquer le logiciel Oracle qui contrôle Java et qui a opté pour C afin d’écrire sa base de données, tout comme Mongo, SQLstream ou encore IBM DB2. Pour autant, il est important de rappeler que le fait de développer une base de données en C++ peut présenter certains inconvénients car le code source C++ est particulièrement complexe.