Sélectionner une page

Les professionnels du Big Data doivent prendre de multiples décisions, notamment au niveau du langage de programmation. En effet, selon Supinfo, le choix du langage va permettre une exécution parfaite mais aussi d’atteindre les objectifs fixés. Explications.

Le choix du langage dans la Data science

Il existe différents langages de programmation qui peuvent être utilisés par les professionnels du Big Data. On retrouve ainsi Python, qui est le plus utilisé dans tout ce qui touche le développement et l’exploration de la Data Science. Il offre en effet un vaste catalogue d’outils et de bibliothèques afin d’explorer des données volumineuses.

R est un autre langage prisé. S’il a été pendant très longtemps l’apanage des statisticiens, des mathématiciens et des sciences dites dures, il est aujourd’hui également populaire auprès des analystes d’affaires pour tout ce qui touche aux mégadonnées, tout comme le langage SQL.

Il est à noter que le choix du langage du Big Data peut également déterminer celui du notebook utilisé par le data scientist. Ainsi, Jupyter est le successeur du bloc-notes iPython. S’il est aligné sur Python, il peut tout même prendre en charge Julia, R et Scala.

Rappel des principaux langages de programmation dans le Big Data :

  • Scala, qui fonctionne sur la JVM : il est apprécié pour sa robustesse et sa rapidité ;
  • Python : véritablement polyvalent, il permet un large éventail d’utilisations. Sa facilité permet une prise en main rapide ;
  • R, que l’on appelle le langage des statistiques, possède un large référentiel de packages R. Mais il faut souligner son manque de polyvalence qui limite son utilisation dans le Big Data ;
  • Java : ce langage offre un large panel d’outils et de bibliothèques. Il est prisé pour sa stabilité et son opérationnalité pour la production ;
  • Go : facile à utiliser et à développer, ce langage est également rapide

Du côté des applications IoT et du développement des analyses de production

Les programmeurs choisissent généralement R ou Python au cours de la phase expérimentale d’un projet. Toutefois, ils sont souvent amenés à réécrire l’application puis à réimplanter les algorithmes d’apprentissage automatique.

On retrouve également le langage Java (qui a notamment servi à développer le framework Apache Haddop) ainsi que Scala (qui a permis d’écrire Apache Spark). Certains développeurs optent pour leur part pour C++, notamment lorsque la latence et la vitesse comptent. Ce type de langage (C ou C++) permet en effet un contrôle plus rigoureux sur la mémoire ainsi que sur les performances de l’application. On peut notamment évoquer le logiciel Oracle qui contrôle Java et qui a opté pour C afin d’écrire sa base de données, tout comme Mongo, SQLstream  ou encore IBM DB2. Pour autant, il est important de rappeler que le fait de développer une base de données en C++ peut présenter certains inconvénients car le code source C++ est particulièrement complexe.