Actualités
Tajo
12/03/2015

Décisionnel - Big Data : Tajo™, un outil de Data Warehouse pour Hadoop

Selon la fondation Apache, Tajo™ est un système de Data Warehouse pour Hadoop. Il a été conçu pour les requêtes ad hoc à faible latence et « scalables », les agrégations en ligne et les ETL sur d’importants jeux de données stockés sur HDFS et d’autres sources.

 

L’outil est peu connu, mais son développement a débuté en 2010. Tajo™  a « incubé » dans la fondation Apache software depuis 2013 et a bénéficié des développements de la société Gruter qui propose l’accès à Tajo™  sous forme d’un service.

 

Tajo™  permet désormais de fournir une plus grande connectivité aux programmes développés en Java, ainsi qu’à Oracle et PostgreSQL. Cette solution peut s’avérer pertinente pour les entreprises qui voient un accroissement de leurs data warehouses. Il peut également servir pour l’analyse de gros volumes de données stockés sur Hadoop, en utilisant les outils « classiques » habituels de business intelligence plutôt que le framework MapReduce. Cet outil exécute l’ETL sur les données stockées sur HDFS (Hadoop Distributed File System) et les utilisateurs et les programmes externes peuvent gérer leurs requêtes via SQL.

 

Tajo™  intègre un driver JDBC (Java Database Connectivity) ce qui devrait le rendre aussi facile à utiliser qu’un SGBDR classique.

 

Il supporte également JSON (JavaScript Object Notation) facilitant ainsi le travail des développeurs Web.

 

Des entreprises comme la NASA, Intel, Cloudera, Hortonworks, Etsy contribuent au projet Tajo™.

 

Tajo™  est moins connu que Hive ou Impala (sans doute due à la localisation de Gruter en Corée du Sud et à Palo Alto), mais les premiers retours d’expérience semblent prometteurs. Ainsi, la société coréenne de streaming musical MELON utilise-t-elle cet outil pour le traitement analytique et a remarqué qu’il exécutait des jobs ETL de 1.5 To 10 fois plus vite que Hive.

 

Pour plus d’informations sur l’outil : http://tajo.apache.org/

 

> D’après une idée de Joab Jackson