Trifacta se présente comme le préparateur des données incluant les activités de découverte, de structuration, d’enrichissement de validation et de publication.
Si le traitement et l’analyse des données est la nouvelle conquête de l’Ouest, Trifacta pourrait en être le Wrangler, c’est-à-dire le cow-boy. En fait, le mot wrangler dont retenu par Trifacta pour décrire ses activités est utilisé dans le sens de préparation et de manipulation intégrant toutes les activités allant de la découverte des données jusqu’à la publication des rapports en par toutes les étapes intermédiaires. « Mais nous entendons rester « the man in the middle » entre d’un côté les dimensions stockage et traitement et de l’autre la visualisation, explique Adams Wilson, CEO de l’entreprise. Ce qui laisse la partie la plus importante puisque « 80 % du travail dans tout projet d’analyse de données concerne les phases de préparation et de manipulation ».
La création de Trifacta est issue d’un projet de recherche universitaire baptisé « Stanford Data Wrangler » lancé par l’université éponyme et Berkeley et qui a rencontré un succès quasi immédiat avec plus de 30 000 inscrites pour pouvoir utiliser le code.
Le pédigrée de l’entreprise en matière de technologie est plutôt solide avec trois fondateurs : deux universitaires, Joe Hellerstein, professeur à Berkeley et responsable du département computer science Jim Gray qui responsable de la stratégie et Jeffrey Heer, professeur à l’université de Washington, CXO (Chief Experience Officer) et Sean Kandel, titulaire d’un doctorat de l’université de Stanford et où il s’est spécialisé sur les interfaces de bases de données.
Trifacta précise poursuivre deux objectifs : permettre aux décideurs métier de travailler directement sur leur ensemble de données, sans avoir à passer par l’informatique, et offrir les outils de gouvernance nécessaires à la mise en place d’une solution sécurisé, fiable et scalable. Si les utilisateurs visés en priorité sont les data analysts, ceux qui connaissent bien le métier, maîtrise Excel, éventuellement un peu de SQL et sans connaissances techniques, Trifacta ne délaisse par pour les data scientists maîtrisant les techniques statistiques et capables de faire de la modélisation et data engineers qui peuvent concevoir une solution de bout en bout à partir de Trifacta intégrée à d’autres solutions.
Actuellement, Trifacta propose principalement deux solutions : l’une gratuite, Wrangler qui s’installe sur un PC ou un mac et permettre à un utilisateur de se faire les dents sur des jeux de données simple comme des fichiers Excel ou des fichiers à base de format csv, l’autre, Wrangler Enterprise, payante, et destinée plutôt aux grandes entreprises. Avec la possibilité de réutiliser les développements réalisés avec la version gratuite sur la version entreprise. Wrangler Entreprise repose sur n’importe distribution d’hadoop mais une nouvelle version qui pourra se connecter sur des bases de données SQL traditionnels devrait être annoncée cet été. Le coût de la solution est basé sur le nombre de nœuds et d’utilisateur avec un ticket d’entrée de l’ordre de 20 000 dollars par an.
Le travail de préparation s’appuie sur des technologies de Machine Learning aidant l’utilisateur dans son travail. Wrangler reste un produit horizontal destiné à tous les secteurs, mais le savoir-faire accumulé avec l’utilisation du produit pour des applications spécifiques est synthétisé sous la forme de conseils et recommandations pour faciliter et enrichir la tâche de l’utilisateur.
Exemple d’utilisation la détection de fraudes dans le secteur financier. Les données non structurées récupérées de nombreuses sources – articles spécialisés, fusions & acquisitions, mails, transcriptions de conversations téléphoniques, documents financiers, sont embarqués sur une plate-forme hadoop sur laquelle vient se connecter la solution Wrangler et préparer les données. Pour la partie visualisation, Wrangler s’interface avec une application spécialisée comme Tableau. « Le principal concurrent de Trifacta est le développement en interne », explique Wei Zheng, VP of Product Management. Par rapport à des solutions comme Datameer ou Paxata qui se propose de fournir une application de bout en bout, Triface reste concentrer sur la phase de préparation des données.
Créée en 2012, Trifacta emploie une centaine de salariés, à lever quelque 70 M$, fait état de plus de 3000 clients et de 10 000 utilisateurs.