Les promesses d’un cloud plus intelligent que son propre pc pour reconnaître la voix restent encore  des vœux pieux. Si l’on parle sept fois plus vite que le texte que l’on saisit au clavier, les gains de temps offerts par la reconnaissance vocale devraient permettre de se consacrer à d’autres tâches. Mais il faudra encore attendre…

Après l’offre cloud, Speech Live, de Phillips speech processing annoncée au début de cette année, les passionnés de reconnaissance vocale étaient restés sur leur faim. L’offre proposée par le premier vendeur de dictaphones reposait essentiellement sur un système de stockage des messages vocaux, sécurisés, mais partageables.130814155749-mad-at-phone-story-top Le protocole sécurisé HTTPS et un cryptage 256 bit  protègent le document dicté jusqu’au document final. Ainsi, un avocat pouvait dicter un texte à sa secrétaire où qu’il soit, à n’importe quelle heure, 365 jours par ans, et la destinataire, elle même, pouvait reprendre le message n’importe où. Cette dématérialisation, assez pratique, était un premier pas mais ce n’était rien face à la vraie reconnaissance vocale que tout le monde souhaitait.

  Speechscribe, un pas de plus

En annonçant SpeechScribe ,un service de transcription dans le cloud, tous les observateurs se sont dits : « Ca y est, cela va marcher. Je vais parler dans le micro de mon mobile et des ordinateurs super puissants dans le cloud vont convertir ma voix et me renvoyer un fichier prêt à être manipulé dans mon traitement de texte. » Mais non. Mauvais pioche encore. Il faudra encore attendre, le speechScribe n’est qu’un service de secrétariat installé à Manchester qui va reprendre « à la main » les messages envoyés par smartphones doté du logiciel adéquat (Philips dictation) ou par un dictaphone de la marque. speech2On passe, bien sur, par le service speechlive pour transmettre ses enregistrements. Actuellement, seuls les Windows phones ne fonctionnent encore pas avec le logiciel de Philips, bien que le service de transcription soit hébergé par un Datacenter Microsoft.  

Un service pas donné

Passé la première déception, on se fait une raison « dans un sens mieux vaut un texte relu par des humains que rien du tout » mais là encore,une autre déception nous attend : une tarification élevée à la hauteur des prestations des professions visées: médecins avocats, notaires, experts architectes, commerciaux ou d’autres professionnels patentés. L’hébergement speechlive dans le cloud coûte 7,99 euros HT par utilisateur et par mois avec un engagement minimum de trois mois. La minute transcrite s’élève à 3,09 euros HT avec des forfaits de 10, 50, 100… ou 2500 minutes. La conversion s’effectue sous 24 heures mais si c’est urgent (le tete peut revenit en moins de 5 heures) il faudra payer un peu plus. Pour essayer son système, Philips propose et c’est convaincant tant que c’est gratuit, une offre d’essai de 30 jours et 10 minutes de transcription gratuites.   Le coté positif de cette opération, en étant un peu cynique, du fait de son coût assez élevé, est à priori de maintenir et de valoriser l’emploi de secrétaires en France.shutterstock_76155979-600x400 Mais pour Philips, l’économie serait réelle dans tous les cas, cela améliore la compétitivité de l’entreprise. « Cela dépend des textes mais pour beaucoup de commerciaux, le temps passé à saisir des compte rendus de rendez vous justifient le prix et si l’on dispose déjà des services d’une secrétaire, cela peut lui permettre de se dédoubler » précisait Philippe Vemclefs, l’un des responsables de la firme autrichienne. II est vrai qu’on est souvent plus enclin à répondre favorablement à des personnes qui réagissent rapidement.

Des obligations en tous genres

La solution de transcription est de toute manière incontournable lors d’enregistrement ou différentes personnes interviennent. C’est en particulier une obligation lors des conseils d’administrations. Le coté multi locuteurs reste complexe. Pour l’utilisation d’un logiciel de reconnaissance vocale, Nuance en propose à moins de 100 euros, il existe toujours une phase d’apprentissage qui rebute énormément. On est loin des l’outils proposés par Apple (siri) et Google pour reconnaitre quelques mots, à la volée.

60 ans de recherche

En général, pour se servir de ces outils, il faut successivement : configurer son microphone, apprendre « à parler » à son ordinateur, et selon le logiciel entraîner son ordinateur à reconnaître sa voix. La simple dictée, aussi, n’est pas aussi simple que l’on se l’imagine car il faut indiquer la ponctuation, sauter les lignes, et cetera. Mais de nombreux professionnels sont devenus des as du dictaphone et certains radiologues, par exemple, arrivent à produire une trentaine de rapports par jour. Depuis son lancement en 1954, la filiale de Philips désormais devenue une entreprise autrichienne indépendante, n’à cesser d’améliorer ses enregistreurs de dictée, de plus en plus minces et dont les fonctions essentielles se retrouvent désormais sur les mobiles.

Du dictaphone au Cloud, la route est longue  

Outre les dizaines de dictaphones de plus en plus légers fabriqués par Philips, on retiendra le speech Mike, le premier enregistreur relie à un pc qui a permis des 1997 de simplifier la dictée numérique. L’offre de reconnaissance vocale est principalement actuellement entre les mains de l’éditeur Nuance et de son partenaire Microsoft. C’est peut etre de leur coté qu’il faudra attendre un vrai déblocage dans le Cloud. Mais Philips à promis de nouveaux services d’ici peu. L’arrivée de Windows 9 annoncé pour la fin de l’année, devrait relancer la commande vocale et sera peut etre le catalyseur de nouveaux services vocaux.