http://www.bulletins-electroniques.com/actualites/75844.htm
Au cours des dernières années, la question des données sur le Web est devenue de plus en plus importante. Cependant, il est également apparu que les données actuellement disponibles nécessitent encore de solides compétences en informatique et beaucoup de travail pour leur interprétation, harmonisation, intégration. Ceci représente un obstacle et un facteur dissuasif pour ceux qui pourraient vouloir utiliser les données ouvertes, peut-être en les intégrant avec d’autres sources de données disponibles sur le web.
Dans ce contexte, la société Okkam srl de Trente a développé des outils qui aident à traiter efficacement au moins certains aspects de ce problème, en particulier :
1. Le nettoyage et l’harmonisation des formats et des représentations des données : les données disponibles comme Open Data ou comme ressources Web ont souvent des formats syntaxiques différents qui ne sont pas compatibles;
2. Les conventions pour nommer les objets : très souvent des ensembles différents de données fournissent des informations précieuses sur le même objet du monde réel (personnes, lieux, organisations, produits, événements, etc.), mais ces objets sont nommés différemment (noms de lieux dans différentes langues, variations possibles sur les noms de personnes et produits, différentes manières de se référer à un événement). Cela rend extrêmement coûteuse la tâche de rassemblement autour d’un unique « nom » toutes les données d’un certain objet et très souvent des erreurs d’attribution d’information sont faites.
Pour résoudre ces problèmes, Okkam srl a développé un ensemble d’outils appelé DataLinks, qui est basé sur les résultats innovants d’un projet de recherche co-financé par le septième programme-cadre de la Commission européenne sur la période 2008-2010. L’idée centrale de cette solution est l’Entity Name System (ENS), un service qui permet d’attribuer de manière simple et automatique à n’importe quel objet (également appelé entité) un code (ou étiquette ou ID) qui est le même pour tout utilisateur du service.
Par exemple pour intégrer des informations extraites d’un certain nombre d’articles publiés dans divers journaux et traitant du Pape François (peut-être le décrivant comme « Papa Francesco », « le Saint-Père », « Pope Francis », « Papa Bergoglio », « il Sommo Pontefice », etc.) à celles extraites de Wikipedia, il est possible avec l’utilisation de l’ENS que chacune de ces sources associe le Pape au même ID. Cela permet aux autres programmes de « reconnaître » l’entité dont il est question et donc de connecter à un seul profil toutes les informations (textes et données) disponibles. L’avantage est que cet ID est permanent, ce qui signifie qu’il ne changera jamais et peut donc être utilisé pour intégrer des données et contenus même après plusieurs années.
Origine : « Etichette digitali, per potenziare le ricerche in rete », Galileo, 21/03/2014