26/02/2019
Arnaud GIACOMETTI
APERO’INFO – 28 février 2019 – Linked Open Data
Le Linked Open Data (LOD) : une source de données pour l’extraction de nouvelles connaissances ?
Le Linked Open Data (LOD) ou « web des données ouvertes et liées » (qui sera introduit dans la présentation précédente par Béatrice Markhoff) constitue aujourd’hui un gisement de données et connaissances en pleine expansion ; il regroupe actuellement plus d’un millier de sources de données (dont DBPedia, Wikidata, Yago, …) comprenant plus d’un milliard de triplets, la plus petite unité de données représentant des association entre sujet, propriété et objet ; par exemple, le triplet (Alberto Giacometti, is-a, Artist) représentera qu’Alberto Giacometti est un artiste.
A partir de ce gisement de données, accessible à tout un chacun, de nombreuses enquêtes et analyses de données peuvent être conduites, par exemple, pour étudier pays par pays comment les populations se répartissent dans des villes de plus ou moins grandes tailles. Mais il est alors important de souligner que les sources de données disponibles, très évolutives, construites de manière collaborative, sont souvent encore très incomplètes. Ainsi, de nombreuses informations sont encore manquantes, et le fait que la population d’une ville ne soit pas renseignée ne permet pas de conclure qu’elle n’a pas d’habitants. Dans ce contexte, il est donc primordial, quand une requête ou analyse est posée sur une base du web des données, de pouvoir évaluer la pertinence et qualité de la réponse apportée.
Après avoir exposé les différents problèmes posés par l’incomplétude des données, nous présenterons quelques travaux menés au sein de l’équipe BdTln du laboratoire LIFAT pour évaluer par exemple, si des données du web sont représentatives ou pas de la réalité (afin d’éviter de réaliser des analyses erronées ou biaisées), si des propriétés du monde réel peuvent être induites des données stockées dans le web des données (par exemple, que tout individu a en général deux parents, une seule date de naissance, …), etc.
Arnaud Giacometti, Professeur des universités en informatique, est membre de l'équipe Bases de données et traitement des langues naturelles (BDTLN) du Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT). Après avoir été co-responsable de l’équipe BdTln (depuis 2010), il est aujourd’hui directeur adjoint du LIFAT avec Jean-Yves Ramel (depuis septembre 2018). Depuis 1995, il est également membre du Département d’Informatique de la faculté des sciences et techniques de Tours. Il a obtenu son doctorat en 1992 à l’École Nationale Supérieure des Télécommunications (aujourd’hui Télécom ParisTech) et son Habilitation à Diriger des Recherches en 2004 à l'Université de Tours (sur les bases de données inductives). Ses recherches portent principalement sur la fouille de données, et plus spécifiquement l’extraction automatique de propriétés dans de grands volumes de données. Suivant le contexte applicatif, les méthodes développées peuvent être utilisées pour extraire des préférences utilisateurs, des biomarqueurs pour le dépistage et le diagnostic médical, des propriétés de connaissances représentées dans le web des données, etc. Plus récemment, ses recherches visent à développer des méthodes de fouille de données centrées-utilisateurs et interactives, prenant au plus tôt en compte ses attentes et préférences.