Une évolution vers un web intelligent : IA et TAL - Partie 1

juin 3 2013

Après une petite pause sur notre blog, nous voici de retour avec un nouvel article sur notre série le web du futur. Pour comprendre les évolution vers un web plus intelligent, nous avons interviewé Nathalie Aussenac-Gilles, chercheuse CNRS en traitement automatique des langues et traitement des connaissances. La France possède un reservoir de talents dans ces thématiques et Nathalie Aussenac est une personne inmanquable de par son implication dans la communauté et ses recherches.

L'interview sera publié en deux parties : la première partie (ci-dessous) sera une introduction à ces domaines importants mais peu visibles. La seconde partie sera plus concrète et nous présentera les enjeux et acteurs du traitement des langues.

Après avoir lu ces deux articles vous allez enfin savoir comment fonctionnent (à peu près) Siri ou Google Voice Search.

Bonjour Nathalie Aussenac-Gilles, une présentation à nos lecteurs ?

Nathalie Aussenac

Directeur de recherche au CNRS, je suis responsable de l’équipe MELODI de l’IRIT, un des plus grands laboratoires de recherche en informatique de France, situé à Toulouse.

La thématique de mes recherches peut se regrouper sous le thème d'ingénierie des connaissances. Dans ce domaine nous nous intéressons  aux méthodes, techniques et aux logiciels qui facilitent l’identification et la structuration de connaissances en vue de leur représentation dans des systèmes d’intelligence artificielle ou, plus largement, d’aide intelligente à un utilisateur.

Après une dizaine d’années de collaboration avec des psychologues et des ergonomes pour l’acquisition de connaissances d’experts à partir de leur activité, je me suis tournée vers l’analyse de documents textuels comme sources de connaissances, et, plus particulièrement à la construction d’ontologies à partir de textes. Dans ce cadre, je collabore avec des linguistes et des spécialistes de traitement automatique des langues.

Sinon, j’ai 49 ans, je suis la maman de 3 filles pleines d’énergie, et je suis contente, en répondant à vos questions, de montrer à toutes les jeunes filles que la recherche en science, oui, c’est un travail épanouissant pour une femme !

Où se situe la frontière entre le Traitement Automatique des Langues et la Représentation des Connaissances?

  • Le traitement automatique des langues rassemble l’ensemble des techniques et méthodes permettant à un logiciel de traiter des textes en langue naturelle et d’en caractériser le contenu linguistique. Il peut s’agir, par exemple, de découper un texte en phrases, d'en réaliser une analyse syntaxique pour identifier les rôles des groupes nominaux ou verbaux comme "sujet", "complément d’objet", ou encore d’identifier les catégories grammaticales des mots. Mais il peut s’agir aussi de traitements plus élaborés, qui font appel aux précédents, comme corriger l’orthographe de mots, corriger des fautes d’accord, traduire un texte, en repérer l’organisation rhétorique ou encore répondre à des questions précises dont la réponse est dans des textes.

Arbre syntaxique - TAL

Pour réaliser ces types d’analyse, on peut s’appuyer sur des connaissances linguistiques, ou sur des approches statistiques ou encore sur de l’apprentissage automatique (le terme revient souvent en anglais : machine learning), également une technique d’IA (Intelligence Artificielle).

  • La représentation des connaissances vise un tout autre objectif. Ancrée dans une tradition accordant une place importante à la logique, il s’agit de décrire des connaissances sous forme de formules logiques, de manière, ensuite, à produire des raisonnements en effectuant des inférences, élaborer des mécanismes logiques comme la déduction ou l’induction. Ainsi, à partir d’un ensemble de faits, d’affirmations (vraies a priori) sur le monde à un instant donné, le raisonnement appliquant les formules logiques à ces faits permet de générer de nouveaux faits, donc de nouvelles "connaissances".

Représentation des connaissances

Credit image : http://www.knowledgeharvesting.org

Les recherches en représentation des connaissances ont une facette "invisible" du grand public,  théorique et abstraite, qui consiste à définir des logiques précises et puissantes pour traduire des connaissances particulières : des avis, des opinions, des opérateurs modaux ("je pense, je crois que") et toutes les nuances d’incertitudes que l’on peut avoir sur les connaissances.

Les facettes visibles de ces travaux ont été, dans les années 80, les systèmes experts, qui faisaient appel à des logiques assez simples, utilisant des prédicats sans variables ou avec une variable, et plus récemment, les langages du web sémantique (RDF, RDFa et OWL). Ces derniers faisant appel à des logiques du 1er ordre appelées « logiques de description » pour raisonner sur les connaissances identifiées sur des pages ou données du web.

La confusion entre ces deux types de recherches existe, pourquoi ?

Parce que les textes constituent des sources de connaissances. Pour définir un ensemble de formules logiques, pour représenter des connaissances, je peux m’appuyer sur ce que je sais ou ce que je demande à un expert du domaine, mais je peux aussi aller chercher les connaissances dont les textes me fournissent des indices linguistiques. Les logiciels et techniques du TAL servent donc à analyser, à fouiller les textes à la recherche de tels indices en vue de construire, plus ou moins automatiquement, des représentations qui reflètent une interprétation de leur contenu, de leur sémantique, adaptée aux objectifs d’utilisation de ces représentations.

Pourquoi vous intéressez-vous à ces sujets dans le cadre de vos recherches ?

Je m’intéresse à l’ingénierie des ontologies car ces modèles de représentation des connaissances, qui apparaissent sous des hiérarchies de concepts un peu comme les classifications en sciences naturelles, s’avèrent très utiles pour décrire les éléments d’un domaine sur lesquels on va raisonner dans une application donnée. De plus, elles sont devenues extrêmement "populaires" depuis l’établissement du projet du web sémantique, dont l’objectif est de rajouter une couche explicite de représentation des connaissances aux données du web.

Par exemple, on peut rajouter des tags à un fichier contenant une photo pour en caractériser le contenu par des mots clés. Si maintenant ces mots clés sont partagés, on pourra regrouper des photos similaires traitant des mêmes mots clés, faire une recherche par ces mots clés, etc... C’est le principe des sites de partage dans les réseaux sociaux.

Mais on peut aller plus loin si l’on organise les tags. Si par exemple on organise des plantes en familles puis genres, ou si l’on est capable d'organiser un pays sous la forme capitale - villes - régions etc... on pourra alors raisonner pour répondre par des réponses approchées à une requête qui n’a pas de réponse exacte. Si aucune photo ne répond à "monuments de Paris" dans une collection donnée, on pourra retourner une photo du château de Versailles si l’on sait que Versailles "estACôtéDe" Paris ou que Versailles et Paris "sont" 2 villes "SituéesDans" l’Île de France.

Les hiérarchies de tags des réseaux sociaux permettent ce genre de rapprochement. Des ontologies bien construites et riches en connaissances constituent une alternative avec une modélisation contrôlée, précise et souvent de meilleure qualité car validée par des experts.

Ontologies

Mes recherches portent sur la construction de ces ontologies en explorant des documents textuels, et font naturellement appel au traitement automatique des langues pour faciliter le repérage dans des textes des connaissances à représenter dans les ontologies.

Merci Nathalie, nous vous retrouverons la semaine prochaine pour discuter des applications concrètes

Fabien Gandon

Nathalie Aussenac-Gilles

Chercheur en représentation des connaissances auprès du CNRS.

Commentaires

4 comments

Portrait de Daniel

Est-ce que le traitement des langues est utilisé par des plateformes telles que Facebook ? Si oui pour quel usage?

Portrait de Vincent

Le programme est alléchant, j'en veux plus ! :D
Y'a-t-il des standards et specs TAL de référence ?
Quels sont vos outils ? Existe-t-il des projets open source TAL ou IC notoires, frameworks ou autres, au CNRS ou ailleurs ?

Portrait de Vincent

j'avoue, le lien sur "ontologies" apporte déjà pas mal d'éléments, http://www.lespetitescases.net/definir-une-ontologie-avec-owl

Portrait de César

Les bonns outils à se procurer  pour faire du marketing.

Ajouter un commentaire