Pour ce second article sur le web de demain, c'est Frédérique Segond, présidente de l'Association pour le Traitement Automatique des Langues, et spécialiste dans l'analyse de documents textuels et de la linguistique informatique qui va présenter sa vision du web, un web "intelligent" qui devrait être collaboratif.
Frédérique Segond, pourriez-vous nous présenter votre parcours ?
Je dirige actuellement l’unité Recherche et Développement du groupe Viseo. Auparavant j’ai travaillé 18 ans au centre de recherche européen de Xerox ou dernièrement j’occupais les fonctions de principal scientist et d’area Manager du groupe Parsing and Semantics. Avant de rejoindre Xerox j’ai été Maitre de conférences à l’Institut National des Télécommunication, post doc au centre d’IBM YorkTown aux USA et doctorante au centre scientifique d’IBM à Paris. J’ai une thèse en mathématiques appliquées de l’Ecole des Hautes Etudes en Sciences Sociales et une double formation en mathématiques pures et en linguistique.
Quelles sont les initiatives qui vous intéressent dans le domaine d'internet actuellement?
Comme tout le monde, comment faire sens de ces masses de données. Mais plus particulièrement la rencontre qui est en train de se produire entre différents domaines de recherche: TALN, représentation des connaissances, raisonnement, visualisation de masse de données.
Qu'est-ce que le traitement automatique des langues?
On regroupe sous le vocable de traitement automatique du langage naturel (TALN) l’ensemble des recherches et développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication. Il sera donc question ici de langage humain, d’où l’adjectif naturel, et non pas de langage formel, tel que C ou d'autres langages de programmation.
Source : François Yvon
Le TAL et la gestion des connaissances sont utilisées dans de nombreuses technologies, pourriez-vous nous en donner quelques exemples?
Tout le monde connait aujourd'hui la traduction automatique qui est l'exemple le plus évident de l'application du TAL. En dehors de cela, je citerais l’analyse des sentiments et des opinions exprimées sur les réseaux sociaux ou dans des enquêtes. Cela peut permettre à une entreprise de mieux comprendre ce que veulent ses clients finaux. J'ajouterais l’analyse des dossiers patients afin de faire des études épidémiologiques qui vont permettre de mieux comprendre les pathologies, de découvrir des liens éventuels entre les maladies et d’améliorer ainsi la qualité des soins. Enfin, le TALN offre la possibilité de faire des systèmes qui permettent de répondre à tout type de question posée en langage naturel dans un mode d’interaction qui soit le plus spontané possible, par exemple sous forme de dialogue (comme Apple cherche à le faire avec Siri).
A un niveau très général, je dirais que le TAL permet de donner du sens à des documents électroniques, comprendre les informations qu’ils contiennent pour différents types d’applications.
Entre Industrie et Recherche, comme se passent l’interaction et l'innovation?
On est à une drôle de période. Le public fait de plus en plus d’efforts, souvent contraint et forcé, pour montrer que la recherche "sert" à quelque chose. Les universités et les organismes de recherche publique se sont tous dotés de structures de transfert, les programmes de recherche nationaux et européens mettent l’accent sur une recherche collaborative.
Le privé pour sa part met de plus en plus l’accent sur la nécessité de faire de l’innovation et de la recherche afin de rester compétitif. Des mécanismes de soutien à la recherche sont en place comme le crédit d'impôt recherche (CIR), Oseo ou la Banque Publique d'Investissement (BPI).
Cette pression des deux côtés rend parfois les choses un peu tendues et on voit revenir en force de vieux clichés du type : dans le domaine public on a les idées et la connaissance et on y fait de la recherche alors que dans le privé a l’argent, un savoir économique mais pas de recherche. En très simplifié l’industrie n’a qu’à payer les idées du public et elle deviendra ainsi très riche. C’est très naïf et simpliste. Certes les échelles de temps ne sont pas les mêmes dans la recherche privée et dans la recherche publique. Certes la recherche privée est souvent plus appliquée mais pour autant elle existe aussi.
Ne pourrait-on pas rapprocher ces deux façons d'innover?
En effet, la recherche publique devant être appliquée et se tournant de plus en plus vers des approches quantitatives, elle a non seulement besoin de "scénarios" de "vraies applications" mais aussi de données réelles qu’ont les industriels. C'est donc un autre facteur qui vient troubler ce tableau : la masse de données à disposition du privé et dont pourrait bénéficier le public.
En résumé cette relation est en construction. Des initiatives intéressantes voient le jour comme des laboratoires communs de recherche et d’innovation.
Il est à mon avis important de maintenir deux types de recherche, une fondamentale, pour laquelle on n’a pas d’idée d’application et une plus appliquée pour laquelle une réelle collaboration scientifique entre public et privé doit être encouragée.
Le TAL et le traitement des connaissances ont-ils plus d'avenir pour l'industrie ou pour le grand public ?
Paradoxalement c’est peut-être le grand public qui les comprend le mieux. Les industriels de l’Internet c’est-à-dire les géants comme par exemple Google, facebook, Apple etc, sont assez en avance par rapport à l’utilisation et à la diffusion de ces technologies via le grand public. Ils ont le pouvoir et les moyens pour diffuser et s’offrir ces technologies.
Cette situation est à la fois positive et négative. Positive dans le sens ou en théorie la diffusion est meilleure et où le transfert des résultats de recherche dans ce domaine est possible. Mais elle est terrible pour la recherche dans la mesure où tout le monde pense que les problèmes sont résolus, ce qui est faux.
Du côté des autres industriels (ndlr : les entreprises dont le cœur d'activité n'est pas le web) on voit souvent des interrogations, des peurs. Les même mots sont repris partout, sémantique, big data, intelligence, mais on ne sait pas trop ce qu'ils recouvrent réellement, comment faire ni que faire, on a peur de ne pas réussir, de perdre de l’argent.
Comment aimeriez-vous voir le web dans 10 ans ? Comment pensez-vous qu'il sera ?
Plus de web Sérieusement une utilisation plus raisonnée, des sources plus fiables, des données protégées, une utilisation plus "en confiance", une utilisation qui tire les gens vers le haut plutôt que vers le bas. L'omniprésence des géants d'internet (Google, Facebook, Amazon pour n'en citer qu'une petit lot) a généré l'émergence d'une fausse démocratie. Comme ils représentent des canaux de diffusion incontournables et que leur fonctionnement met en avant le point de vue des masses (système de vote, de like, de retweet), la survie des points de vue qui ne font pas l'unanimité est mise en danger.
J'aimerais voir apparaitre une utilisation moins nombriliste d'internet, plus de type encyclopédiste du siècle des lumières. Pour atteindre ce rêve il faut sans doute des législations et une forte implication des politiques.
Merci beaucoup Frédérique
Des ressources pour aller plus loin
Pour en savoir plus sur les enjeux du traitement automatisé des données (TAL et KM), nous vous recommandons la lecture des livres blancs de Meta-Net (certains sont disponibles en français).
Pour ceux qui aimerait se mettre techniquement au TAL, je recommande les formations de Coursera et le livre NLP with Python.
Si vous êtes déjà exepert du sujet, vous aller vraiment plus loin en consultant en ligne les articles (scientifiques) publiés dans la revue ATALA.