Demander un devis

Pour demander un devis, contactez-nous en nous exposant vos besoins et attentes ainsi que vos deadline. Un devis vous sera renvoyé dans les plus brefs délais.

EN
+33 (0)6 13 79 84 50

Du Lundi au Vendredi - De 09h à 18h

Frédérique Segond - Web Intelligent entre recherche et industrie

avr. 23 2013

Frederique SegondPour ce second article sur le web de demain, c'est Frédérique Segond, présidente de l'Association pour le Traitement Automatique des Langues, et spécialiste dans l'analyse de documents textuels et de la linguistique informatique qui va présenter sa vision du web, un web "intelligent" qui devrait être collaboratif.

Frédérique Segond, pourriez-vous nous présenter votre parcours ?

Je dirige actuellement l’unité Recherche et Développement du groupe Viseo. Auparavant j’ai travaillé 18 ans au centre de recherche européen de Xerox ou dernièrement j’occupais les fonctions de principal scientist et d’area Manager du groupe Parsing and Semantics. Avant de rejoindre Xerox j’ai été Maitre de conférences à l’Institut National des Télécommunication, post doc au centre d’IBM YorkTown aux USA et doctorante au centre scientifique d’IBM à Paris. J’ai une thèse en mathématiques appliquées de l’Ecole des Hautes Etudes en Sciences Sociales et une double formation en mathématiques pures et en linguistique.

Quelles sont les initiatives qui vous intéressent dans le domaine d'internet actuellement?

Comme tout le monde, comment faire sens de ces masses de données. Mais plus particulièrement la rencontre qui est en train de se produire entre différents domaines de recherche: TALN, représentation des connaissances, raisonnement, visualisation de masse de données.

Qu'est-ce que le traitement automatique des langues?

On regroupe sous le vocable de traitement automatique du langage naturel (TALN) l’ensemble des recherches et développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication. Il sera donc question ici de langage humain, d’où l’adjectif naturel, et non pas de langage formel, tel que C ou d'autres langages de programmation.

Source : François Yvon

Le TAL et la gestion des connaissances sont utilisées dans de nombreuses technologies, pourriez-vous nous en donner quelques exemples?

Parole transformée en texte et comprise par un ordinateurTout le monde connait aujourd'hui la traduction automatique qui est l'exemple le plus évident de l'application du TAL. En dehors de cela, je citerais l’analyse des sentiments et des opinions exprimées sur les réseaux sociaux ou dans des enquêtes. Cela peut permettre à une entreprise de mieux comprendre ce que veulent ses clients finaux. J'ajouterais l’analyse des dossiers patients afin de faire des études épidémiologiques qui vont permettre de mieux comprendre les pathologies, de découvrir des liens éventuels entre les maladies et d’améliorer ainsi la qualité des soins. Enfin, le TALN offre la possibilité de faire des systèmes qui permettent de répondre à tout type de question posée en langage naturel dans un mode d’interaction qui soit le plus spontané possible, par exemple sous forme de dialogue (comme Apple cherche à le faire avec Siri).

A un niveau très général, je dirais que le TAL permet de donner du  sens à des documents électroniques, comprendre les informations qu’ils contiennent pour différents types d’applications.

Entre Industrie et Recherche, comme se passent l’interaction et l'innovation?

On est à une drôle de période. Le public fait de plus en plus d’efforts, souvent contraint et forcé, pour montrer que la recherche "sert" à quelque chose. Les universités et les organismes de recherche publique se sont tous dotés de structures de transfert, les programmes de recherche nationaux et européens mettent l’accent sur une recherche collaborative.

Le privé pour sa part met de plus en plus l’accent sur la nécessité de faire de l’innovation et de la recherche afin de rester compétitif. Des mécanismes de soutien à la recherche sont en place comme le crédit d'impôt recherche (CIR), Oseo  ou la Banque Publique d'Investissement (BPI).

Cette pression des deux côtés rend parfois les choses un peu tendues et on voit revenir en force de vieux clichés du type :  dans le domaine public on a les idées et la connaissance et on y fait de la recherche alors que dans le privé a l’argent, un savoir économique mais pas de recherche. En très simplifié l’industrie n’a qu’à payer les idées du public et elle deviendra ainsi très riche. C’est très naïf et simpliste. Certes les échelles de temps ne sont pas les mêmes dans la recherche privée et dans la recherche publique. Certes la recherche privée est souvent plus appliquée mais pour autant elle existe aussi.

Ne pourrait-on pas rapprocher ces deux façons d'innover?

En effet, la recherche publique devant être appliquée et se tournant de plus en plus vers des approches quantitatives,  elle a non seulement besoin de "scénarios" de "vraies applications" mais aussi de données réelles qu’ont les industriels. C'est donc un autre facteur qui vient troubler ce tableau : la masse de données à disposition du privé et dont pourrait bénéficier le public.

En résumé cette relation est en construction. Des initiatives intéressantes voient le jour comme des laboratoires communs de recherche et d’innovation.

Symbiose de l'industrie et de l'académique pour de la recherche de pointe

Il est à mon avis important de maintenir deux types de recherche, une fondamentale, pour laquelle on n’a pas d’idée d’application et une plus appliquée pour laquelle une réelle collaboration scientifique entre public et privé doit être encouragée.

Le TAL et le traitement des connaissances ont-ils plus d'avenir pour l'industrie ou pour le grand public ?

Paradoxalement c’est peut-être le grand public qui les comprend le mieux. Les industriels de l’Internet c’est-à-dire les géants comme par exemple Google, facebook, Apple etc, sont assez en avance par rapport à l’utilisation et à la diffusion de ces technologies via le grand public. Ils ont le pouvoir et les moyens pour diffuser et s’offrir ces technologies.

Cette situation est à la fois positive et négative. Positive dans le sens ou en théorie la diffusion est meilleure et où le transfert des résultats de recherche  dans ce domaine est possible. Mais elle est terrible pour la recherche dans la mesure où tout le monde pense que les problèmes sont résolus, ce qui est faux.

Du côté des autres industriels (ndlr : les entreprises dont le cœur d'activité n'est pas le web) on voit souvent des interrogations, des peurs. Les même mots sont repris partout, sémantique, big data, intelligence, mais on ne sait pas trop ce qu'ils recouvrent réellement, comment faire ni que faire, on a peur de ne pas réussir, de perdre de l’argent.

Comment aimeriez-vous voir le web dans 10 ans ? Comment pensez-vous qu'il sera ?

Plus de web :-) Sérieusement une utilisation plus raisonnée, des sources plus fiables, des données protégées, une utilisation plus "en confiance", une utilisation qui tire les gens vers le haut plutôt que vers le bas. L'omniprésence des géants d'internet (Google, Facebook, Amazon pour n'en citer qu'une petit lot) a généré l'émergence d'une fausse démocratie. Comme ils représentent des canaux de diffusion incontournables et que leur fonctionnement met en avant le point de vue des masses (système de vote, de like, de retweet), la survie des points de vue qui ne font pas l'unanimité est mise en danger.

J'aimerais voir apparaitre une utilisation moins nombriliste d'internet, plus de type encyclopédiste du siècle des lumières. Pour atteindre ce rêve il faut sans doute des législations et une forte implication des politiques.

Ensemble pour un internet meilleur

Merci beaucoup Frédérique

Des ressources pour aller plus loin

Pour en savoir plus sur les enjeux du traitement automatisé des données (TAL et KM), nous vous recommandons la lecture des livres blancs de Meta-Net (certains sont disponibles en français).

Pour ceux qui aimerait se mettre techniquement au TAL, je recommande les formations de Coursera et le livre NLP with Python.

Si vous êtes déjà exepert du sujet, vous aller vraiment plus loin en consultant en ligne les articles (scientifiques) publiés dans la revue ATALA.

 

Frédérique Segond

Frédérique Segond

Chercheuse en traitement automatique des langues dans le groupe VISEO. Présidente de l'association ATALA.

Commentaires

Bonjour ! Merci beaucoup pour cet article ! Je suis diplômée d'un Master de recherche en TAL, et en effet, je travaille actuellement dans le domaine du web. Les ingénieurs linguistes (ou TAListes) ont cette double compétence technique / linguistique et sémantique très importante qu'ils peuvent mettre en oeuvre en travaillant sur de nombreuses problématiques du web.

 
"... Pour atteindre ce rêve il faut sans doute des législations et une forte implication des politiques."
 
Oui. et des poètes sans qualités.
 
Merci Frédérique pour cette vraie rencontre.
 
 
 
Alfonso.
 

Enfin de la philo dans l'approche d'internet, rien que pour ça je me convertis au TAL à vie, même si j'ignorais l'acronyme il y a 10 minutes :-)
D'accord sur tout et notamment la tarte à la crème "Sémantique" qui revêt tellement de techniques et autant de quiproquos.
Néanmmoins pourquoi regretter l'esprit des lumières alors que Wikipédia relève enfin le défi dans un désinteressement revendiqué et une audience plebiscitée dans les serps grâce notamment au linking des internautes.
D'autre part pourquoi stigmatiser les réseaux sociaux qui "tirent vers le bas". ils ne font qu'atténuer ou souvent dénoncer avec facilité les égarements d'un système économique mondialisé qui lui lui tire à vue sur les moins qualifiés. Au contraire les réseaux ont participé à l'émergence d'une vraie démocratie, dans le sens où les lecteurs deviennent médias eux-mêmes, avec cerise sur le gâteau, la possibilité du passage à l'action, sociale ou crétaive, via les groupes, communautés et courants de followers qui ont démultiplié les canaux de pensée des médias à l'ancienne.
Reste qu'une "conscience" planétaire se forge. Et vive le Tal!

Ajouter un commentaire