Inscrivez-vous gratuitement à la Newsletter BFM Business
Les technologies de reconnaissance vocale, de traduction automatique, ou de lecture automatique de documents (LAD) ont accru leur maîtrise des langues. Statistique ou linguistique, deux écoles s'opposent.
Les nouvelles technologies délient les langues. Si la tour de Babel n'est pas près de s'écrouler, les éditeurs de reconnaissance vocale, de traduction automatique, ou de LAD tentent de reproduire les subtilités du langage. La loi de
Moore leur accorde une puissance de calcul toujours plus importante pour faire tourner leurs algorithmes, et les résultats obtenus sont de moins en moins surréalistes. Dans cette grande famille du traitement automatique des langues (TAL), les
travaux se croisent, et l'on assiste à des unions qui n'ont rien de contre-nature. A l'image de Mastor, le ' traducteur de la parole ' d'IBM, ou du stylo scanner d'Iris, qui numérise, traduit, et
' parle '.
Google, forcément aux avant-postes
Rendre accessibles des millions de pages web négligées pour la seule barrière de la langue : le défi ne pouvait que susciter l'intérêt de Google. En mai dernier, dans le sillage de Yahoo, le moteur de recherche lançait
Translate.google.com. Avec ce service, les internautes traduisent non seulement des textes ou des pages URL en 11 langues, mais effectuent aussi des recherches dans leur langue maternelle.
Prochaine étape : la traduction à la volée et en temps réel pour obtenir un véritable ' Babel web '.L'Américain se penche depuis quatre ans sur le cas de la traduction automatique. Fidèle à sa philosophie, Google l'aborde sous l'angle statistique. Le moteur lance sur la Toile ses robots pour débusquer les traductions de référence
sur les sites de l'ONU ou de l'OMC, puis il établit des correspondances. Selon quelles probabilités cet ensemble de signes correspond-il à une traduction déjà opérée par un professionnel ? Ne reste plus, dès lors
' qu' 'à modéliser et indexer la multitude d'expressions linguisitiques. Cela sur le principe des jeux d'échecs électroniques mémorisant toutes les parties des grands maîtres.' Cette approche fonctionne bien dans un contexte fermé, sur les langues orientales et russe ', convient Pierre Bernassau, directeur marketing de Systran. De fait, Google arrive en tête
du benchmark effectué par le Nist, une agence gouvernementale américaine, pour l'arabe et le chinois. En revanche, pour les langues européennes, riches en ambiguïtés, il s'appuie sur le moteur de Systran.Comme @Prompt, son rival russe, celui-ci combine statistique et linguistique. ' Une langue a des règles, rappelle Pierre Bernassau. Une phrase se décompose en blocs sujet/verbe/complément,
et est soumise à des déclinaisons. Chez nous, le professionnel de la langue a le dernier mot. ' L'éditeur français emploie une trentaine de linguistes.Sans renier cette approche, Systran muscle ses algorithmes. Pour la version 7 de son moteur, qui pourrait être commercialisée en 2008, il ajoutera une couche statistique en aval de la traduction machine afin d'apporter du
' liant '. Par activation de mémoires de traduction, la solution comparera la phase générée à des traductions déjà validées.Dans le domaine de la reconnaissance vocale, Google secoue aussi le Landerneau. Depuis avril, le moteur expérimente un service s'apparentant aux Pages jaunes sur téléphone mobile. L'intéressé compose le 1-800-Goog-411, et émet à haute
voix sa requête - ' Giovanni's Pizzeria New York ', par exemple. Google Voice Local Search le met en contact - sans commissionnement - ou lui envoie un SMS avec le détail des
renseignements. Pour l'heure, le service n'est disponible qu'en anglais et sur le sol américain.
Serveurs vocaux : vers un dialogue plus ' humain '
Si Google est un nouveau venu sur le créneau, IBM et Microsoft l'ont investi depuis longtemps. Microsoft a poussé la banalisation jusqu'à intégrer sa technologie dans Vista pour le pilotage de Windows et la dictée vocale. Il est en
concurrence avec des produits sur étagère, comme Dragon Naturally Speaking, de Nuance. La firme de Redmond devrait pousser l'avantage en intégrant la technologie de Tellme, spécialiste des services vocaux au téléphone racheté en mars.Sur la partie serveurs vocaux (SVI), le prochain défi sera de passer du ' multi-word-spotting ' - le moteur repère et isole plusieurs mots-clés dans la phrase prononcée - à
une reconnaissance en langage naturel. Un mode d'interaction moins contraignant, dans lequel l'appelant est invité à s'exprimer librement.Ce qui autorise des dialogues moins mécaniques. A la manière d'un opérateur, le portail vocal démarre par une question ouverte, de type ' En quoi puis-je vous aider ? '. Derrière, le
dialogue déroule au moins une quinzaine de catégories de routage possibles - du problème technique au changement d'adresse, en passant par l'abonnement à un nouveau service. Seuls une dizaine de sites dans le monde - aucun en France
- peuvent s'en prévaloir.Derrière ce progrès, la technologie VoiceXML. Audépart, cet esperanto des serveurs vocaux analysait les mots-clés sans second choix possible. Aujourd'hui, il propose une interprétation sémantique des expressions reconnues. Celles-ci
étant au préalable qualifiées par des balises de grammaire SRGS.' Tout l'enjeu consiste à gérer les anticipations dans un dialogue, analyse Patrice Vielpeau, directeur commercial de l'activité Network Speech de Nuance. Un locuteur délivre spontanément
des informations supplémentaires, qu'il faut intégrer. Par exemple, un client d'un voyagiste dira : " Je pars mardi, et rentre vendredi " '. Nuance préfère parler de ' human
touch ' plutôt que de dialogue naturel, ' concept fourre-tout '. L'éditeur travaille à rendre la conversation plus ouverte. Quitte à demander au locuteur de confirmer une
sous-partie du dialogue. Un moyen d'amadouer les 5 % d'irréductibles réfractaires aux serveurs vocaux ?
Nouveaux projets pour de l'écriture manuscrite la reconnaissance
Dans la lecture automatique de documents, un grand chantier accapare les éditeurs : la reconnaissance de l'écriture cursive. Après les chèques et les pavés adresses des enveloppes ne nécessitant qu'un vocabulaire restreint, la
LAD ouvre aujourd'hui le courrier et ' lit ' les lettres manuscrites. Itesoft ou A2iA ont récemment commercialisé une offre dans ce sens. Son but : dématérialiser le service courrier par tri
automatique de l'ensemble du courrier entrant.Pour Jean-Luc Berry, directeur R&D d'Itesoft, ' nous sommes définitivement passés dans l'ère du cursif '. Tout l'enjeu consiste à trouver sur la page les mots ou les chiffres
discriminants. La structuration peut être connue à l'avance, comme la suite de caractères numériques d'un numéro de sécurité sociale. Le moteur d'ICR/IDR segmente le texte en blocs de mots ou de lettres en détectant les points d'inflexion ou les
boucles des liés et déliés, et en mesurant les espaces séparant les signes. Si le système bute sur une lettre ou un mot mal formé, il va attribuer des scores de confiance sur une liste de formes candidates.Extraire le bon contenu ne suffit pas ; il faut le comprendre. S'appuyant sur des algorithmes et des réseaux neuronaux, l'approche statistique consiste à classer les mots-clés d'une même classe de documents par ordre de
fréquence. ' Plus descriptive, l'approche linguistique entre dans le texte, et décortique les règles ', explique Vincent Poulain d'Andecy, responsable du département technologies d'Itesoft. Le texte
commence par ' Madame, Monsieur ', et se termine par une phrase de salutations : nous sommes bien en présence d'un courrier. Mais que penser d'une phrase ambiguë, contenant des idées contraires,
comme : ' Je suis très mécontente du service, mais ne souhaite pas résilier ' ?Au-delà du cursif, les équipes de R&D ont du pain sur la planche. Itesoft entend s'ouvrir à d'autres supports que le papier pour faire converger les flux EDI, XML, ou e-mail. Il commence aussi à s'intéresser à l'audio et à la
vidéo. ' La reconnaissance faciale et la reconnaissance de formes liée à la signature ou à l'écriture présentent des points communs évidents ', estime Jean-Luc Berry. De la même manière qu'un CV papier
correspond à une feuille de style, un CV vidéo peut être ' interprété '.De son côté, Olivier Baret, DG et directeur de la R&D d'A2iA, réfléchit à ' un apprentissage continu du système pour qu'il puisse s'adapter aux évolutions de formes des documents, sans nécessairement passer
par la case modélisation '. A2iA travaille aussi sur la reconnaissance de langues non latines, comme l'arabe pour la lecture de chèques et d'enveloppes.
Analyse sémantique : dégager du sens dans la masse d'informations
Dernière strate dans le traitement automatique des langues, l'analyse sémantique donne du sens à l'information brute. Elle intervient en amont ou en aval des technologies précitées. Dans ce cadre, la reconnaissance vocale offre aux
spécialistes du textmining une source supplémentaire. Au-delà de l'écrit glané dans la presse ou sur le web, elle l'autorise à capter ce qui se dit dans les émissions de radio, les journaux télévisés, voire les centres d'appel. A la condition,
toutefois, qu'il n'y ait qu'un seul interlocuteur, ou deux au plus. Au-delà, les solutions deviennent incapables, au sein d'un débat, d'assigner un texte à une voix.A l'inverse, la traduction automatique intervient en aval. ' Dévoreuse de ressources, la traduction au kilomètre limiterait la capacité de lecture, constate Gilles Pouzenc, directeur général de Temis.
Nous brassons de gros volumes pour extraire l'information pertinente, les 20 lignes sur les 50 pages d'un brevet qui font sens. Ce n'est qu'une fois le document identifié qu'il est, le cas échéant, traduit. ' Mais
les demandes restent ponctuelles. ' Qu'il s'agisse de veille économique, d'analyse de CV, ou de brevets, nos clients veulent que la langue d'origine soit précise. '' Nos outils d'interrogation multilingues donnent la possibilité de formuler une requête dans sa langue maternelle pour interroger des bases de données dans d'autres langues ', complète
Hugues de Mazancourt, directeur R&D de Lingway. Là encore, les spécialistes du textmining combinent statistique et linguistique. Les filtres statistiques autorisent à établir une première extraction poursuivie par l'analyse linguistique. Et à ce
jeu de la double compétence mathématiques-linguistique, l'Europe - et la France en particulier -, dispose de très bons profils, formés dans des écoles de renom. Un atout face aux géants américains.x.biseul@01informatique.presse.frwww.01blog.fr/1914
Votre opinion