lundi 15 novembre 2010

Le «journalisme artificiel»

Depuis déjà longtemps, dans l’information financière notamment, les premiers jalons de ce type de synthèse sont posés. C’est le cas à Bloomberg, comme l’expliquait déjà 1999 son fondateur Michael Bloomberg: 
Pour certains sujets, nous ne faisons appel ni à des journalistes, ni à des rédacteurs humains. Quand nous décrivons la valeur d’un marché à un moment donné (et non les raisons qui l’ont amené à cette situation), les deux seules choses qui comptent sont la vitesse et la précision — or ce ne sont pas les qualités essentielles de la plupart des gens. (…) Nous avons donc programmé nos ordinateurs pour qu’ils « écrivent » périodiquement une série d’articles informant nos lecteurs de l’état actuel du marché. Par exemple, la machine prend le début de la phrase « L’indice industriel Dow Jones est » et y ajoute « en hause » ou « en baisse » en fonction du résultats de calculs portant sur les mouvements de 30 valeurs entre la veille et la micro seconde où le texte s’écrit. Elle y ajoute ensuite le chiffre adéquat, par exemple de 1 point, 2 points, 3 points, etc. Puis elle imprime: « les titres les plus actifs sont » et à partir du suivi en continu du volume des échanges, elle traduit automatiquement les symboles des téléscripteurs en noms d’entreprises (Procter & Gamble, General Electric, Walt Disney, etc.) et les ajoute à la phrase.
[in Bloomberg par Bloomberg, Village Mondial, 1999, pages 87-88]
Les premiers articles entièrement rédigés par des « robots » sont en ligne sur le site de StatSheet. Pour l’instant, ces « journalistes artificiels » ne couvrent que le sport, mais Robbie Allen, le fondateur de cette startup américaine estime que cette technologie pourrait être utilisée à l’avenir dans d’autres domaines.
Il [Stats Monkey] travaille automatiquement de A à Z. Il commence par télécharger les tableaux chiffrés publiés par les sites Web des ligues de base-ball, et collecte les données brutes : score minute par minute, actions individuelles, stratégies collectives, incidents… Puis il classe cette masse d’informations et reconstruit le déroulé du match en langage informatique. Ensuite, il va puiser son vocabulaire dans une base de données contenant une liste de phrases, d’expressions toutes faites, de figures de style et de mots-clés revenant fréquemment dans la presse sportive. Il va alors rédiger un article, sans fautes de grammaire ni d’orthographe.Il peut fournir plusieurs versions, rédigées dans un style plus ou moins imagé. 
Le bot-style
Le résultat est surprenant. Le style est rugueux, direct et les articles bourrés de chiffres et de statistiques. « 70% du contenu sportif est basé sur des statistiques, explique Allen. Notre technologie passe par les stats, permet de faire une tonne d’analyses, et de les injecter dans des articles que l’on peut publier [Allen dit "split" - "cracher"] rapidement ». Voici un exemple:
Michigan State basket ouvrira la saison 2010-2011 contre Eastern Michigan le 12 novembre à East Lansing. Les attentes sont élevées pour les Spartans qui ont réalisé une excellente performance la saison dernière. Ils ont conservé 72% de leurs joueurs de la saison dernière. Ils ont complété [leurs effectifs] avec 3 recrues parmi les 100 meilleures et un étudiant de première année… [lire la version originale ici]

Aucun commentaire:

Archives du blog