LE DIRECT
ⓘ Publicité
Radio France ne vous demandera jamais de communiquer vos coordonnées bancaires.

Le numérique et la culture / Revue Réseaux

7 min
À retrouver dans l'émission

Jean-Paul Delahaye , Nicolas Gauvrit : Culturomics. Le numérique et la culture (Odile Jacob) / Revue Réseaux (La Découverte)

réseaux
réseaux
culturomics
culturomics

Culturomics, en français culturomique, comme on dit génomique, c’est une nouvelle technique d’analyse de la fréquence d’usage des mots dans des corpus de textes constitués par la numérisation de centaines de milliers de livres, un peu comme la génomique étudie le vivant en analysant des séquences génétiques. Le projet le plus important, on le sait, est celui de Google, qui s’est associé à plusieurs universités américaines ou européennes, voire japonaise, ou encore à des bibliothèques comme celle de la ville de Lyon. Il y a également des projets concurrents comme Gallica la bibliothèque numérique de la BNF qui a récemment conclu un accord avec Google pour accélérer la numérisation. On peut imaginer qu’à terme la mise en réseau de ces différents projets aboutira à constituer des bases de données géantes. Pour l’heure celle de plus de cinq millions de livres constituée par Google, avec des ouvrages qui datent du XVIème siècle pour les plus anciens, représente tout de même 4% de la totalité des livres publiés depuis Gutenberg, 500 milliards de mots et près de 300 fois ce que vous parviendrez à parcourir en lisant un livre par jour pendant 50 ans.

On devient volontiers lyrique lorsqu’on aborde les performances numériques de l’information en réseau. Le monde virtuel qui double ainsi notre monde réel est littéralement surdimensionné. Selon la loi de Moore – l’un des fondateurs de la firme Intel – notre capacité de traitement de l’information numérique a été multipliée par un million depuis 40 ans. Ce n’est pas que nous ayons développé des capacités insoupçonnées dans nos réserves de neurones inemployés, et l’avenir nous dira si cette croissance exponentielle de la masse d’informations dont nous disposons et que nous traitons entraînera un tel développement cérébral. Comme on sait, c’est la technologie numérique elle-même qui nous fournit les outils de ce traitement, grâce à son pouvoir d’exploration des données, algorithmes et filtres qui nous permettent d’en extraire des statistiques, de faire des comparaisons, de mener des recherches rapides et de rassembler des compilations pour en tirer des index et toutes sortes de données secondaires. L’exemple le plus répandu de cet usage des informations disponibles est ce qu’on appelle l’ego-surfing, qui consiste à estimer sa notoriété, ou celle d’amis ou de célébrités, mesurée en nombre de pages générées par un moteur de recherches. On peut ainsi confirmer la formule provocatrice de John Lennon à propos des Beatles : « Aujourd’hui, nous sommes plus célèbres que Jésus ».

La pratique a un équivalent dans le monde universitaire, mais il s’agit alors d’un corpus de livres ainsi que de publications scientifiques, comme des revues. Là, par exemple dans la base constituée par Harvard, la fréquence d’usage du mot « Beatles » n’a jamais effleuré celle du mot « Jésus ». Et selon les auteurs, il s’agit évidemment d’un outil plus fiable pour mesurer la notoriété d’un savant, d’un intellectuel ou d’une personnalité politique car elle permet notamment de comptabiliser le nombre de citations et de renvois à une œuvre ou à une activité, et donc son influence réelle dans la littérature scientifique ou dans l’opinion, ce qu’on appelle le facteur d’impact , évidemment mesurable dans ces conditions. On peut ainsi s’amuser de comparaisons éclairantes, comme celle de la notoriété respective de De Gaulle, Mitterrand et Chirac entre 1930 et 2008 en versions anglaise et française. Dans la partie anglaise du corpus, De Gaulle n’est dépassé par Mitterrand qu’à partir de 1984, alors que dans la partie française, c’est dès 1975. Quant à Chirac, il a du mal, même élu président, à les rejoindre. Dans la partie française du corpus, alors qu’il est aux commandes depuis 1995, il ne parvient à dépasser De Gaulle qu’en 1998 et Mitterrand qu’en 2003 !

Les auteurs mettent en garde les internautes qui pourraient en concevoir motif à tirer des plans sur la comète. En matière académique, compte tenu du démon de l’évaluation qui s’est emparé de l’institution universitaire, il convient de pondérer les résultats. La valeur intellectuelle ne recoupe pas forcément la célébrité, qui peut être la conséquence d’une participation assidue à de nombreuses controverses ou, comme certains en suggèrent le conseil, au fait d’écrire des livres destinés à la plus large audience, et la surreprésentation des Anglo-Saxons est souvent due à leur avantage linguistique. Quant aux adeptes du self-googling , la version Google de l’ego-surfing , ils doivent savoir que les algorithmes de recherche de Google sont secrets et donc invérifiables, que le nombre de pages indiquées ne correspond pas à celui des liens proposés, lesquels sont nettement moins nombreux, et qu’on ne dispose du coup d’aucun moyen de vérifier le chiffre avancé, qui apparaît davantage comme un ordre de grandeur qu’un véritable classement.

Il reste que ces gigantesques bases de données avec leurs outils de traitement constituent un fantastique champ de recherches pour les sciences humaines et sociales, encore largement inexploré. C’est ce que s’emploient à montrer Jean-Paul Delahaye et Nicolas Gauvrit, qui estiment que « cette sorte de microscope de l’usage linguistique offre des possibilités totalement nouvelles pour observer et comprendre les phénomènes culturels, à condition de faire preuve d’une grande

prudence et d’un méticuleux sens critique ». Il est vrai qu’il y a beau temps déjà que les linguistes font usage de ce type de corpus et d’outils pour étudier l’occurrence de certains mots dans le vocabulaire politique, par exemple, ou même pour cerner des styles d’écrivains. Ces vastes corpus éclairent les usages sociaux de mots et d’expressions à des moments donnés et ils fournissent des renseignements essentiels. Mais en matière de style la prudence reste de mise : un chercheur de Grenoble, en se basant sur l’analyse du corpus de Molière et de Corneille soutient avec des arguments sérieux la thèse selon laquelle la plus grande part de l’œuvre de Molière aurait été écrite par Corneille.

Jacques Munier

monod
monod

A lire aussi :

Jean-Claude Monod : Écrire (Flammarion)

Répondre à des mails, envoyer des textos, lire des tweets : quel temps consacrons-nous à ces activités qui ont envahi notre quotidien et notre vocabulaire ? Une frénésie des messages a gagné nos sociétés. Cette forme d’écriture prolifère, elle devient même compulsive. Les messages ne nous font plus gagner du temps, ils sont devenus un passe-temps essentiel. Sommes-nous tombés sous leur empire ? L’auteur tente de comprendre cette évolution. Il se souvient des messagers passés, de l’apôtre Paul au facteur des chemins de campagne. Il évoque ces « billets » et « pneumatiques » qui ont préparé les SMS. Il analyse les effets de ce tout-message dans nos activités intellectuelles et sociales, nos relations, l’organisation de nos pouvoirs et de nos savoirs. Il se demande enfin ce que veut dire, dans ce nouvel espace, s’adresser à autrui. Présentation de l’éditeur

sadin
sadin

A paraître le 16 mai :

Éric Sadin

L’humanité augmentée. L’administration numérique du monde (Editions L’échappée)

La révolution numérique est en passe de s’achever. Miracle d’une interconnexion intégrale aujourd’hui réalisée, reliant virtuellement tout être, chose et lieu, inscrivant la dynamique électronique comme une strate indissociable de l’existence. Nouvelle ère désormais caractérisée par la sophistication ininterrompue de l’intelligence computationnelle, s’offrant comme un organisme cognitif augmenté mis à la disposition de tous. Puissance capable de fureter dans les réseaux, de collecter et d’analyser toutes données pertinentes, de cartographier une infinité de situations globales ou locales, et de proposer ou de projeter en temps réel des solutions sécurisantes ou optimales . Robots clairvoyants – à l’instar de ceux à l’œuvre dans le trading automatique –, habilités à prendre des décisions à notre place, contribuant à ce que s’opère une sournoise et expansive délégation de pouvoir aux machines, marginalisant une humanité dont les attributs intellectuels se trouvent pour partie débordés par ses propres créations. Éric Sadin, dans cet essai incisif et dense, à l’écriture élégante, explore nombre de phénomènes déjà pleinement à l’œuvre et appelés à s’étendre considérablement dans les années à venir, signalant l’émergence troublante d’une sorte d’humanité parallèle , constituée de flux électroniques intelligents voués à administrer « pour le meilleur et le moindre risque » la course du monde du XXIe siècle.

Présentation de l’éditeur

Revue Réseaux

http://www.cairn.info/revue-reseaux-2012-6.htm

L'équipe
Production
ⓘ Publicité
Radio France ne vous demandera jamais de communiquer vos coordonnées bancaires.

France Culture

est dans l'appli Radio France
Direct, podcasts, fictions

INSTALLER OBTENIR

Newsletter

Découvrez le meilleur de France Culture

S'abonner
À venir dans ... secondes ...par......