Analyse

«Ghostwriters» et profilage d’auteur

Peut-on, par des moyens informatiques, identifier l’identité ou le genre d’un auteur, démasquer les prête-plume? Largement, répond le professeur de l’université de Neuchâtel Jacques Savoy

En ce début d’année, les universités de Saint Gall et de Berne dénoncent l’emploi de ghostwriters (prête-plume) pour la rédaction des travaux de leurs étudiants. Cette question relève de l’attribution d’auteur et soulève d’autres interrogations. Comment peut-on déterminer de manière faible l’auteur d’une lettre, d’un courriel anonyme ou d’un testament disputé? Peut-on différencier si un texte a été rédigé par une femme ou un homme? Peut-on détecter la présence d’un prédateur sexuel dans un chat? Afin de résoudre de telles questions, des algorithmes informatiques apportent des réponses dont la fiabilité varie de 70% à 95% selon le type de problème et le contexte. Examinons tout d’abord quelques exemples.

L’exemple de romain Gary, alias Emile Ajar

En littérature, un auteur rédige parfois d’autres romans sous un nom d’emprunt à l’image de Romain Gary qui a écrit sous le pseudonyme d’Emile Ajar dans les années 1970. Les outils informatiques permettent de mettre en lumière des similitudes très fortes entre deux romans écrits sous deux noms distincts et indiquent qu’un seul auteur a bien rédigé les deux textes. La collaboration entre écrivains soulève la question de savoir quelles parties d’une œuvre sont écrites par l’un des auteurs à l’exemple de la pièce de théâtre The Two Noble Kinsmen (collaboration de W. Shakespeare et J. Fletcher) ou celle de Psyché (P. Corneille et Molière). Parfois le débat s’avère plus passionné. Ainsi si plusieurs pièces de théâtre très connues sont attribuées à Molière, des études stylistiques soulignent la proximité troublante avec les écrits de Pierre Corneille. Comme pour la pièce Psyché, on peut y déceler une collaboration entre deux écrivains ou soutenir que ces pièces sont rédigées par Pierre Corneille.

L’exemple de Saint Paul

Dans les textes bibliques, parmi les 14 épîtres de Saint. Paul, sept sont unanimement reconnues comme étant l’œuvre de Saint. Paul lui-même, quatre le sont selon une large majorité de chercheurs, et deux demeurent avec une attribution douteuse. Par contre, l’Epître aux Hébreux est unanimement considérée comme n’étant pas écrite par Saint Paul. Comme autre exemple, on peut citer le Livre de Mormon attribué à Joseph Smith mais cette assignation demeure contestée.

L’exemple des hommes politiques

En politique, le recours aux hommes de plume ne soulève aucun problème éthique. Dans ce contexte également, cette pratique n’est pas récente. Ainsi, Washington rédigeait rarement ses discours, laissant souvent ce travail rédactionnel à Hamilton ou Madison. Cependant, comme le premier président des Etats-Unis prononçait en moyenne trois discours importants par an, cette question ne présentait qu’un intérêt mineur. Le contexte politique a bien changé puisque Carter fut le premier président à prononcer, en moyenne, une allocution par jour tout le long de son mandat. En France on constate un phénomène identique avec, par exemple, Henri Guaino derrière l’équipe rédigeant les discours de Nicolas Sarkozy ou Paul Bernard et Pierre-Yves Bocquet pour François Hollande.

Les techniques

Afin de déterminer le véritable auteur d’un document, plusieurs techniques informatiques s’appuient sur le vocabulaire employé et, en particulier, les mots très fréquents comme les déterminants (le, les, cet), les pronoms (nous, tu, moi) ou les verbes auxiliaires (est, ont). L’analyse des combinaisons fréquentes de deux mots permet de confirmer une attribution. D’autres stratégies s’appuient sur des formulations ou des expressions propres à un auteur (comme le mot abracadabrantesque de Jacques Chirac ou la chienlit pour le général de Gaulle). La longueur moyenne des phrases constitue également une source d’information sur le véritable auteur. La distribution des noms ou l’intensité des adjectifs, pronoms ou verbes permet également de déterminer l’auteur probable d’un document. Par exemple, le style de Bill Clinton se distingue par une fréquence élevée de pronoms tandis que celui d’Obama par une place importance prise par les verbes.

Les prérequis

Ces techniques fonctionnent bien sous la condition que nous possédions des textes pour tous les auteurs probables d’un document. Dans le cas des universités de Saint Gall et Berne, cette condition n’est pas satisfaite. Le problème posé correspond à la vérification d’auteur: connaissant des textes rédigés par un auteur, est-ce bien ce dernier qui a rédigé ce nouveau document? La réponse attendue est affirmative ou négative. Basé sur des techniques d’analyse décrites ci-dessus, le taux de réussite varie entre 65% et 90%. Ces valeurs demeurent encore éloignées de celles des tests ADN, mais les techniques d’analyse s’affinent avec les années.

Les différences hommes-femmes

Enfin, le profilage d’auteur ne cherche pas à déterminer le nom précis d’un écrivain mais à connaître quelques-unes de ses caractéristiques. Par exemple, peut-on savoir si un texte a été rédigé par un homme ou une femme ou savoir l’âge approximatif de son auteur? Mais existe-t-il des caractéristiques stylistiques propres à chaque sexe? La réponse est affirmative. Les femmes tendent à utiliser plus fréquemment des pronoms (je, nous, toi), des noms reliés aux relations sociales (sœur, ami) ou expriment plus de sentiments (joie, anxiété).

Lire aussi: «le style Obama passé à la moulinette informatique»

Le style typiquement masculin se distingue par une fréquence plus élevée des déterminants (le, du, des), des noms (table, ordinateur) ou l’emploi de nombres. Dans la blogosphère, les hommes se distinguent par des thèmes reliés à l’emploi, aux sports ou à la technologie tandis que les femmes parleront plus de leurs préoccupations concernant la famille, les amis, la nourriture et ceci en recourant plus volontiers aux émoticons;-). Si les jeunes (entre 14 et 18 ans) utilisent plus souvent des abréviations («mdr» pour mort de rire), ils ont aussi tendance à écrire des phrases plus courtes et conjuguent leurs verbes plus souvent au passé. Au contraire, les personnes âgées utilisent plus souvent le futur dans des phrases plus longues et recourant à un vocabulaire plus riche.

Publicité