publication croisée depuis : https://lemmy.world/post/11075122

Émission de Xavier de la Porte, autour de la thèse de sociologie de Camille Girard-Chanudet.

Passionnante plongée dans le quotidien d’une équipe d’annotatrices pour entrainer un algorithme d’anonymisation de décisions de justice :

On perçoit à quel point les catégories d’annotation pèsent lourd, et combien il est crucial que l’annotation humaine se place dans une perspective d’intelligence collective.

Derrière un imaginaire peuplé d’androïdes rutilantes se cachent les petites mains qui annotent patiemment les données. Un travail sans fin, car le réel sans cesse changeant échappe à l’automatisation.

La thèse de sociologie de Camille Girard-Chanudet éclaire les rouages du deep learning : au palais de justices, des travailleuses de catégorie C travaillent avec application à annoter les données pour un algorithme d’anonymisation des décisions de justice destinées (entre autres) aux startups des legal techs.

L’émission de Xavier de La Porte révèle l’ampleur des collaborations humaines encapsulées dans les machines que l’on voudrait nous présenter comme intelligentes. C’est une myriade de décisions qui conduisent à définir des catégories réductrices pour saisir le réel. Ces catégories s’imposent silencieusement - d’abord aux travailleuses et travailleurs du clics, puis aux utilisatrices et utilisateurs des services d’IA.

Toutefois, à la différence de la majeure partie du “digital labor” étudié par Antonio A. Casilli et ses collègues du programme Panoptiwork, cet exemple démontre qu’il est possible de mobiliser l’IA dans une perspective d’intelligence collective.

L’intelligence collective, c’est “la mise en commun de la réflexivité afin de finaliser une action qui ne pourrait pas l’être par une seule personne” (Samuel Szoniecky et Nasreddine Bouhaï). Cette mise en commun n’est possible qu’au prix de contraintes destinées à rendre le travail interopérable. Ainsi, l’activité des annotatrices du Palais de Justice est cadrée par des catégories, mais leur position pérenne leur permet d’interroger et de faire évoluer ces catégories.

Les grands modèles de NLP sur lesquels s’appuient de telles applications restent ceux que des entreprises privées daignent partager en open source. Ils ne sont pas entrainés dans des conditions aussi idylliques, loin de là. Est-ce tolérable ?