|

Le goût de l’API

1 Leave a comment on paragraphe 1 0 La multiplication de sites ou plateformes web de plus en plus complexes collectant des données sur leurs utilisateurs, la place déterminante des moteurs de recherche et, surtout, de l’un d’entre eux en particulier, la croissance extraordinaire du rôle des réseaux sociaux numériques et la place qu’ils ont pris dans la vie d’une très grande partie de la population mondiale, ont donné lieu à la naissance de la notion protéiforme de Big Data, que l’on peut traduire sous le nom de données massives.

2 Leave a comment on paragraphe 2 0 Ces données massives sont, parfois, dès aujourd’hui, exploitables par les chercheurs et chercheuses en sciences humaines et sociales, y compris historiennes et historiens.

3 Leave a comment on paragraphe 3 0 L’accès à ces données, que l’on peut considérer comme des sources primaires nées numériques, n’est pas toujours aisé. L’un des moyens de les collecter est d’utiliser ce que l’on appelle une interface de programmation.

4 Leave a comment on paragraphe 4 0 Une interface de programmation – ou Application Programming Interface (API) – est un dispositif logiciel qui permet à deux programmes d’échanger, par exemple, des fonctionnalités ou des données. De nombreux sites web en proposent à leurs utilisateurs. Sur une page web, vous voyez un petit bouton « J’aime » provenant du réseau social numérique Facebook? Le concepteur de cette page web a fait appel à l’interface de programmation de Facebook.

5 Leave a comment on paragraphe 5 0 Ces API permettent parfois également de collecter des donnés de manière massive. Ainsi, ai-je pu collecter quatre millions de tweets liés à la Première Guerre mondiale ou à son centenaire depuis avril 2014. Cette collecte ira jusqu’à la fin du mois de juin 2019, c’est-à-dire jusqu’au Centenaire du traité de Versailles.

Du goût des archives au goût de l’API

6 Leave a comment on paragraphe 6 0 Mes précédentes recherches touchaient à des sujets bien différents : ma thèse portait sur Hjalmar Schacht, président de la Reichsbank (1924-1930, 1933-1939) et ministre de l’Économie du Reich (1934-1937) et j’ai ensuite travaillé plus généralement sur la coopération entre banques et banquiers centraux tout au long du XXe siècle.

7 Leave a comment on paragraphe 7 0 Ma thèse a été un exemple de travail sur archives tel que décrit dans le goût de l’archive d’Arlette Farge. Menée de 1999 à 2006, j’ai connu le monde de ce livre, avec des particularités liées au fait de travailler sur des archives nazies – la nausée à la lecture de certaines liasses – mais aussi certains des éléments les plus anecdotiques comme la lutte pour la bonne place dans la salle de lecture. L’angoise de la commande de la première boîte aux archives fédérales liée à l’incertitude sur la procédure de la commande. Les cartons parfois commandés par hasard et qui nous font découvrir des éléments inédits. Les fiches d’emprunt, plus utilisées car informatisées mais encore présentes, qui nous font découvrir un sentiment doux-amer: le réconfort (intimidant) de voir un nom prestigieux sur la fiche lié — Martin Brozsat a travaillé sur les mêmes liasses — à une forme de déception car la présence de ce nom montre que la liasse n’apportera pas de documents inédits ou peu exploités.

8 Leave a comment on paragraphe 8 0 Le ver était toutefois déjà dans le fruit: à l’exception de quelques jours passés dans les archives de la Banque des règlements internationaux où feuille blanche et crayon de papier étaient imposés, le lent travail de copistes qu’ont connu des générations d’historien s’était déjà transformé: dès le début de mes recherches j’étais équipé d’un ordinateur portable et entraient mes notes dans une base de données que j’avais moi-même préparée.

9 Leave a comment on paragraphe 9 0 Le hasard des postes que j’ai occupé, un goût certain pour l’informatique, a fait le reste: arrivé au Luxembourg dans une institution publique publiant une bibliothèque numérique sur l’histoire de la construction européenne, je me suis rapidement, à partir de 2008, spécialisé dans l’histoire dite numérique.

10 Leave a comment on paragraphe 10 0 Les premières années de ce travail autour du numérique ont été d’abord marquées par une forme de transposition du papier vers le numérique: l’essentiel de l’activité de cette institution était tournée vers la numérisation, la mise en données d’archives nées papier.

11 Leave a comment on paragraphe 11 0 Autre poste, autre destinée: ingénieur de recherche en France puis enseignant-chercheur en Suisse, j’ai par hasard commencé à m’intéresser à des sources primaires, cette fois, nées numériques. Le centre d’archives est un lieu incontournable pour l’historien.ne mais ce n’est pas le seul: les colloques et les trains pour y aller le sont aussi. D’une discussion avec un collègue historien spécialiste de la Première Guerre mondiale au retour de Blois en octobre 2013 est née l’idée de s’intéresser aux commémorations débutantes du Centenaire de la Première Guerre mondiale par le biais d’un prisme, celui du réseau social numérique Twitter. L’insistance d’un autre collègue lors d’un congrès de public history en Californie et a fait le reste1)Je ne remercierais jamais assez Nicolas Beaupré et Benoît Majerus.

API et bricolage

12 Leave a comment on paragraphe 12 0 Twitter, réseau social en ligne dit de microblogging car il permet de poster sur ce site de courts messages de 140 caractères, est très pratique pour les chercheurs. Il met à disposition une API dite de streaming permettant à ceux et celles qui s’y connectent de collecter jusqu’à un pour cent du flux des tweets, soit jusqu’à 5 millions de petits messages par jour.

13 Leave a comment on paragraphe 13 0 L’historien.ne, qui n’est pas programmeur mais qui est toujours, peut s’interroger s’il ne dispose pas de financement pour un projet de recherche, sur les moyens à disposition pour mener une recherche reposant sur une collecte de données importante. La réponse est dans la notion de bricolage, que nous définirons ici simplement: adapter à ses besoins des outils informatiques d’une part; réfléchir aux conséquences de cette adaptation sur sa pratique de l’histoire, sur sa méthodlogie et plus largement sur la manière dont il ou elle envisage son métier même.

14 Leave a comment on paragraphe 14 0 Concrètement, cela signifie que je suis allé chercher des outils – des bouts de code informatique – développés par d’autres et dont l’usage est libre. J’aurais pu monter un projet, obtenir le financement. Mais la temporalité du Centenaire ne le permettait pas : obtenir un financement est souvent impossible en quelques mois.

15 Leave a comment on paragraphe 15 0 Bricoler du code informatique, devoir mettre en place un serveur hébergé chez moi – en fait un ordinateur de seconde main, peu puissant mais largement suffisant pour collecter des tweets – me permet aujourd’hui de connaître mes besoins techniques. Et s’il est certain qu’une fois à l’Université de Lausanne, professionaliser l’hébergement de ce serveur en travaillant avec le centre informatique de l’Université a permis de me prémunir des risques de pertes de donnmées ou de piratage du serveur, commencer par mettre en place moi-même le serveur m’a appris beaucoup de choses sur la manière dont je devrais travailler: perfectionner mes usages des bases de données, de la ligne de commande, de l’export de bases de données, savoir précisément le type de données dont je dispose, de leurs métadonnées, etc.

16 Leave a comment on paragraphe 16 0 Le bricolage est alors une manière d’apprendre autant qu’une méthode. Elle a ses limites: sans aucun doute devrais-je aujourd’hui travailler avec des informaticiens, statisticiens ou sociologues pour améliorer l’analyse de mes tweets collectés et pour, peut-être, améliorer même ma méthode de collecte. Mais bricoler du code, l’adapter à mes besoins, configurer le serveur, lire la documentation de l’API de streaming de Twitter – tout cela me permet de restaurer ce qui semble impossible lorsque nous traitons des données massives: l’intimité de l’historien.ne avec ses sources.

17 Leave a comment on paragraphe 17 0 Car comprendre ces éléments barbares que sont les schémas de métadonnées, les échanges serveur-client, c’est comprendre ces sources nées numériques, ces traces instantanées du passé le plus proche.

Des sources primaires aux sources en flux

18 Leave a comment on paragraphe 18 0 La spécificité de ces sources nées numériques est leur fluidité, de forme, de fonds parfois – quand l’on est face à de nombreuses versions d’un même documents -, mais aussi de création. Collecter des tweets, notamment, via une API, c’est transformer un flux constant en archive figée. La notion de source, flux originel intarissable, n’a jamais été une métaphore aussi actuelle.

References   [ + ]

1. Je ne remercierais jamais assez Nicolas Beaupré et Benoît Majerus

Source :http://www.gout-numerique.net/table-of-contents/title-page/sample-page/