|

Le goût de l’API

1 Leave a comment on paragraphe 1 0 Ce texte est en cours d’écriture. Dernière mise à jour majeure: 13 juillet 2018.

2 Leave a comment on paragraphe 2 0 La multiplication de sites ou plateformes web de plus en plus complexes collectant des données sur leurs utilisateurs, la place déterminante des moteurs de recherche et, surtout, de l’un d’entre eux en particulier, la croissance extraordinaire du rôle des réseaux sociaux numériques et la place qu’ils ont pris dans la vie d’une très grande partie de la population mondiale, ont donné lieu à la naissance de la notion protéiforme de Big Data, que l’on peut traduire sous le nom de données massives.

3 Leave a comment on paragraphe 3 0 Ces données massives sont, parfois, dès aujourd’hui, exploitables par les chercheurs et chercheuses en sciences humaines et sociales, y compris historiennes et historiens.

4 Leave a comment on paragraphe 4 0 L’accès à ces données, que l’on peut considérer comme des sources primaires nées numériques, nées hors du papier, hors d’un support matériel (mais non sans matérialité si l’on considère l’infrastructure informatique nécessaire pour les produire et les pérenniser), sous forme d’un signal informatique originellement fait de 0 et de 1, n’est pas toujours aisé. L’un des moyens de les collecter est d’utiliser ce que l’on appelle une interface de programmation.

5 Leave a comment on paragraphe 5 0 Une interface de programmation – ou Application Programming Interface (API) – est un dispositif logiciel qui permet à deux programmes d’échanger, par exemple, des fonctionnalités ou des données. De nombreux sites web en proposent à leurs utilisateurs. Sur une page web, vous voyez un petit bouton « J’aime » provenant du réseau social numérique Facebook? Le concepteur de cette page web a fait appel à l’interface de programmation de Facebook.

6 Leave a comment on paragraphe 6 0 Ces API permettent parfois également de collecter des donnés de manière massive. Ainsi, ai-je pu collecter quatre millions de tweets liés à la Première Guerre mondiale ou à son centenaire depuis avril 2014. Cette collecte ira jusqu’à la fin du mois de juin 2019, c’est-à-dire jusqu’au Centenaire du traité de Versailles.

Du goût des archives au goût de l’API

7 Leave a comment on paragraphe 7 0 Mes précédentes recherches touchaient à des sujets bien différents : ma thèse portait sur Hjalmar Schacht, président de la Reichsbank (1924-1930, 1933-1939) et ministre de l’Économie du Reich (1934-1937) et j’ai ensuite travaillé plus généralement sur la coopération entre banques et banquiers centraux tout au long du XXe siècle.

8 Leave a comment on paragraphe 8 0 Ma thèse a été un exemple de travail sur archives tel que décrit dans le goût de l’archive d’Arlette Farge. Menée de 1999 à 2006, j’ai connu le monde de ce livre, avec des particularités liées au fait de travailler sur des archives nazies – la nausée à la lecture de certaines liasses – mais aussi certains des éléments les plus anecdotiques comme la lutte pour la bonne place dans la salle de lecture. L’angoisse de la commande de la première boîte aux archives fédérales liée à l’incertitude sur la procédure de la commande. Les cartons parfois commandés par hasard et qui nous font découvrir des éléments inédits. Les fiches d’emprunt, plus utilisées car informatisées mais encore présentes, qui nous font découvrir un sentiment doux-amer: le réconfort (intimidant) de voir un nom prestigieux sur la fiche — Martin Brozsat a travaillé sur les mêmes liasses — lié à une forme de déception car la présence de ce nom montre que la liasse n’apportera pas de documents inédits ou peu exploités.

9 Leave a comment on paragraphe 9 0 Le ver était toutefois déjà dans le fruit. À l’exception de quelques jours passés dans les archives de la Banque des règlements internationaux où feuille blanche et crayon de papier étaient imposés, le lent travail de copistes qu’ont connu des générations d’historien s’était déjà transformé: dès le début de mes recherches j’étais équipé d’un ordinateur portable et entrais mes notes dans une base de données que j’avais moi-même préparée.

10 Leave a comment on paragraphe 10 4 Le hasard des postes que j’ai occupés, un goût certain pour l’informatique, a fait le reste: arrivé au Luxembourg dans une institution publique publiant une bibliothèque numérique sur l’histoire de la construction européenne, je me suis rapidement, à partir de 2008, spécialisé dans l’histoire dite numérique.

11 Leave a comment on paragraphe 11 0 Les premières années de ce travail autour du numérique ont été d’abord marquées par une forme de transposition du papier vers le numérique: l’essentiel de l’activité de cette institution était tournée vers la numérisation, la mise en données d’archives nées papier.

12 Leave a comment on paragraphe 12 1 Autre poste, autre destinée: ingénieur de recherche en France puis enseignant-chercheur en Suisse, j’ai par hasard commencé à m’intéresser à des sources primaires, cette fois, nées numériques. Le centre d’archives est un lieu incontournable pour l’historien.ne mais ce n’est pas le seul: les colloques et les trains pour y aller le sont aussi. D’une discussion avec un collègue historien spécialiste de la Première Guerre mondiale au retour de Blois en octobre 2013 est née l’idée de s’intéresser aux commémorations débutantes du Centenaire de la Première Guerre mondiale par le biais d’un prisme, celui du réseau social numérique Twitter. L’insistance d’un autre collègue lors d’un congrès de public history en Californie a fait le reste1)Je ne remercierais jamais assez Nicolas Beaupré et Benoît Majerus.

13 Leave a comment on paragraphe 13 0 Je connaissais alors déjà Twitter depuis plusieurs années: si ma première utilisation (en 2008) ne m’a pas permis de comprendre à quoi cette plateforme pouvait servir, mon insertion dans le monde des humanités numériques me l’a rendu indispensable, dès 2009. Les dizaines, centaines parfois, de tweets émis pendant des colloques permettaient de transformer un événement scientifique en moment ubiquitaire, pouvant se dérouler dans un lieu physique et sur le web en même temps, parfois avec du contenu convergent, parfois divergent. J’ai alors appris pour la première fois à collecter des données, sans pour autant être très conscients de ce que pouvait être une interface de programmation. Il s’agissait alors simplement de ramener les deux colloques – l’IRL et l’en-ligne – ensemble lors de ses conclusions (2012). L’usage de Twitter à des fins de sociabilité universitaire a ainsi précédé son usage à des fins de recherche – mais il a préparé le terrain: le goût de l’API n’était plus si loin.

API et bricolage

14 Leave a comment on paragraphe 14 0 Twitter, réseau social en ligne dit de microblogging car il permet de poster sur ce site de courts messages de 140 caractères, est très pratique pour les chercheurs. Il met à disposition une API dite de streaming permettant à ceux et celles qui s’y connectent de collecter jusqu’à un pour cent du flux mondial des tweets, soit jusqu’à 5 millions de petits messages par jour à l’heure actuelle où l’on estime à un demi-milliard le nombre quotidien de tweets. Cette limite est toutefois calculée sur la base du quart d’heure: le nombre de tweets que l’on peut collecter varie au fur et à mesure de la journée, est bien plus élevé à 18h en France où l’on tweete dans une grande partie du monde qu’aux périodes où seule l’Europe, par exemple, gazouille.

15 Leave a comment on paragraphe 15 0 L’historien.ne, qui n’est toujours pas programmeur mais qui est toujours, pour parodier une citation qui nous est chère 2)À la réflexion, le titre de ce qui était un article publié dans le Nouvel Observateur me semble de plus en plus important, alors que la citation – « l’historien sera programmeur ou ne sera pas » – m’apparaît de plus en plus insignifiante: « la fin des érudits » est peut-être beaucoup plus importante pour décrire ce qui est le rapport de l’historien.ne à la société aujourd’hui que sa capacité éventuelle à programmer., peut s’interroger s’il ne dispose pas de financement pour un projet de recherche, sur les moyens à disposition pour mener une recherche reposant sur une collecte de données importante. La réponse est dans la notion de bricolage, que nous définirons ici simplement: adapter à ses besoins des outils informatiques d’une part; réfléchir aux conséquences de cette adaptation sur sa pratique de l’histoire, sur sa méthodologie et plus largement sur la manière dont il ou elle envisage son métier même.

16 Leave a comment on paragraphe 16 0 Utiliser une API revient souvent à respecter quelques étapes qui sont les suivantes:

  • 17 Leave a comment on paragraphe 17 0
  • S’authentifier – on ne peut pas collecter des données anonymement avec Twitter;
  • Envoyer des commandes à l’API de Twitter, tout simplement pour dire ce que l’on souhaite. Les deux « ordinateurs » (le vôtre et l’API de Twitter) dialoguent alors;
  • Une fois les données obtenues, on les stocke, d’une manière ou d’une autre: dans mon cas, le stockage se fait dans une base de données utilisant le langage SQL que je connais bien.

18 Leave a comment on paragraphe 18 0 Concrètement, cela signifie que je suis allé chercher des outils – des bouts de code informatique – développés par d’autres et dont l’usage est libre et qui ont déjà toutes les fonctionnalités nécessaires pour se connecter à l’API de Twitter. J’aurais pu monter un projet, obtenir le financement. Mais la temporalité du Centenaire ne le permettait pas: obtenir un financement est souvent impossible en quelques mois.

19 Leave a comment on paragraphe 19 0 Bricoler du code informatique, devoir mettre en place un serveur hébergé chez moi – en fait un ordinateur de seconde main, peu puissant mais largement suffisant pour collecter des tweets – me permet aujourd’hui de connaître mes besoins techniques. Et s’il est certain qu’une fois à l’Université de Lausanne, professionnaliser l’hébergement de ce serveur en travaillant avec le centre informatique de l’Université a permis de me prémunir des risques de pertes de données ou de piratage, commencer par mettre en place moi-même le serveur m’a appris beaucoup de choses sur la manière dont je devrais travailler: perfectionner mes usages des bases de données, de la ligne de commande, de l’export de bases de données, savoir précisément le type de données dont je dispose, connaître leurs métadonnées, etc.

20 Leave a comment on paragraphe 20 0 Le bricolage est alors une manière d’apprendre autant qu’une méthode. Il n’est pas toujours aisé de bricoler: changer de système de collecte car le script que l’on a utilisé au début n’est plus mis à jour, migrer des serveurs, techniquement et juridiquement 3)migrer des données d’un pays hors de l’Union européenne vers un pays dans l’UE n’est pas chose aisée. n’est pas une mince affaire et nécessite une capacité d’adaptation et d’apprentissage constante, qui peut être fatigante. Le bricolage comme méthode a aussi ses limites: sans aucun doute devrais-je aujourd’hui travailler avec des informaticiens, statisticiens ou sociologues pour améliorer l’analyse de mes tweets collectés et pour, peut-être, améliorer même ma méthode de collecte. Mais bricoler du code, l’adapter à mes besoins, configurer le serveur, lire la documentation de l’API de streaming de Twitter – tout cela me permet de restaurer ce qui semble impossible lorsque nous traitons des données massives: l’intimité de l’historien.ne avec ses sources.

21 Leave a comment on paragraphe 21 0 Car comprendre ces éléments barbares que sont les schémas de métadonnées, les échanges serveur-client, c’est comprendre ces sources nées numériques, ces traces instantanées, fluides, massives et parfois presqu’infinies du passé le plus proche.

des sources en flux au(x) corpus

22 Leave a comment on paragraphe 22 0 La spécificité de ces sources nées numériques est leur fluidité, de forme, de fonds parfois – quand l’on est face à de nombreuses versions d’un même document, quand l’on sait qu’un tweet peut avoir été lu au travers de différentes interfaces logicielles -, mais aussi de création. Collecter des tweets, notamment, via une API, c’est transformer un flux constant en archive figée. La notion de source, flux originel intarissable, n’a jamais été une métaphore aussi actuelle, une métaphore aussi signifiante qu’avec ces sources nées numériques.

23 Leave a comment on paragraphe 23 0 Et de ce flux figé, de ces tweets en format texte particulier, stockés dans une base de données, il faut tirer des analyses. Commence alors un dialogue entre l’historien.ne et la base de données au moyen d’un langage d’interrogation de bases de données, le SQL (pour mes recherches). Ce travail, discret au sens qu’il est rarement mis en valeurs dans les interventions en colloque ou dans les publications, est celui qui mène à la création d’un corpus, ici entendu comme d’un ensemble de sources réunies, injectables dans un logiciel d’analyse de données, construit pour répondre à des questions de recherche plus spécifiques.

24 Leave a comment on paragraphe 24 0 L’interrogation de la base de données est un vrai dialogue entre la base et l’historien.ne dans la mesure où la requête alors écrite est issue d’une véritable question de recherche. Ici, par exemple, ressort la volonté de se concentrer sur les liens vers des sites web (liés au centenaire de la Grande Guerre dans ce cas précis):

25 Leave a comment on paragraphe 25 0 SELECT tweets.created_at, tweets.screen_name, tweet_urls.url
FROM tweet_urls, tweets
WHERE tweet_urls.tweet_id = tweets.tweet_id AND tweets.is_rt = 0
INTO OUTFILE ‘~/Desktop/REVISITING_URLs.csv’ FIELDS TERMINATED BY ‘,’ OPTIONALLY ENCLOSED BY ‘ »‘ LINES TERMINATED BY ‘\n’;

26 Leave a comment on paragraphe 26 0 Les résultats obtenus sont rarement satisfaisants dès la première fois: c’est pour cette raison précise qu’il y a dialogue avec la base de données, même s’il s’agit d’un dialogue de l’historien.ne avec elle-même, de l’historien.ne qui a constitué la base de données en fonction d’un cadre, l’API de Twitter, avec l’historien.ne qui interroge sa base de données en fonction d’un autre cadre, le langage d’interrogation, afin de constituer le corpus qui va lui permettre de passer à la phase d’analyse et de recherche.

de l’api aux temporalités

27 Leave a comment on paragraphe 27 0 Le corpus constitué, les analyses peuvent commencer. Utiliser des visualisations m’a toujours fait penser aux années où je pratiquais la photographie avant le numérique. Les logiciels d’analyse et de visualisation de données – gephi ou iramuteq, pour citer ceux que j’utilise le plus fréquemment – agissent sur les données comme le révélateur sur le papier argentique: on voit tout d’un coup émerger une image et, parfois, un sens, de nos données.

28 Leave a comment on paragraphe 28 0 Au fur et à mesure de mes recherches avec ces sources nées numériques, deux éléments sont ressortis: l’interrogation autour du goût de l’archive née numérique, bien entendue, mais peut-être encore plus la question des temporalités. Ces logiciels-révélateurs les font apparaître. Le goût de l’API m’a alors mené sur des terrains que l’historien des relations monétaires internationales que j’étais (et reste aussi) n’avait jamais pensé pouvoir explorer et, en premier lieu cette question des temporalités.

29 Leave a comment on paragraphe 29 0 Travailler sur Twitter, c’est travailler sur le temps, le décomposer en temporalités, en un mille-feuille de temporalités. Du siècle à la seconde – lorsque le nombre de tweets émis double quand de jeunes Français et Allemands entrent en scène lors des commémorations du centenaire de Verdun. De la seconde au siècle – lorsque des milliers d’internautes aident à constituer une base de données des Morts pour la France. Du flux au cycle – lorsque le flux inarrêtable, massif des tweets qui s’égrainent d’une manière linéaire, ouverte, infinie, rencontre le cycle des 11 novembre et de ses commémorations qui, chaque année au moins depuis 2014, engendrent la publication de nombreux tweets. De l’individu à la masse – lorsqu’un seul tweet engendre des milliers de retweets, de citations.

30 Leave a comment on paragraphe 30 0 Nos outils d’analyse nous permettent aujourd’hui d’embrasser des sources de plus en plus massives: nous pouvons décomposer des événements, analyser ces grandes vagues de répliques 4)Voir les travaux de Dominique Boullier: « Les sciences sociales face aux traces du big data », Revue française de science politique 65 (5), 2015, pp. 805–828. En ligne: <http://www.cairn.info/resume.php?ID_ARTICLE=RFSP_655_0805>, consulté le 04.07.2016. ainsi que son interview dans un numéro du Temps des Médias, à paraître à l’automne prochain., ces moments brefs mais intenses de circulation de l’information, nous pouvons analyser l’événement tel qu’il s’impose sur une plateforme comme twitter comme un fait social à part entière. Le goût de l’API se transforme alors en goût pour les temporalités, pour leur analyse minutieuse.

31 Leave a comment on paragraphe 31 0 Se pose alors la question du temps, de notre rapport au temps. En sociologie 5)Rosa Hartmut, Accélération. Une critique sociale du temps, Paris, La Découverte, 2010. comme en histoire 6)Hartog François, Régimes d’historicité. Présentisme et expériences du temps, Paris, Le Seuil, 2003. les interrogations sur l’articulation entre passé, présent et futur ont dans les dernières années connu des développement, tous négatifs, mais globalement antérieurs à l’émergence des plateformes sociales du « web 2.0 ».

32 Leave a comment on paragraphe 32 0 Le flux nous fait-il entrer dans un nouveau régime d’historicité? Le goût de l’API, en tous les cas, est inséparable du goût pour le temps.

References   [ + ]

1. Je ne remercierais jamais assez Nicolas Beaupré et Benoît Majerus
2. À la réflexion, le titre de ce qui était un article publié dans le Nouvel Observateur me semble de plus en plus important, alors que la citation – « l’historien sera programmeur ou ne sera pas » – m’apparaît de plus en plus insignifiante: « la fin des érudits » est peut-être beaucoup plus importante pour décrire ce qui est le rapport de l’historien.ne à la société aujourd’hui que sa capacité éventuelle à programmer.
3. migrer des données d’un pays hors de l’Union européenne vers un pays dans l’UE n’est pas chose aisée.
4. Voir les travaux de Dominique Boullier: « Les sciences sociales face aux traces du big data », Revue française de science politique 65 (5), 2015, pp. 805–828. En ligne: <http://www.cairn.info/resume.php?ID_ARTICLE=RFSP_655_0805>, consulté le 04.07.2016. ainsi que son interview dans un numéro du Temps des Médias, à paraître à l’automne prochain.
5. Rosa Hartmut, Accélération. Une critique sociale du temps, Paris, La Découverte, 2010.
6. Hartog François, Régimes d’historicité. Présentisme et expériences du temps, Paris, Le Seuil, 2003.
Page 2

Source :http://www.gout-numerique.net/table-of-contents/gout-api