|

Feuilleter la presse ancienne par Giga Octets

1 Leave a comment on paragraphe 1 0 Le recours à Gallica est désormais un des réflexes primaires de tout.e.s historien.ne.s. Dans les bibliothèques numériques, la presse ancienne a occupé une place pionnière au sein des programmes de numérisation. La presse ancienne a fait partie des premiers chantiers de numérisation de la Bnf. L’accès en ligne à n’importe quel numéro des principaux quotidiens du XIXe et XXe siècles rend l’utilisation des archives de la presse ancienne non seulement plus simple mais plus systématique dans nombre de travaux d’historien.ne.s. Le corpus Europeana Newspaper propose par exemple de télécharger en masse les principaux quotidiens européens. Cette immédiateté redéfinit notre goût de l’archive car elle remodèle en profondeur notre ergonomie de travail.

D’un geste à l’autre : l’ergonomie du clic

2 Leave a comment on paragraphe 2 0 La numérisation de la presse ancienne modifie en profondeur le geste même de découverte des documents, en particulier parce qu’elle supprime l’intermédiaire de l’archiviste au profit de l’interface numérique. Cette reconfiguration donne le sentiment que tout est déjà là, sous la main, à disposition.

3 Leave a comment on paragraphe 3 0 Cette disponibilité quasi-immédiate des titres de presse ancienne sur différentes bases de données redéfinit notre rapport à un objet qui d’abord se feuillette, se manipule. Aussi perdons-nous nécessairement une dimension sensible de l’archive. Et dès lors nous n’avons pas la même expérience de lecture que celle des acteurs et actrices que nous étudions. On pourra m’objecter avec raison que notre expérience de lecture est nécessairement guidée par notre posture de recherche – et c’est juste. Néanmoins il me semble que les outils numériques dont nous disposons accentuent cette tendance.

4 Leave a comment on paragraphe 4 1 Pour Arlette Farge, l’archive est « difficile dans sa matérialité […] parce que démesurée, envahissante comme les marées d’équinoxes, les avalanches ou les inondations[1] ». Dans le cas de la presse ancienne en ligne, c’est au contraire l’immatérialité de l’archive qui nous submerge. Le numérique semble dans un premier temps donner plus d’emprise sur les choses, puisque les mots-clés, les tris par pertinence ou par chronologie sont autant de manières d’agripper le texte, de faire ressurgir un sujet. Et pourtant, bien que le numérique nous donne les outils pour mesurer la profondeur des fonds, rien n’est plus simple que de s’y perdre.

5 Leave a comment on paragraphe 5 2 La métaphore marine s’impose pour Arlette Farge afin d’évoquer le sentiment de profondeur par lequel on entre dans les archives. Il me semble que l’archive numérique aplanit cette perception des choses, notamment parce que la reconnaissance plein-texte – disponible sur de plus en plus de titres de presse – nous permet de passer outre les subdivisions des fonds et d’aller directement au paragraphe qui nous intéresse sans avoir été introduits par un inventaire, une introduction, puis un chapitre. Les bases de données ont d’ailleurs cet intérêt d’afficher l’information voulue un clic (ou presque) sans avoir à passer par les ramifications interminables de métadonnées afin d’avoir directement accès au contenu. Le gain de temps est énorme pour l’historien.ne, mais cette efficacité a pour conséquence de changer la voie d’accès aux sources – ce qui doit être gardé en tête.

6 Leave a comment on paragraphe 6 2 Celle-ci a d’autant plus d’importance que la numérisation des titres de presse crée plusieurs niveaux de lecture qui conditionnent en partie les choix de nos corpus : plus facile d’accès, la presse numérisée en ligne est la plus utilisée que celle qui ne l’est pas, mais dans la presse numérisée une distinction se fait encore entre celle qui a été passée par un logiciel de reconnaissance de caractères et celle pour laquelle seules les images sont disponibles.

7 Leave a comment on paragraphe 7 0  

Le flux et le stock : voracité et infobésité

8 Leave a comment on paragraphe 8 3 On se perd sur Gallica comme on se perd sur internet : de lien en lien, de pages en pages, un document en amène un autre dans le grand réseau que représente la base de données. Beaucoup de trouvailles sont faites au passage comme un lien envoyé par un.e collègue dans Twitter. Les informations passent et puis se perdent (dans un carnet de notes, dans un post-it numérique ou manuscrit). D’où l’obsession du rongeur : il faut stocker et organiser ce qui est vu « au passage », ou « pour plus tard », tout en sachant que l’information reste disponible en ligne. Aussi, sans planification préalable, il est facile d’ouvrir frénétiquement des fichiers textes, des dossiers d’images, de stocker des informations dans Zotero, pour plus tard – un plus tard toujours un peu hypothétique et parfois illusoire.

9 Leave a comment on paragraphe 9 2 La facilité d’accès à l’information augmente considérablement la part de la presse dans nos corpus de sources (et des sources imprimées numérisées de façon générale). On est ainsi parfois confronté à l’hypertrophie de la presse dans les corpus ; il faut alors penser le biais qu’elle représente. De plus, selon le sujet traité, il n’est pas rare qu’en interrogeant Gallica on soit confronté à une surabondance de résultats. La presse, comme d’autre types de sources d’ailleurs, traite à peu près de tous les sujets ; aussi faut-il se prémunir de l’effet-loupe que produit la recherche lexicale. En l’état actuel des outils disponibles sur Gallica, il est délicat d’estimer l’importance médiatique d’un sujet. Les rapports de recherche exportables que propose le site sont certes bien utiles mais seulement s’il y a moins de 50 résultats. Le site Retronews propose pour sa part de calculer une « fréquence du terme » sur un nombre de titres de presse choisi, mais la courbe qui est dessinée représente le nombre de pages dans lequel apparait le terme : dans la majorité des cas, elle montre davantage l’évolution du nombre de pages des journaux sur la période concernée que l’importance du sujet en question. Sans accès à la table de données servant à dessiner ce graphe, impossible de faire apparaître de véritables proportions.

10 Leave a comment on paragraphe 10 1 Il faudra probablement attendre la mise en place de véritables outils statistiques qui allient les possibilités de Gallica et de la textométrie pour avoir des résultats satisfaisants. C’est d’ailleurs à ce travail que s’attelle Pierre-Carl Langlais dans le cadre de l’ANR Numapresse.

11 Leave a comment on paragraphe 11 1 Bien que tentante, l’exhaustivité des résultats, est donc illusoire. Il faut alors trouver des parades, constituer des échantillons et, bien entendu, garder en tête qu’il est difficile de faire confiance aux recherches d’occurrences dans un corpus exhaustif, dans la mesure où les OCR laissent toujours des erreurs.

Lorsque l’œil ne suffit plus : de nouvelles pratiques de lecture de la presse ancienne

12 Leave a comment on paragraphe 12 0 Lorsque vient le moment de rassembler les choses, de faire émerger un propos, d’autres questions se posent. La facilité d’accès suscite également la possibilité de ne jamais réellement se confronter à la matérialité de la source : elle est là, sous la main, dans un dossier, à portée de clic, sagement référencée par un système de tags que l’on aura pris soin de définir à l’avance.

13 Leave a comment on paragraphe 13 0 Aussi est-il possible, d’avoir rassemblé et organisé un corpus de sources important, sans savoir vraiment de quoi celui-ci est fait ; et ce en faisant confiance, aux mots-clés, aux occurrences, à l’OCR –  tous ces adjuvants qui rendent à la fois la recherche plus facile et plus lointaine.

14 Leave a comment on paragraphe 14 1 Lorsque le corpus de presse rassemblé est trop important, il est possible de le faire passer par des logiciels d’analyse pour y faire émerger des dynamiques tantôt invisibles à l’œil nu, tantôt que l’on peut seulement pressentir mais non objectiver. La textométrie en est un bon exemple, mais on peut penser également au topic modeling : les méthodes d’analyse de la presse numérisée se renouvellent et se complexifient.

15 Leave a comment on paragraphe 15 1 Cela donne parfois l’illusion que le travail se fait tout seul, mais il faut suspendre ces moments de pèche frénétique de l’information (l’envie de tester tel mot clé, telle rubrique, telle fonctionnalité), pour prendre le temps de la lecture, sans adjuvant, sans logiciel, sans mise en gras des mots recherchés qui guident tout de suite l’œil sur la rubrique du journal que l’on cherche. Laisser l’œil se perdre, c’est aussi laisser l’œil reprendre le rythme de la lecture, tranquille, parfois monotone, mais plus seulement chasseur. Ce travail de va-et-vient entre la lecture et la requête informatique est nécessaire pour que l’analyse se nourrisse de ces deux niveaux de compréhension de sources.

16 Leave a comment on paragraphe 16 0 REFERENCES


17 Leave a comment on paragraphe 17 0 [1] Arlette Farge, Le goût de l’archive, éditions du Seuil, 1989, p. 10

Page 8

Source :http://www.gout-numerique.net/table-of-contents/feuilleter-la-presse-ancienne-par-giga-octets