|

Feuilleter la presse ancienne par Giga Octets

1 Laisser un commentaire sur le paragraphe 1 0 Le recours à Gallica est désormais un des réflexes primaires de tout.e.s historien.ne.s. Dans les bibliothèques numériques, la presse ancienne a occupé une place pionnière au sein des programmes de numérisation. La presse ancienne a fait partie des premiers chantiers de numérisation de la Bnf. L’accès en ligne à n’importe quel numéro des principaux quotidiens du XIXe et XXe siècles rend l’utilisation des archives de la presse ancienne non seulement plus simple mais plus systématique dans nombre de travaux d’historien.ne.s. Le corpus Europeana Newspaper propose par exemple de télécharger en masse les principaux quotidiens européens. Cette immédiateté redéfinit notre goût de l’archive car elle remodèle en profondeur notre ergonomie de travail.

D’un geste à l’autre : l’ergonomie du clic

2 Laisser un commentaire sur le paragraphe 2 0 La numérisation de la presse ancienne modifie en profondeur le geste même de découverte des documents, en particulier parce qu’elle supprime l’intermédiaire de l’archiviste au profit de l’interface numérique. Cette reconfiguration donne le sentiment que tout est déjà là, sous la main, à disposition.

3 Laisser un commentaire sur le paragraphe 3 0 Cette disponibilité quasi-immédiate des titres de presse ancienne sur différentes bases de données redéfinit notre rapport à un objet qui d’abord se feuillette, se manipule. Dans le cadre de mes recherches sur l’histoire du marché de la rencontre, j’ai eu à faire ressortir des fonds de la Bnf bien des titres de presse matrimoniale de la fin du XIXe siècle jusqu’à l’entre-deux-guerres. Quiconque a eu affaire à ce genre de presse sait le rôle de leur matérialité, le papier utilisé par la presse d’entre-deux-guerres, particulièrement fragile, est la cause de bien des refus de consultations. On peut encore penser à l’encre qui s’efface facilement, ou colore les doigts au fil de la lecture. Sur les plateformes numériques nous perdons nécessairement cette dimension sensible de l’archive. Et dès lors nous n’avons pas la même expérience de lecture que celle des acteurs et actrices que nous étudions. On pourra m’objecter avec raison que notre expérience de lecture est nécessairement guidée par notre posture de recherche – et c’est juste. Néanmoins il me semble que les outils numériques dont nous disposons accentuent cette tendance.

4 Laisser un commentaire sur le paragraphe 4 0 Pour Arlette Farge, l’archive est « difficile dans sa matérialité […] parce que démesurée, envahissante comme les marées d’équinoxes, les avalanches ou les inondations[1] ». Dans le cas de la presse ancienne en ligne, c’est au contraire l’immatérialité de l’archive qui nous submerge. Le numérique semble dans un premier temps donner plus d’emprise sur les choses, puisque les mots-clés, les tris par pertinence ou par chronologie sont autant de manières d’agripper le texte, de faire ressurgir un sujet. Impossible il y vingt ans d’entreprendre, comme je le fais, l’histoire des annonces et des agences matrimoniales. Pour faire ressortir de la presse ancienne un sujet si marginal, il aurait fallu, sans l’aide du numérique dépouiller de façon systématique quelques titres pour espérer tomber sur les récits que certains journalistes font de leur expérience des agences, ou lister les publicités matrimoniales à la quatrième page des journaux.  Et pourtant, bien que le numérique nous donne les outils pour mesurer la profondeur des fonds, rien n’est plus simple que de s’y perdre.

5 Laisser un commentaire sur le paragraphe 5 0 La métaphore marine s’impose pour Arlette Farge afin d’évoquer le sentiment de profondeur par lequel on entre dans les archives. Il me semble que l’archive numérique aplanit cette perception des choses, notamment parce que la reconnaissance plein-texte – disponible sur de plus en plus de titres de presse – nous permet de passer outre les subdivisions des fonds et d’aller directement au paragraphe qui nous intéresse sans avoir été introduits par un inventaire, une introduction, puis un chapitre. La technique de reconnaissance optique des caractères permet en effet aux plateformes de presse ancienne en ligne de superposer le texte à l’image. Les sources ne sont plus de simples photos, mais des documents que l’on peut interroger par le texte, au delà de la simple notice descriptive. Aussi est-il aisé de travailler par mots-clés, et de s’en constituer tout un répertoire qui puisse refléter au mieux les contours du sujet étudié. Dans le cadre de mon travail cette liste de mot-clés s’est constituée au fil de la lecture des résultats : « agence matrimoniale » et ses dérivés s’imposent, mais on constate rapidement dans les résultats des termes co-occurents comme « Hymen », « mariages riches », « industrie matrimoniale », « courtage matrimonial », « grandes relations », « faciliter mariages », et la liste est longue. Dans Gallica par exemple, la recherche simple « agence matrimoniale »  fait ressortir 939 documents, qui traitent très inégalement du thème : il peut aussi bien s’agir de la publicité d’une agence, d’une mention au passage d’un roman feuilleton, que d’une enquête journalistique dédiée au sujet. C’est le mot-clé, qui surligné en jaune, conditionne la lecture du document concerné. Si bien qu’on a parfois l’impression qu’il se suffit à lui même, alors que c’est précisément le contexte dans lequel il s’insère qui est signifiant.

6 Laisser un commentaire sur le paragraphe 6 0 Résultat de la recherche simple « agence matrimoniale » sur Gallica

7 Laisser un commentaire sur le paragraphe 7 0 Les bases de données ont d’ailleurs cet intérêt d’afficher l’information voulue un clic (ou presque) sans avoir à passer par les ramifications interminables de métadonnées afin d’avoir directement accès au contenu. Gallica nous fait facilement oublier les profondeurs de ses ressources en faisant une sélection spécifique à notre sujet. Travailler sur les résultats d’une requête Gallica nous amène nécessairement à penser les documents qui ressortent les uns par rapport aux autres, or, ce lien de co-présence dans un même panel de résultats est parfois le seul lien que les documents entretiennent entre eux. Ce corpus de documents n’existe que parce que la requête a été faite, il n’a pas d’autre raison d’être que notre recherche. La porte d’entrée par mots-clés court-circuite l’entrée thématique que l’on pourrait avoir dans un inventaire d’archives. Le gain de temps est énorme pour l’historien.ne, mais cette efficacité a pour conséquence de changer la voie d’accès aux sources – ce qui doit être gardé en tête. Cette entrée « par le bas » de la presse, ne peut donc jamais se suffire à elle-même. Il nous revient toujours de recontextualiser ces occurrences, de les comprendre dans un genre de presse spécifique, un rythme publication, un type de lectorat, etc. Aussi peut-on procéder en deux temps : la recherche en mots-clé est une première étape – elle m’a permis par exemple de repérer la présence des agences matrimoniales dans le journal La vie Parisienne puis de mener une recherche systématique des occurrences dans ce journal, à partir de la liste des numéros disponibles par années.

8 Laisser un commentaire sur le paragraphe 8 0 Par ailleurs, l’existence ou non d’une numérisation conditionne en partie les choix de nos corpus : plus facile d’accès, la presse ancienne en ligne est la plus utilisée que celle que la Bnf n’a reproduit que sur microfilm par exemple. Le confort de travail se comprend aisément : Gallica permet de travailler hors les murs de la Bnf, n’importe où pourvu qu’une connexion internet soit garantie. A intérêt scientifique égal, on privilégie forcément pour un traitement sériel le journal numérisé à celui qui ne l’est pas. Mais on peut ajouter un second degré de discrimination entre les journaux : ceux qui sont passés par un logiciel de reconnaissance de caractères ressortent nécessairement davantage dans les résultats de recherche que les autres  pour lesquels seules les images sont disponibles. En d’autres termes l’accessibilité de la source façonne nos corpus de recherche, et donc nos résultats.

Le flux et le stock : voracité et infobésité

9 Laisser un commentaire sur le paragraphe 9 5 On se perd sur Gallica comme on se perd sur internet : de lien en lien, de pages en pages, un document en amène un autre dans le grand réseau que représente la base de données. Beaucoup de trouvailles sont faites au passage comme un lien envoyé par un.e collègue dans Twitter. Les informations passent et puis se perdent (dans un carnet de notes, dans un post-it numérique ou manuscrit). D’où l’obsession du rongeur : il faut stocker et organiser ce qui est vu « au passage », ou « pour plus tard », tout en sachant que l’information reste disponible en ligne. Aussi, sans planification préalable, il est facile d’ouvrir frénétiquement des fichiers textes, des dossiers d’images, de stocker des informations dans Zotero, pour plus tard – un plus tard toujours un peu hypothétique et parfois illusoire. A titre personnel, j’ai choisi un tableur dans lequel j’entre toutes les occurrences qui passe sous mes yeux. L’idée n’est évidemment pas de tout traiter sur les même plan, pour chaque occurence je précise s’il s’agit d’un recensement exhaustif, échantillonné ou au contraire ponctuel. Le tableur permet de garder le lien avec la source (document téléchargé ou url de Gallica), mais surtout il permet de constituer faire des rapprochement entre les différentes occurrences : par type de presse, par thème, par année, par rubrique dans le journal (à l’aide par exemple de tris dans le tableur ou de tableaux croisés dynamiques).

10 Laisser un commentaire sur le paragraphe 10 0 Capture d’écran du tableur qui me permet de recenser les occurrences relevant du marché de la rencontre dans la presse ancienne

11 Laisser un commentaire sur le paragraphe 11 0 La facilité d’accès à l’information augmente considérablement la part de la presse dans nos corpus de sources (et des sources imprimées numérisées de façon générale). On est ainsi parfois confronté à l’hypertrophie de la presse dans les corpus ; il faut alors penser le biais qu’elle représente et ne pas surestimer les représentations journalistiques par rapport à d’autres représentations ou par rapport aux pratiques décrites dans les archives. De plus, selon le sujet traité, il n’est pas rare qu’en interrogeant Gallica on soit confronté à une surabondance de résultats. La presse, comme d’autre types de sources d’ailleurs, traite à peu près de tous les sujets ; aussi faut-il se prémunir de l’effet-loupe que produit la recherche lexicale. En l’état actuel des outils disponibles sur Gallica, il est délicat d’estimer l’importance médiatique d’un sujet. Les rapports de recherche exportables que propose le site sont certes bien utiles mais seulement s’il y a moins de 50 résultats. Le site Retronews propose pour sa part de calculer une « fréquence du terme » sur un nombre de titres de presse choisi, mais la courbe qui est dessinée représente le nombre de pages dans lequel apparait le terme : dans la majorité des cas, elle montre davantage l’évolution du nombre de pages des journaux sur la période concernée que l’importance du sujet en question. Sans accès à la table de données servant à dessiner ce graphe, impossible de faire apparaître de véritables proportions.

12 Laisser un commentaire sur le paragraphe 12 0 Il faudra probablement attendre la mise en place de véritables outils statistiques qui allient les possibilités de Gallica et de la textométrie pour avoir des résultats satisfaisants. C’est d’ailleurs à ce travail que s’attelle Pierre-Carl Langlais dans le cadre de l’ANR Numapresse. L’idée de ce travail collectif est d’analyser la presse ancienne a grande échelle avec des méthodes automatisées de fouilles de données pour faire apparaitre des dynamiques invisibles à l’œil nu comme la vitalité des contenus médiatiques par exemple.

13 Laisser un commentaire sur le paragraphe 13 0 Bien que tentante, l’exhaustivité des résultats, est donc illusoire. Il faut alors trouver des parades, constituer des échantillons et, bien entendu, garder en tête qu’il est difficile de faire confiance aux recherches d’occurrences dans un corpus exhaustif, dans la mesure où les OCR laissent toujours des erreurs (le taux peut varier de 1 à 4%). Si le logiciel de reconnaissance de caractères indique « matrimonia1e » au lieu de « matrimoniale », le document n’apparaitra pas dans les résultats de ce mot-clé. De même si le mot est coupé par un tiret dans la mise en page du journal.

Lorsque l’œil ne suffit plus : de nouvelles pratiques de lecture de la presse ancienne

14 Laisser un commentaire sur le paragraphe 14 0 Lorsque vient le moment de rassembler les choses, de faire émerger un propos, d’autres questions se posent. La facilité d’accès suscite également la possibilité de ne jamais réellement se confronter à la matérialité de la source : elle est là, sous la main, dans un dossier, à portée de clic, sagement référencée par un système de tags que l’on aura pris soin de définir à l’avance.

15 Laisser un commentaire sur le paragraphe 15 0 Aussi est-il possible, d’avoir rassemblé et organisé un corpus de sources important, sans savoir vraiment de quoi celui-ci est fait ; et ce en faisant confiance, aux mots-clés, aux occurrences, à l’OCR –  tous ces adjuvants qui rendent à la fois la recherche plus facile et plus lointaine.

16 Laisser un commentaire sur le paragraphe 16 0 Lorsque le corpus de presse rassemblé est trop important, il est possible de le faire passer par des logiciels d’analyse pour y faire émerger des dynamiques tantôt invisibles à l’œil nu, tantôt que l’on peut seulement pressentir mais non objectiver. Les méthodes d’analyse de la presse numérisée se renouvellent et se complexifient. La textométrie en est un bon exemple, elle permet de dessiner le lexique d’un texte, de comprendre quels sont les termes les plus fréquemment utilisés, quels champs lexicaux dominent, mais aussi d’analyser les cooccurrences de termes clés. Mais on peut penser également au topic modeling : une méthode statistique qui, face à la masse de presse numérisée, prédit la rubrique ou le sujet du texte. Je vous revoie ici au billet de Pierre-Carl Langlais sur le carnet de Numapresse.

17 Laisser un commentaire sur le paragraphe 17 0 Avec tous ces outils, on peut avoir l’illusion momentanée que le logiciel nous dispense de l’analyse puisque nous sommes dépassés par la masse. Aussi est-il important de suspendre ces moments de pèche frénétique de l’information (l’envie de tester tel mot clé, telle rubrique, telle fonctionnalité), pour prendre le temps de la lecture, sans adjuvant, sans logiciel, sans mise en gras des mots recherchés qui guident tout de suite l’œil sur la rubrique du journal que l’on cherche. Laisser l’œil se perdre, c’est aussi laisser l’œil reprendre le rythme de la lecture, tranquille, parfois monotone, mais plus seulement chasseur. Ce travail de va-et-vient entre la lecture et la requête informatique est nécessaire pour que l’analyse se nourrisse de ces deux niveaux de compréhension de sources.

18 Laisser un commentaire sur le paragraphe 18 0 REFERENCES


19 Laisser un commentaire sur le paragraphe 19 0 [1] Arlette Farge, Le goût de l’archive, éditions du Seuil, 1989, p. 10

Page 8

Source :http://www.gout-numerique.net/table-of-contents/feuilleter-la-presse-ancienne-par-giga-octets