Mémoire

Status: en cours

Last update: 18/03/2026

Progress: Prémices

Objectif

Documenter l’avancement du mémoire, les choix méthodologiques et les jalons de rédaction.

Fait

téléchargement sous-corpus de presse généraliste
pipeline de scraping pdfs Gallica (revues scientifiques essentiellement)
premier script d’ocr avec tesseract et reconstruction colonnes

État actuel & Prochaines étapes

Terminer scraping, structuration et océrisation.
Délimitation du corpus à finaliser.
Dépôts actifs: scraping_pdf et transcription.
Plan, historio, biblio technique, pbmtique, rédaction, etc.
Structuration : passer de sous-corpus océrisés à des articles avec

Journal de progression

26/02/2026 : création de la page projet et structuration initiale.
18/03/2026 : fin pipeline de scraping pdfs avec APIs gallica et selenium. Lancement de scripts en background. Sous-corpus scientifique d’une 50aine de revues d’horizons diverses (agricoles, médicales, industrielles, de biologie, etc.)

Source code · Source code 2

Comments