Mémoire
Objectif
Documenter l’avancement du mémoire, les choix méthodologiques et les jalons de rédaction.
Fait
- téléchargement sous-corpus de presse généraliste
- pipeline de scraping pdfs Gallica (revues scientifiques essentiellement)
- premier script d’ocr avec tesseract et reconstruction colonnes
État actuel & Prochaines étapes
- Terminer scraping, structuration et océrisation.
- Délimitation du corpus à finaliser.
- Dépôts actifs: scraping_pdf et transcription.
- Plan, historio, biblio technique, pbmtique, rédaction, etc.
- Structuration : passer de sous-corpus océrisés à des articles avec
Journal de progression
- 26/02/2026 : création de la page projet et structuration initiale.
- 18/03/2026 : fin pipeline de scraping pdfs avec APIs gallica et selenium. Lancement de scripts en background. Sous-corpus scientifique d’une 50aine de revues d’horizons diverses (agricoles, médicales, industrielles, de biologie, etc.)
Comments