# Nouvelles voies vers les archives web franaises
> [! remarque]-
> Le contenu de cette page est généré à partir de la transcription audio/vidéo et de la transformation du texte provenant du contenu et des liens de cette source.
Source : [https://fosdem.org/2025/schedule/event/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives/](https://fosdem.org/2025/schedule/event/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives/)
<video src=« https://video.fosdem.org/2025/aw1126/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives.av1.webm » controls></video>
## Résumé et points forts :
Cette session explore l'utilisation de logiciels open source pour accéder aux archives web françaises, un vaste ensemble de données gérées par la Bibliothèque nationale de France (BnF). **Introduction**: Les archives web françaises contiennent plus de 2 pétaoctets de données couvrant près de 30 ans, mais l'accès est limité par la loi du dépôt légal. **Développement d'outils**: Le projet RESPADON intègre une capacité d'archives web captives dans le logiciel Hyphe, permettant de nouvelles méthodes d'exploration. **Solution PANDORÆ**: Présentation d'une solution pour étudier qualitativement des sujets spécifiques dans les collections indexées, en extrayant des métadonnées pertinentes pour une exploration hors site. **Défis et opportunités**: La session aborde les défis de la création d'outils ouverts pour des sources de données fermées, tout en garantissant la reproductibilité par la publication du code.
## Importance pour une transformation écosociale
Cette session est cruciale pour la transformation écosociale, car elle démontre comment les outils open source peuvent rendre les données fermées accessibles pour la recherche. Les questions sociales et éthiques incluent la gestion des droits d'auteur et la protection de la vie privée. Les concepteurs écosociaux peuvent tirer parti de la plateforme PANDORÆ pour développer des outils similaires. Les défis incluent les restrictions légales et la nécessité de collaborations institutionnelles pour surmonter les obstacles techniques.
## Slides:
| | |
| --- | --- |
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_001.jpg\|300]] | Présentation des enjeux liés aux données fermées et aux logiciels ouverts, avec Dorothée Benhamou-Suesser et Guillaume Levrier.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_002.jpg\|300]] | Résoudre la tension entre les sources de données institutionnelles captives à long terme et le besoin de logiciels open source pour la recherche scientifique.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_003.jpg\|300]] | Les outils open source et la communauté IIPC sont utilisés pour la collecte, l'accès et la préservation des archives web françaises, conformément à la loi DADVSI de 2006.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_004.jpg\|300]] | Modèle de collecte mixte combinant des crawls nationaux annuels et des crawls thématiques ou curatés plus fréquents et approfondis.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_005.jpg\|300]] | Défis pour rendre ces collections plus ouvertes à la recherche scientifique, notamment l'accès sur site uniquement et la nature massive des données.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_006.jpg\|300]] | La recherche implique de construire une stratégie méthodologique pour servir un objectif épistémologique, en créant des connaissances scientifiques.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_007.jpg\|300]] | Le label de « connaissances scientifiques » est rarement appliqué, les revues par les pairs n'ayant souvent pas accès aux données ou aux méthodes utilisées.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_008.jpg\|300]] | Besoin d'outils libres, open source avec code commenté, dont l'exécution peut être décentralisée et contrôlée par l'utilisateur pour assurer la reproductibilité.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_009.jpg\|300]] | Essayer d'atteindre toutes les sources de données disponibles pour la recherche.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_010.jpg\|300]] | PANDORÆ vise à collecter, standardiser et explorer les ensembles de données avec ses processus FLUX, ZOTERO et TYPES.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_011.jpg\|300]] | FLUX, ZOTERO et TYPES sont utilisés pour collecter, standardiser et explorer les ensembles de données, intégrés dans des moteurs de recherche et des navigateurs d'archives web.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_012.jpg\|300]] | Présentation des processus de PANDORÆ pour la collecte, la standardisation et l'exploration des données, tout en soulignant son caractère open source.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_013.jpg\|300]] | Un outil open source inséré dans un contexte captif.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_014.jpg\|300]] | Un outil open source inséré dans un contexte captif.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_015.jpg\|300]] | FLUX – Collecte et standardisation des données avec PANDORÆ.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_016.jpg\|300]] | FLUX – Collecte et standardisation des données avec PANDORÆ.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_017.jpg\|300]] | FLUX – Collecte et standardisation des données avec PANDORÆ.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_018.jpg\|300]] | ZOTERO – Sauvegarde et conservation des collections.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_019.jpg\|300]] | TYPE – Explorer des corpus avec PANDORÆ.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_020.jpg\|300]] | TYPE – Exploration des ensembles de données avec PANDORÆ.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_021.jpg\|300]] | PANDORÆ et la BnF tentent de résoudre la tension entre données fermées et logiciels ouverts avec un modèle de « miroir sans tain ».
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_022.jpg\|300]] | 1. Vous pouvez collecter les données sur place, mais sans accès en écriture. 2. Vous pouvez emporter des métadonnées, mais pas interroger à distance. 3. Vous pouvez revenir pour des éclaircissements, mais pas emporter l'ensemble.
| ![[FOSDEM 2025/assets/Closed-data-open-software-building-new-ways-into-t/preview_023.jpg\|300]] | Présentation des enjeux liés aux données fermées et aux logiciels ouverts, avec Dorothée Benhamou-Suesser et Guillaume Levrier.
## Liens
[Présentation (PDF)](https://fosdem.org/2025/events/attachments/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives/slides/237947/EN-FOSDEM_DmJBpvz.pdf)
[Enregistrement vidéo (AV1/WebM) - 63.1 MB](https://video.fosdem.org/2025/aw1126/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives.av1.webm)
[Enregistrement vidéo (MP4) - 341.1 MB](https://video.fosdem.org/2025/aw1126/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives.av1.mp4)
[Fichier de sous-titres vidéo (VTT)](https://video.fosdem.org/2025/aw1126/fosdem-2025-5223-closed-data-open-software-building-new-ways-into-the-french-web-archives.av1.vtt)