PROJET AUTOBLOG


shaarli-Liens en vrac de sebsauvage

Site original : shaarli-Liens en vrac de sebsauvage

⇐ retour index

CommonCrawl

jeudi 28 novembre 2013 à 08:44
Tiens donc, je ne connaissais pas ce cousin d'Archive.org. Tout comme archive.org, c'est une organisation à but non lucratif.
Archive.org archive la musique, les films, les livres (papier et électroniques) et les pages web.  CommonCrawl se limite au web.
Ils viennent juste de publier une petite archive de sites web... si vous avez 102 Téra-octets de libre, vous pouvez la télécharger: http://commoncrawl.org/new-crawl-data-available/
Elle contient environ 2 milliards de pages web.
A noter qu'ils utilisent le même format de stockage qu'Archive.org: WARC (qui est en prime une norme ISO: ISO 28500)
(Permalink)