A l’occasion de son 350e anniversaire, la Royal Society a établi la liste des douze domaines scientifiques les plus prometteurs, parmi eux : la science du web. Pour les experts, l’évolution du web vers un "Web of Linked Data" (web de données liées) sera l’un des gros chantiers.
Emergence de la science du web
En 2006, les britanniques Tim Berners-Lee du MIT et Nigel Shadbolt de l’Université de Southampton ont publié avec d’autres chercheurs un article intitulé "Creating a Science of the Web". Selon eux, l’analyse des propriétés du web et de leur évolution doit faire l’objet d’une science spécifique pouvant faire appel à des domaines aussi différents que les mathématiques, la biologie, l’informatique ou la sociologie. Les enjeux de cette nouvelle science : modéliser la structure du web et identifier les principes susceptibles de garantir sa croissance ; analyser les interactions humaines en ligne et leur impact sur l’architecture de la toile ; lutter contre la cybercriminalité ; régler les questions complexes de vie privée et de propriété intellectuelle.
Afin de promouvoir et d’établir un premier agenda pour la science du web, Tim Berners-Lee et Nigel Shadbolt ont créé en 2009 le Web Science Trust. En mars 2010, Gordon Brown a annoncé un investissement de 30 M£ pour la création d’un Web Science Institute. Mais ce projet a été abandonné quelques mois plus tard par le nouveau gouvernement de coalition pour cause de restrictions budgétaires. Malgré ce revers, les travaux scientifiques se sont poursuivis et la Royal Society a accueilli en septembre 2010 le premier colloque sur le sujet intitulé "Web Science : a new frontier [1]".
Les premières découvertes
En créant le fameux algorithme "PageRank", les fondateurs de Google Larry Page et Sergey Brin ont démontré combien il était important de comprendre le web pour mieux l’organiser. D’autres découvertes ont été réalisées avant la création d’une science du web. Des travaux issus de la théorie des graphes ont démontré que la connectivité du web suivait une distribution en loi de puissance. Sur un réseau classique, les noeuds ont tous un nombre de liens à peu près similaires, sur le web en revanche, la plupart des noeuds ont peu de liens alors que quelques noeuds possèdent un grand nombre de liens. La compréhension de cette structure, qualifiée d’invariant d’échelle, a été cruciale pour les opérateurs télécoms qui sont chargés de réguler les réseaux. Des scientifiques ont également décrit le web comme un ensemble de "petits mondes". Ce qui signifie qu’il suffit de peu de "clics" pour aller d’une page à une autre, une vingtaine au plus, et que les pages sont regroupées en "mondes" au sein desquels il existe un grand nombre de connexions. Les phénomènes de diffusion et d’émergence font aussi l’objet de nombreux travaux car ils sont des propriétés clés du web. Du succès de l’encyclopédie wikipédia à celui des réseaux sociaux, des structures complexes émergent à partir de principes simples qu’il faut analyser. Des recherches sont également menées pour comprendre les principes de diffusion de l’information à travers la "blogosphère". En épidémiologie, Il a été démontré que l’analyse des requêtes sur Google pouvaient fournir un bon indicateur pour la diffusion de virus comme la grippe.
Vers un web de données liées
Pour Tim Berners-Lee et Nigel Shadbolt, l’un des prochains défis du web est la construction d’un web de données liées. Aujourd’hui seules les pages comportent une adresse unique, leur URL, et peuvent être ainsi liées entre elles. Le projet Open Linked Data (données liées ouvertes), issu de travaux sur le web sémantique et coordonné par le W3C, propose de créer un identifiant unique (URI, Uniform Ressource Identifier) pour chaque information et non plus seulement pour les documents qui les contiennent. Ainsi les prochains moteurs de recherche seront capables de retourner directement les informations demandées au lieu d’une liste de pages. Des données liées sont déjà présentes sur le web : le gouvernement britannique publie depuis peu ses statistiques sous forme de données liées sur le site data.gov.uk ; DBpedia.org a extrait les informations issues des articles de wikipédia et a ainsi transformer le célèbre site en une base de données intelligente ; des laboratoires de recherche pharmaceutique ont mis en commun leurs données liées pour identifier les marqueurs de la maladie d’Alzheimer. Dans le même temps, des applications sont développées pour traiter et mieux visualiser ces données.
La construction d’un web de données liées représente un vrai défi. La masse d’information déjà présente sur le web est immense et il faudra inventer des méthodes efficaces si l’on veut les transformer en données liées. L’opposition des gouvernements et des entreprises à rendre accessible leurs données officielles pourrait être un autre frein. Enfin, ce projet suppose que l’ensemble des producteurs de données suivent les mêmes standards. Tim Berners-Lee a donc précisé dans un article les règles à suivre pour publier des données liées sur le web.
Utiliser des URIs pour identifier chaque information.
Utiliser des URIs avec le protocole HTTP pour que tout le monde puisse accéder à ces informations.
Associer des métadonnées aux URIs en utilisant le format standard RDF [1].
Créer des liens entre les URIs pour leur donner plus de sens.
En octobre 2007, le web contenait 2 milliards de données liées, il en compte fin 2010 plus de 25 milliards. Les Etats-Unis et le Royaume-Uni sont les deux premiers pays à avoir publié leurs données officielles sous forme de données liées. En France, un projet de publication des données intitulé "Etat Lab" a été lancé début 2010. Sa conception a été confiée à l’Agence pour le patrimoine immatériel de l’Etat (APIE). Une première version est attendue pour l’été 2011.
—
[1] Les présentations issues de cette rencontre doivent prochainement être publiées dans la revue "Philosophical Transactions of the Royal Society A".
[2] RDF pour "Resource Description Framework" est un modèle servant à décrire les ressources du web et leurs métadonnées. L’objectif étant de rendre ces données interprétables par un logiciel. Un document RDF est composé de triplets (sujet, prédicat, objet), encore désigné déclaration. Exemple de déclaration : ("Le petit prince", "auteur", "Antoine de Saint-Exupéry").
Pour en savoir plus :
Le Web Science Trust : http://webscience.org
Séminaire à la Royal Society "Web Science : a new frontier", http://royalsociety.org/further/web...
Interventions vidéo de Tim Berners-Lee au TED, http://www.ted.com/talks/view/id/484 et http://redirectix.bulletins-electro...
Les projets de données liées :
Open Data au Royaume-Uni : http://data.gov.uk
Open Data aux Etats-Unis : http://data.gov
DBpedia : http://DBpedia.org
Sources :
Royal Society : http://royalsociety.org/events/web-...
Science, "Creating a Science of the web" - Disponible en téléchargement ici : http://journal.webscience.org/2/2/c...
Auteur : Pierre Chrzanowski