La Web Semántica , o semántica web , es una extensión de la Web estandarizada por el World Wide Web Consortium (W3C). Estos estándares fomentan el uso de formatos de datos estandarizados y protocolos de intercambio en la Web, basados en el modelo Resource Description Framework (RDF).
Algunos se refieren a la Web Semántica como Web 3.0.
Según el W3C, "La Web Semántica proporciona un modelo que permite compartir y reutilizar datos entre múltiples aplicaciones, empresas y grupos de usuarios" . La frase fue acuñada por Tim Berners-Lee (inventor de la Web y director del W3C), quien supervisa el desarrollo de tecnologías comunes de Web Semántica. Lo define como “una red de datos que pueden ser procesados directa e indirectamente por máquinas para ayudar a sus usuarios a crear nuevos conocimientos” . Para lograrlo, la Web Semántica implementa la Web de Datos que consiste en vincular y estructurar información en Internet para simplemente acceder al conocimiento que ya contiene.
Si bien sus detractores han cuestionado su viabilidad, sus promotores argumentan que las aplicaciones realizadas por investigadores de la industria , la biología y las humanidades ya han demostrado la validez de este nuevo concepto. El artículo original de Tim Berners-Lee en 2001 en Scientific American describía una evolución esperada de la web existente a una web semántica, pero eso aún no ha sucedido. En 2006, Tim Berners-Lee y sus colegas dijeron: “Esta simple idea ... permanece en gran parte sin explotar. "
El concepto de " red semántica modelo " fue acuñado en la década de 1960 por el científico cognitivo Allan Collins , el lingüista Ross Quillian (en) y la psicóloga Elizabeth Loftus y expuesto en diversas publicaciones como una forma de representar el conocimiento estructurado. Aplicado al contexto de Internet, este modelo amplía la red de hipervínculos de páginas web legibles por humanos al insertar metadatos legibles por máquina en las páginas. Estos metadatos están vinculados entre sí, lo que permite a los agentes acceder a la web de forma más inteligente y realizar tareas en nombre de los usuarios. La Web Semántica se considera una puerta de enlace para acceder a los datos entre diferentes aplicaciones y sistemas. Sus aplicaciones son numerosas en publicaciones, blogs y en varios otros campos.
Tim Berners-Lee originalmente expresó la opinión de la Web Semántica de la siguiente manera:
Tengo un sueño para la Web [en el que las computadoras] sean capaces de analizar todos los datos de la Web: el contenido, los enlaces y las transacciones entre las personas y las computadoras. Una "Web Semántica", que debería hacer esto posible, aún no ha surgido, pero cuando lo haga, los mecanismos cotidianos del comercio, la burocracia y nuestra vida diaria serán manejados por máquinas que hablan con máquinas. Los “agentes inteligentes” que la gente ha promocionado durante siglos finalmente se materializarán.
“Sueño con una Web [en la que las computadoras] sean capaces de analizar todos los datos de la Web: contenido, enlaces y transacciones entre personas y computadoras. Una "Web Semántica", que debería hacer esto posible, aún no ha surgido, pero cuando lo haga, el funcionamiento diario del comercio, la administración y nuestra vida diaria será procesado por máquinas que dialogan con otras máquinas. Los "agentes inteligentes" que se han promocionado durante mucho tiempo finalmente se materializarían. "
La mayoría de las tecnologías que ofrece el W3C ya existían antes. Estos se utilizan en diferentes contextos, especialmente aquellos relacionados con la información que abarca un dominio limitado y definido, y donde el intercambio de datos es una necesidad común, como la investigación científica o el intercambio de datos entre organizaciones. Además, han surgido otras tecnologías con propósitos similares, como los microformatos .
El objetivo principal de la Web Semántica es orientar la evolución de la Web para permitir que los usuarios sin intermediarios encuentren, compartan y combinen información con mayor facilidad. Los seres humanos pueden utilizar la web para realizar tareas como encontrar la palabra París para reservar un libro en la biblioteca, encontrar un mapa y reservar un billete de transporte. Sin embargo, las máquinas no pueden realizar todas estas tareas sin la guía humana, ya que las páginas web están diseñadas para ser leídas principalmente por personas. La Web Semántica tiene como objetivo hacer que las páginas sean rastreables tanto por humanos como por máquinas. Esto permitiría llevar a cabo de forma automatizada el tedioso y repetitivo trabajo de recuperación de información, mejorando y consolidando la información en la Web para sus usuarios.
La Web Semántica, como se concibió originalmente, es un sistema que permite a las máquinas "comprender" y responder a solicitudes humanas complejas de acuerdo con su significado. Tal "comprensión" requiere que las fuentes de información relevantes se hayan estructurado semánticamente de antemano. Esta estructura accesible para máquinas permite una capacidad de descubrimiento mucho mayor de lo que es posible simplemente con la web de documentos. El uso de RDF para estructurar estos datos permite aprovechar el rendimiento de la máquina; su capacidad para procesar datos permite estudiar la información obtenida a partir de estos datos para sacar nuevas conclusiones del conocimiento existente. Con la ayuda de RDF, los documentos producidos en HTML se convierten en datos que, a través del trabajo conjunto de máquinas y usuarios, producen nuevos conocimientos.
A menudo, las expresiones " semántica ", " metadatos ", " ontologías " y "Web semántica" se utilizan de forma inconsistente. En particular, son utilizados todos los días por investigadores y profesionales cuya terminología cubre un amplio panorama de tecnologías, conceptos y campos de aplicación. Además, existe confusión entre las tecnologías que se están considerando para implementarlo y el movimiento de la Web Semántica. En un artículo presentado por Gerber, Barnard y Van der Merwe se dibuja el panorama de la Web Semántica y se presenta un breve resumen de términos relacionados y tecnologías habilitadoras. El modelo arquitectónico propuesto por Tim Berners-Lee se utiliza como base para representar el estado de las tecnologías actuales y emergentes.
En el siguiente ejemplo, el texto “Paul Schuster nació en Dresde” en una página web se anotará vinculando a la persona con su lugar de nacimiento. El fragmento de código HTML que se muestra a continuación muestra cómo describir un minigráfico utilizando la sintaxis RDFa con el vocabulario de Schema.org y un identificador de Wikidata :
<div vocab="http://schema.org/" typeof="Person"> <span property="name">Paul Schuster</span> est né à <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731"> <span property="name">Dresde</span>. </span> </div>Este ejemplo define los siguientes cinco triples ( en ), que se muestra en la tortuga formato . Cada triplete representa un borde del gráfico generado: su primer elemento (el sujeto) es el nombre del nodo desde el cual comienza el borde, el segundo elemento (el predicado) indica el tipo de borde y el último (el objeto) es el nombre del nodo de destino o un valor literal (texto, número, etc.).
_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> . _:a <http://schema.org/name> "Paul Schuster" . _:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresde" .Muchos archivos en una computadora se pueden clasificar más o menos en dos categorías: documentos legibles por humanos y datos legibles por máquinas. Los humanos pueden leer documentos como correos electrónicos , informes o folletos. Por otro lado, los datos contenidos en calendarios, libretas de direcciones, listas de lectura u hojas de cálculo son legibles siempre que utilice una aplicación que permita leerlos, buscarlos y transformarlos de diferentes formas.
Actualmente, la World Wide Web se basa principalmente en documentos escritos en lenguaje de marcado de hipertexto (HTML) , es decir, una convención de marcado que se utiliza para codificar texto intercalado con objetos multimedia como imágenes y formularios interactivos. Las etiquetas de metadatos proporcionan un método mediante el cual las computadoras pueden categorizar el contenido de las páginas web; por ejemplo :
<meta name="keywords" content="computing, computer studies, computer" /> <meta name="description" content="Cheap widgets for sale" /> <meta name="author" content="John Doe" />Con HTML y una herramienta de visualización (que podría ser un navegador web u otro "agente de usuario" ), puede crear y presentar una página que muestre artículos a la venta. HTML para una página de catálogo se puede hacer simplemente, el documento que contiene declaraciones como "el título de este documento es 'Gadgets Supermarket'", pero el código HTML no puede indicar de manera inequívoca que, por ejemplo, el número de artículo X586172 es una tabla. con un precio de $ 199 , ni es un producto de consumo. HTML solo puede decir que el rango de texto "X586172" es algo que debe colocarse cerca de "Muebles" y "199 € ", etc. No hay forma de decir que "esto es una página de catálogo", ni siquiera de decir que "Mobiliario" es una especie de título, ni siquiera saber que "199 € " es un precio. No hay forma de expresar que estos elementos de información están vinculados entre sí para describir un elemento discreto , distinto de otros elementos que pueden aparecer en la misma página.
HTML semántico se refiere al uso de etiquetas HTML para insertar información adicional en el documento. Por ejemplo, usar el elemento HTML que deldesigna el contenido eliminado en lugar de strikesimplemente mostrar el texto tachado y solo especificar su formato. El HTML semántico deja el diseño al navegador agregando hojas de estilo en cascada . Pero esta práctica llega a sus límites cuando se trata de especificar la semántica de objetos como los artículos en venta.
Los microformatos también son intentos no oficiales de extender la sintaxis HTML para que una máquina pueda leer marcas semánticas sobre objetos en un documento, como artículos a la venta o contactos (por ejemplo, con hCard ).
La Web Semántica ofrece lenguajes especialmente diseñados para datos: RDF ( Resource Description Framework ), OWL ( Ontology Web Language ) y XML ( eXtensible Markup Language ). HTML describe documentos y los vínculos entre ellos. RDF, OWL y XML, por otro lado, también pueden describir cosas, como personas, reuniones o partes de aviones. Según Tim Berners-Lee, “RDF es para datos lo que HTML es para documentos. RDF le permite vincular datos a una categoría. "
Estas tecnologías se combinan para proporcionar descripciones que complementan o reemplazan el contenido de los documentos web. Así, el contenido puede aparecer en forma de datos descriptivos almacenados en bases de datos accesibles en la Web o mediante etiquetas en documentos (vía HTML o su variante XHTML - XML HTML -). Estos datos se pueden intercalar con XML o, a veces, publicar solo como XML, con el diseño y los datos almacenados por separado. Las descripciones legibles por máquina permiten a los administradores de contenido agregar significado a su contenido, es decir, describir la estructura del conocimiento dentro del contenido. De esta forma, una máquina puede:
A continuación, se muestra un ejemplo de una etiqueta que se utilizaría en una página web no semántica:
<item>cat</item>Codificar información similar en una página web semántica podría verse así:
<item rdf:about="http://dbpedia.org/resource/Cat">Cat</item>Tim Berners-Lee impulsa el surgimiento de una red de datos relacionados ( datos vinculados , en inglés ) o datos web (en francés ) para Giant Global Graph , a diferencia de que la Web es una página HTML basada en la web en todo el mundo. Tim Berners-Lee asume que si en el pasado compartimos documentos, en el futuro compartiremos datos. Su respuesta a la pregunta "¿cómo?" Se basa en tres pilares. Uno, una URL debe apuntar a los datos. Dos, cualquiera que acceda a la URL debería poder recuperar datos. Tres, las relaciones en los datos deben apuntar a otras URL con los datos.
Tim Berners-Lee describió la Web Semántica como un componente de Web 3.0:
La gente sigue preguntando qué es la Web 3.0. Creo que tal vez cuando tenga una superposición de gráficos vectoriales escalables, todo ondulado, plegado y con aspecto borroso, en la Web 2.0 y acceso a una Web semántica integrada en un gran espacio de datos, tendrá acceso a un recurso de datos increíble. .
“La gente pregunta todo el tiempo qué es la Web 3.0. Supongo que cuando tiene una superposición de dibujos vectoriales, todos en ondas y pliegues nebulosos, que describen la Web 2.0 y el acceso a una web semántica incrustada en un enorme espacio de datos, tendrá acceso a una increíble fuente de datos. "
"Web semántica" se utiliza a veces como sinónimo de "Web 3.0", aunque la definición de cada término varía. Como "Web 2.0", "Web 3.0" es un neologismo y una palabra de moda . En el caso de la Web 2.0, el uso del término se debate entre quienes piensan que es un término de marketing sin cambio real y quienes piensan que ha habido una evolución real.
Algunos de los desafíos de la Web Semántica son la inmensidad, la vaguedad, la incertidumbre, la inconsistencia y el engaño. Los sistemas de razonamiento automatizados deberán abordar todas estas preguntas para cumplir con la promesa de la Web Semántica.
Esta lista de desafíos es más ilustrativa que exhaustiva, ya que se centra en los desafíos de la "lógica de unificación" y la capa de "prueba" para la implementación de la Web Semántica. La mayoría de las técnicas mencionadas aquí tendrán que extender el lenguaje OWL ( Web Ontology Language ), por ejemplo, para anotar la probabilidad condicional de un dato. Ésta es un área activa de investigación.
La estandarización de la Web Semántica está supervisada por el W3C .
La expresión “web semántica” se usa a menudo de manera más específica para designar formatos y tecnologías que permitirán que exista. La recopilación, estructuración y recuperación de datos relacionados operará utilizando tecnologías que proporcionarán una descripción formal de conceptos, términos y relaciones dentro de un dominio de conocimiento dado . Estas tecnologías están estandarizadas por el W3C e incluyen en particular:
La pila de Web Semántica es una ilustración para representar la arquitectura de la Web Semántica. Las funciones y relaciones de los componentes se pueden resumir de la siguiente manera:
Los estándares que aún se necesitan para implementar la Web Semántica pasan por el proceso de recomendación de los grupos de trabajo del W3C ( World Wide Web Consortium ). Esto significa que cada nueva recomendación ha estado sujeta a revisión pública. Entonces, las recomendaciones del W3C, que serán ampliamente adoptadas, se convertirán naturalmente en los estándares de la “Web Semántica”.
Aquí está la lista de estándares y recomendaciones principales en las que se basa la Web Semántica:
Aquí están las recomendaciones activas actuales:
Por otro lado, aún quedan por imaginar, aclarar y especificar muchos pasos para implementar una “Web Semántica”. Tim Berners-Lee , a través de su Semantic Web Stack , resume estos pasos a través de las siguientes capas:
A la espera de que se implementen todas estas capas, las tecnologías ya disponibles, como SPARQL , ya permiten ofrecer interoperabilidad con mejor granularidad sobre los datos que la que ofrecen los servicios Web (el W3C además ha retirado la estandarización de los servicios Web sus prioridades ).
El conjunto de fuentes de datos que comparten sus datos con estándares de Web semántica se ha denominado Web de datos (o en inglés “ Linked Open Data ”) para facilitar la adopción por parte del público. La web de datos se basa en tecnologías de datos enlazados que se superponen a las tecnologías de web semántica que ya han sido ampliamente adoptadas. Los datos vinculados son una de las principales tecnologías utilizadas en el movimiento " datos abiertos " en Inglaterra, que tiene como objetivo compartir datos públicos de forma masiva para acelerar la investigación y el comercio. Algunos consideran que el surgimiento de la Web Semántica es el próximo avance tecnológico y, por lo tanto, económico que ya llaman Web 3.0 .
Así pues, el objetivo será en el futuro mejorar el acceso y la utilidad de la Web y los recursos interconectados a través de ella tales como:
Las principales críticas se refieren a la viabilidad total o incluso parcial de la Web Semántica. Cory Doctorow habla de " metacrap " (una valija palabras formadas metadatos y la basura , podemos tratar de llevar a Francés poder por "métamerde"), una crítica que se basa en la observación sarcástica de la conducta humana. Por ejemplo, las personas pueden incluir microdatos parásitos en páginas web para engañar a los motores de la web semántica que confiarán “ingenuamente” en la veracidad de todos los datos. Este fenómeno es bien conocido por engañar: los motores de indexación, como Google , buscan detectar este tipo de manipulación. Peter Gärdenfors y Timo Honkela (en) habían notado que la lógica de las tecnologías de la Web semántica solo cubre una fracción de los fenómenos que afectarán la semántica de la Web.
En 2001, Cory Doctorow hizo una lista de los siete obstáculos supuestamente insuperables para obtener metadatos lo suficientemente confiables para ejecutar una posible Web Semántica. Según él :
También incluye otras razones relacionadas con la obsolescencia de los metadatos:
Cory Doctorow deduce que la investigación sobre un sistema de este tipo solo podría devolver datos obsoletos y parcial o totalmente incorrectos.
La arquitectura, las herramientas y los conceptos mismos de la Web Semántica a menudo han sido criticados, citando que las tecnologías o procesos para mantener la calidad de los datos, introducido por los seres humanos y por lo tanto falible, aún no puede operar a escala. Web . Estos límites son todos problemas nuevos que la investigación está tratando de resolver a través de los desafíos de la Web Semántica . La ciencia web (en) es el nombre que le damos a la "disciplina" que tiene como objetivo resolver los nuevos problemas científicos que saca a la luz la Web. Sin embargo, las tecnologías de web semántica se han adoptado dentro de comunidades especializadas en la implementación de sistemas de información, pero principalmente en sistemas cerrados (ejemplo: intranet ), como en empresas o bibliotecas.
El entusiasmo por la Web Semántica puede verse atenuado por consideraciones como el rechazo a la censura y el deseo de proteger la privacidad . Por ejemplo, actualmente uno puede engañar fácilmente a los analizadores de texto para que usen otras palabras, metáforas o usen imágenes en lugar de palabras. Es mucho más fácil para los gobiernos visualizar, y por lo tanto controlar, la creación de información en línea si utiliza una estructura semántica, porque entonces la información es mucho más fácil de interpretar y posiblemente de bloquear mediante un sistema automatizado. Además, la cuestión también se planteó por el uso de metadatos como FOAF o de Geolocation API (as) , que cuestionan el anonimato de la World Wide Web . Estas preocupaciones hacen de la seguridad de los datos personales un tema activo de investigación, como en el proyecto “ Policy Aware Web ”.
Otro revisor habla de un aumento en el tiempo que lleva crear y publicar contenido debido a la necesidad de producir dos versiones del mismo: una para visualización humana y otra para máquinas. Sin embargo, muchas aplicaciones web ya se enfrentan a este problema al crear un formato legible para un navegador web oa petición de un lector de RSS , como un blog . El desarrollo de microformatos fue una reacción a este tipo de críticas. En su defensa, la Web Semántica probablemente reducirá el esfuerzo asociado con las tareas de recuperación de información y, por lo tanto, compensará el costo adicional de proporcionar un formato compatible para las máquinas.
Una de las primeras soluciones fue utilizar el lenguaje GRDDL , un mecanismo que solo usa el contenido ya presente en una página HTML (con microformatos potencialmente) para extraer RDF de ella. Sin embargo, la multiplicidad y la inestabilidad de los microformatos, así como la dificultad de crear el conversor XSLT para GRDDL, llevaron a especificar RDFa para integrar RDF simple y explícitamente en las páginas HTML . El método RDFa también se integrará directamente en el estándar HTML5 a través de microdatos , lo que simplificará aún más la inserción de datos RDF en un documento.
Esta sección enumera algunos de los muchos proyectos y herramientas que existen dentro del movimiento de la Web Semántica.
El avance de la Web Semántica en todo el mundo es monitoreado por W3C como parte del proyecto de Implementación Avanzada de Web Semántica ( SWAD ). El proyecto SWAD -Europe se llevó a cabo desdeMayo de 2002 a octubre de 2004.
La organización europea que aloja los proyectos del W3C y supervisa el progreso de la Web Semántica es ERCIM ( Consorcio Europeo de Investigación en Informática y Matemáticas ).
La Biblioteca Nacional de Francia está entrando en la Web Semántica a través de su data.bnf.fr proyecto . Este proyecto integra datos producidos en varios formatos, incluidos Intermarc, XML-EAD y Dublin Core , para la biblioteca digital. Los datos se modela y agrupados por el procesamiento automático y publicado en varios RDF normas : RDF-XML, RDF-N3, y RDF-NT. También hay una publicación de datos en JSON . El proyecto utiliza la plataforma de desarrollo semántico CubicWeb .
La Biblioteca Nacional de Francia proporciona así:
En 2013, el proyecto compartió el Premio Stanford a la Innovación en Bibliotecas de Investigación (SPIRL) con Gallica .
Desde 2017, el modelo de datos data.bnf.fr se ha basado en el modelo de referencia conceptual IFLA LRM , lo que le permite navegar por las relaciones entre entidades.
DBpedia es el primer esfuerzo histórico para publicar datos estructurados extraídos de Wikipedia : los datos se extraen de las páginas y en particular de los cuadros de información de Wikipedia publicados en RDF y puestos a disposición en la Web de los datos a través de HTTP y SPARQL bajo la licencia GFDL . .
SemanticPedia es una plataforma para publicar datos de varios proyectos de Wikimedia en francés con el apoyo del Ministerio de Cultura y Comunicación , Inria y Wikimedia France . El equipo de Wimmics desarrolló una versión francesa de DBpedia bajo la responsabilidad de Fabien Gandon en el centro de investigación Inria Sophia Antipolis. Este capítulo de habla francesa se llama DBpedia.fr y contribuye para el francés a la internacionalización de la iniciativa DBpedia extrayendo y publicando datos de los diferentes capítulos lingüísticos de Wikipedia . Este capítulo francés de DBpedia admite muchas aplicaciones. La ministra de Cultura de Francia, Aurélie Filippetti , anunció la19 de noviembre de 2012 que el próximo proyecto se referiría al Wikcionario y sus dos millones de términos.
Wikidata es uno de los proyectos de la Fundación Wikimedia. Su objetivo es poner a disposición de los colaboradores todos los datos estructurados de todos los proyectos de la fundación sin intermediarios.
Wikipedia es uno de los proyectos relacionados con Wikidata. Cada artículo de Wikipedia ahora tiene un identificador único en forma de IRI y es una entidad en la comunidad de Wikidata. Cada entidad está compuesta por varias propiedades con uno o más valores (triples). Estas entidades y propiedades están marcadas con un identificador único (por ejemplo: Q90 es el identificador único de París), lo que hace que la base de datos sea independiente del idioma utilizado. El valor de estas propiedades puede ser otra entidad, pero también una cadena, número, fecha, etc. Los datos así estructurados se pueden reutilizar en varios formatos (XML, JSON, Turtle, etc.) y finalmente se pueden utilizar para alimentar los infoboxes de Wikipedia, evitando así tener que modificarlos manualmente en todos los idiomas ya que cada vez que se modifica Wikidata ., todos los infoboxes se modifican al mismo tiempo.
Los datos de Wikidata tienen licencia CC0 . Por lo tanto, todos los datos compartidos son gratuitos y están abiertos para todo tipo de uso.
Para la Web Semántica, Wikidata es uno de los pocos puntos finales SPARQL conectados en tiempo real a los productores de datos. Esto significa que los cambios en Wikidata impactan inmediatamente en la base de datos RDF y por lo tanto permiten que estos datos se reutilicen en otras aplicaciones a través de SPARQL. En cuanto a su ontología, la estructura se construye a lo largo del tiempo de manera consensuada entre los contribuyentes. Por tanto, la estructura de esta ontología puede cambiar en cualquier momento según las necesidades de los contribuyentes.
AKSW ( Agile Knowledge Engineering and Semantic Web ) es un grupo de investigación alojado por la Cátedra Betriebliche Informationssysteme ( BIS ) del Institut für Informatik ( IFI ) de la Universidad de Leipzig, así como por el Instituto de Computación Aplicada ( InfAI ) . El grupo de investigación AKSW ha lanzado varios proyectos como DBpedia.
Datalift es una plataforma original destinada a la explotación de datos que integra en una única solución open source todas las funciones útiles para la interconexión de datos, desde su captura hasta su publicación final. En Datalift, los datos de entrada son datos brutos procedentes de formatos heterogéneos (bases de datos, CSV, XML, RDF, RDFa, GML, Shapefile ...). Los datos producidos son datos vinculados. La plataforma Datalift participa activamente en la transformación de la Web a la Web de datos .
FOAF ( Friend Of A Friend ) es un vocabulario que usa RDF para describir las relaciones que las personas tienen con otras personas y las “cosas” que las rodean. FOAF es un ejemplo del intento de la Web Semántica de hacer uso de las relaciones dentro de un contexto social.
Comunidades en línea interconectadas semánticamente (SIOC)El SIOC es un vocabulario para describir objetos de uso común en sitios comunitarios y sus relaciones.
La Web de datos ofrece el desarrollo de nuevos usos que concretan la noción de inteligencia colectiva como: