Web semántica

La Web Semántica , o semántica web , es una extensión de la Web estandarizada por el World Wide Web Consortium (W3C). Estos estándares fomentan el uso de formatos de datos estandarizados y protocolos de intercambio en la Web, basados en el modelo Resource Description Framework (RDF).

Algunos se refieren a la Web Semántica como Web 3.0.

Según el W3C, "La Web Semántica proporciona un modelo que permite compartir y reutilizar datos entre múltiples aplicaciones, empresas y grupos de usuarios" . La frase fue acuñada por Tim Berners-Lee (inventor de la Web y director del W3C), quien supervisa el desarrollo de tecnologías comunes de Web Semántica. Lo define como “una red de datos que pueden ser procesados directa e indirectamente por máquinas para ayudar a sus usuarios a crear nuevos conocimientos” . Para lograrlo, la Web Semántica implementa la Web de Datos que consiste en vincular y estructurar información en Internet para simplemente acceder al conocimiento que ya contiene.

Si bien sus detractores han cuestionado su viabilidad, sus promotores argumentan que las aplicaciones realizadas por investigadores de la industria , la biología y las humanidades ya han demostrado la validez de este nuevo concepto. El artículo original de Tim Berners-Lee en 2001 en Scientific American describía una evolución esperada de la web existente a una web semántica, pero eso aún no ha sucedido. En 2006, Tim Berners-Lee y sus colegas dijeron: “Esta simple idea ... permanece en gran parte sin explotar. "

Historia

El concepto de " red semántica modelo " fue acuñado en la década de 1960 por el científico cognitivo Allan Collins , el lingüista Ross Quillian (en) y la psicóloga Elizabeth Loftus y expuesto en diversas publicaciones como una forma de representar el conocimiento estructurado. Aplicado al contexto de Internet, este modelo amplía la red de hipervínculos de páginas web legibles por humanos al insertar metadatos legibles por máquina en las páginas. Estos metadatos están vinculados entre sí, lo que permite a los agentes acceder a la web de forma más inteligente y realizar tareas en nombre de los usuarios. La Web Semántica se considera una puerta de enlace para acceder a los datos entre diferentes aplicaciones y sistemas. Sus aplicaciones son numerosas en publicaciones, blogs y en varios otros campos.

Tim Berners-Lee originalmente expresó la opinión de la Web Semántica de la siguiente manera:

Tengo un sueño para la Web [en el que las computadoras] sean capaces de analizar todos los datos de la Web: el contenido, los enlaces y las transacciones entre las personas y las computadoras. Una "Web Semántica", que debería hacer esto posible, aún no ha surgido, pero cuando lo haga, los mecanismos cotidianos del comercio, la burocracia y nuestra vida diaria serán manejados por máquinas que hablan con máquinas. Los “agentes inteligentes” que la gente ha promocionado durante siglos finalmente se materializarán.

- Tim Berners-Lee, Weaving the Web

“Sueño con una Web [en la que las computadoras] sean capaces de analizar todos los datos de la Web: contenido, enlaces y transacciones entre personas y computadoras. Una "Web Semántica", que debería hacer esto posible, aún no ha surgido, pero cuando lo haga, el funcionamiento diario del comercio, la administración y nuestra vida diaria será procesado por máquinas que dialogan con otras máquinas. Los "agentes inteligentes" que se han promocionado durante mucho tiempo finalmente se materializarían. "

- Tejiendo la Web

La mayoría de las tecnologías que ofrece el W3C ya existían antes. Estos se utilizan en diferentes contextos, especialmente aquellos relacionados con la información que abarca un dominio limitado y definido, y donde el intercambio de datos es una necesidad común, como la investigación científica o el intercambio de datos entre organizaciones. Además, han surgido otras tecnologías con propósitos similares, como los microformatos .

El objetivo principal de la Web Semántica es orientar la evolución de la Web para permitir que los usuarios sin intermediarios encuentren, compartan y combinen información con mayor facilidad. Los seres humanos pueden utilizar la web para realizar tareas como encontrar la palabra París para reservar un libro en la biblioteca, encontrar un mapa y reservar un billete de transporte. Sin embargo, las máquinas no pueden realizar todas estas tareas sin la guía humana, ya que las páginas web están diseñadas para ser leídas principalmente por personas. La Web Semántica tiene como objetivo hacer que las páginas sean rastreables tanto por humanos como por máquinas. Esto permitiría llevar a cabo de forma automatizada el tedioso y repetitivo trabajo de recuperación de información, mejorando y consolidando la información en la Web para sus usuarios.

La Web Semántica, como se concibió originalmente, es un sistema que permite a las máquinas "comprender" y responder a solicitudes humanas complejas de acuerdo con su significado. Tal "comprensión" requiere que las fuentes de información relevantes se hayan estructurado semánticamente de antemano. Esta estructura accesible para máquinas permite una capacidad de descubrimiento mucho mayor de lo que es posible simplemente con la web de documentos. El uso de RDF para estructurar estos datos permite aprovechar el rendimiento de la máquina; su capacidad para procesar datos permite estudiar la información obtenida a partir de estos datos para sacar nuevas conclusiones del conocimiento existente. Con la ayuda de RDF, los documentos producidos en HTML se convierten en datos que, a través del trabajo conjunto de máquinas y usuarios, producen nuevos conocimientos.

A menudo, las expresiones " semántica ", " metadatos ", " ontologías " y "Web semántica" se utilizan de forma inconsistente. En particular, son utilizados todos los días por investigadores y profesionales cuya terminología cubre un amplio panorama de tecnologías, conceptos y campos de aplicación. Además, existe confusión entre las tecnologías que se están considerando para implementarlo y el movimiento de la Web Semántica. En un artículo presentado por Gerber, Barnard y Van der Merwe se dibuja el panorama de la Web Semántica y se presenta un breve resumen de términos relacionados y tecnologías habilitadoras. El modelo arquitectónico propuesto por Tim Berners-Lee se utiliza como base para representar el estado de las tecnologías actuales y emergentes.

Soluciones llevadas por la Web Semántica a los límites del HTML

Ejemplo

En el siguiente ejemplo, el texto “Paul Schuster nació en Dresde” en una página web se anotará vinculando a la persona con su lugar de nacimiento. El fragmento de código HTML que se muestra a continuación muestra cómo describir un minigráfico utilizando la sintaxis RDFa con el vocabulario de Schema.org y un identificador de Wikidata :

<div vocab="http://schema.org/" typeof="Person"> <span property="name">Paul Schuster</span> est né à <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731"> <span property="name">Dresde</span>. </span> </div>

Este ejemplo define los siguientes cinco triples ( en ), que se muestra en la tortuga formato . Cada triplete representa un borde del gráfico generado: su primer elemento (el sujeto) es el nombre del nodo desde el cual comienza el borde, el segundo elemento (el predicado) indica el tipo de borde y el último (el objeto) es el nombre del nodo de destino o un valor literal (texto, número, etc.).

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> . _:a <http://schema.org/name> "Paul Schuster" . _:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresde" .

Limitaciones de HTML

Muchos archivos en una computadora se pueden clasificar más o menos en dos categorías: documentos legibles por humanos y datos legibles por máquinas. Los humanos pueden leer documentos como correos electrónicos , informes o folletos. Por otro lado, los datos contenidos en calendarios, libretas de direcciones, listas de lectura u hojas de cálculo son legibles siempre que utilice una aplicación que permita leerlos, buscarlos y transformarlos de diferentes formas.

Actualmente, la World Wide Web se basa principalmente en documentos escritos en lenguaje de marcado de hipertexto (HTML) , es decir, una convención de marcado que se utiliza para codificar texto intercalado con objetos multimedia como imágenes y formularios interactivos. Las etiquetas de metadatos proporcionan un método mediante el cual las computadoras pueden categorizar el contenido de las páginas web; por ejemplo :

Con HTML y una herramienta de visualización (que podría ser un navegador web u otro "agente de usuario" ), puede crear y presentar una página que muestre artículos a la venta. HTML para una página de catálogo se puede hacer simplemente, el documento que contiene declaraciones como "el título de este documento es 'Gadgets Supermarket'", pero el código HTML no puede indicar de manera inequívoca que, por ejemplo, el número de artículo X586172 es una tabla. con un precio de $ 199 , ni es un producto de consumo. HTML solo puede decir que el rango de texto "X586172" es algo que debe colocarse cerca de "Muebles" y "199 € ", etc. No hay forma de decir que "esto es una página de catálogo", ni siquiera de decir que "Mobiliario" es una especie de título, ni siquiera saber que "199 € " es un precio. No hay forma de expresar que estos elementos de información están vinculados entre sí para describir un elemento discreto , distinto de otros elementos que pueden aparecer en la misma página.

HTML semántico se refiere al uso de etiquetas HTML para insertar información adicional en el documento. Por ejemplo, usar el elemento HTML que deldesigna el contenido eliminado en lugar de strikesimplemente mostrar el texto tachado y solo especificar su formato. El HTML semántico deja el diseño al navegador agregando hojas de estilo en cascada . Pero esta práctica llega a sus límites cuando se trata de especificar la semántica de objetos como los artículos en venta.

Los microformatos también son intentos no oficiales de extender la sintaxis HTML para que una máquina pueda leer marcas semánticas sobre objetos en un documento, como artículos a la venta o contactos (por ejemplo, con hCard ).

Soluciones web semántica

La Web Semántica ofrece lenguajes especialmente diseñados para datos: RDF ( Resource Description Framework ), OWL ( Ontology Web Language ) y XML ( eXtensible Markup Language ). HTML describe documentos y los vínculos entre ellos. RDF, OWL y XML, por otro lado, también pueden describir cosas, como personas, reuniones o partes de aviones. Según Tim Berners-Lee, “RDF es para datos lo que HTML es para documentos. RDF le permite vincular datos a una categoría. "

Estas tecnologías se combinan para proporcionar descripciones que complementan o reemplazan el contenido de los documentos web. Así, el contenido puede aparecer en forma de datos descriptivos almacenados en bases de datos accesibles en la Web o mediante etiquetas en documentos (vía HTML o su variante XHTML - XML HTML -). Estos datos se pueden intercalar con XML o, a veces, publicar solo como XML, con el diseño y los datos almacenados por separado. Las descripciones legibles por máquina permiten a los administradores de contenido agregar significado a su contenido, es decir, describir la estructura del conocimiento dentro del contenido. De esta forma, una máquina puede:

procesar el conocimiento en sí mismo, en lugar del texto, utilizando procesos similares al razonamiento deductivo humano y la inferencia ,
obtener resultados más significativos mientras que ayuda a las computadoras realizan la recogida de información automatizado y así facilitar la investigación .

A continuación, se muestra un ejemplo de una etiqueta que se utilizaría en una página web no semántica:

Codificar información similar en una página web semántica podría verse así:

Tim Berners-Lee impulsa el surgimiento de una red de datos relacionados ( datos vinculados , en inglés ) o datos web (en francés ) para Giant Global Graph , a diferencia de que la Web es una página HTML basada en la web en todo el mundo. Tim Berners-Lee asume que si en el pasado compartimos documentos, en el futuro compartiremos datos. Su respuesta a la pregunta "¿cómo?" Se basa en tres pilares. Uno, una URL debe apuntar a los datos. Dos, cualquiera que acceda a la URL debería poder recuperar datos. Tres, las relaciones en los datos deben apuntar a otras URL con los datos.

Web 3.0

Tim Berners-Lee describió la Web Semántica como un componente de Web 3.0:

La gente sigue preguntando qué es la Web 3.0. Creo que tal vez cuando tenga una superposición de gráficos vectoriales escalables, todo ondulado, plegado y con aspecto borroso, en la Web 2.0 y acceso a una Web semántica integrada en un gran espacio de datos, tendrá acceso a un recurso de datos increíble. .

- Tim Berners-Lee , Una web 'más revolucionaria', 2006, Victoria Shannon

“La gente pregunta todo el tiempo qué es la Web 3.0. Supongo que cuando tiene una superposición de dibujos vectoriales, todos en ondas y pliegues nebulosos, que describen la Web 2.0 y el acceso a una web semántica incrustada en un enorme espacio de datos, tendrá acceso a una increíble fuente de datos. "

- Una web 'más revolucionaria', 2006, Victoria Shannon

"Web semántica" se utiliza a veces como sinónimo de "Web 3.0", aunque la definición de cada término varía. Como "Web 2.0", "Web 3.0" es un neologismo y una palabra de moda . En el caso de la Web 2.0, el uso del término se debate entre quienes piensan que es un término de marketing sin cambio real y quienes piensan que ha habido una evolución real.

Los desafíos

Algunos de los desafíos de la Web Semántica son la inmensidad, la vaguedad, la incertidumbre, la inconsistencia y el engaño. Los sistemas de razonamiento automatizados deberán abordar todas estas preguntas para cumplir con la promesa de la Web Semántica.

Inmensidad: la World Wide Web contiene varios miles de millones de páginas . La ontología de la terminología médica SNOMED CT (en) solo contiene 370.000 nombres de clases, y ninguna tecnología existente ha sido capaz de eliminar todos los duplicados del punto de vista semántico de esta ontología. Con el advenimiento de la Web Semántica, todos los sistemas de razonamiento automatizados tendrán que lidiar con una gran cantidad de parámetros .
Imprecisión: hay nociones imprecisas como "joven" o "grande". Esto se debe a la vaguedad de las consultas de los usuarios que se alinean con los términos utilizados por los proveedores de contenido. Los proveedores con bases de conocimiento superpuestas, sin embargo, recrean diferentes conceptos con diferencias sutiles. La lógica difusa es la técnica más común para lidiar con la vaguedad.
Incertidumbre: son conceptos precisos con valores inciertos. Por ejemplo, un paciente puede presentar un conjunto de síntomas que corresponden a varios diagnósticos diferentes, cada uno con una probabilidad diferente. Las técnicas de razonamiento probabilístico se utilizan generalmente para lidiar con la incertidumbre.
Inconsistencia: estas son contradicciones lógicas que inevitablemente surgirán durante el desarrollo de grandes ontologías y cuando se combinan ontologías de fuentes independientes. El razonamiento deductivo no logra afrontar esta inconsistencia porque de una contradicción se puede deducir cualquier cosa ( principio de explosión ). El razonamiento revisable y el razonamiento paraconsistente son dos técnicas que pueden usarse para lidiar con la inconsistencia.
Engaño: ocurre cuando el productor de información desea voluntariamente engañar al consumidor de este tipo de información. Actualmente se utilizan técnicas criptográficas para hacer frente a esta amenaza y así garantizar la integridad de los datos .

Esta lista de desafíos es más ilustrativa que exhaustiva, ya que se centra en los desafíos de la "lógica de unificación" y la capa de "prueba" para la implementación de la Web Semántica. La mayoría de las técnicas mencionadas aquí tendrán que extender el lenguaje OWL ( Web Ontology Language ), por ejemplo, para anotar la probabilidad condicional de un dato. Ésta es un área activa de investigación.

Especificación

La estandarización de la Web Semántica está supervisada por el W3C .

Cuadro de referencia

La expresión “web semántica” se usa a menudo de manera más específica para designar formatos y tecnologías que permitirán que exista. La recopilación, estructuración y recuperación de datos relacionados operará utilizando tecnologías que proporcionarán una descripción formal de conceptos, términos y relaciones dentro de un dominio de conocimiento dado . Estas tecnologías están estandarizadas por el W3C e incluyen en particular:

Marco de descripción de recursos (RDF)
Esquema RDF (RDFS)
Sistema simple de organización del conocimiento (SKOS)
SPARQL
Notación3 (N3)
N-Triples (en)
Tortuga
Lenguaje de ontología web (OWL)
Formato de intercambio de reglas (RIF)

La pila de Web Semántica es una ilustración para representar la arquitectura de la Web Semántica. Las funciones y relaciones de los componentes se pueden resumir de la siguiente manera:

El XML proporciona una sintaxis básica para la estructura del contenido dentro de los documentos, pero no describe la semántica del documento. XML no es actualmente un componente necesario de las tecnologías de Web Semántica. En la mayoría de los casos, existen sintaxis alternativas como Turtle . Turtle es un estándar de facto porque es menos detallado que XML, pero no se eligió mediante un proceso de estandarización formal.
El XSD es un lenguaje de descripción de formato de documento XML para definir la estructura y el tipo de contenido de un documento XML. Esta definición permite, en particular, comprobar la validez de este documento.
El RDF es un lenguaje simple para expresar modelos de datos como objetos ( "recursos" ) y sus relaciones. Un modelo basado en RDF se puede representar mediante varias sintaxis de intercambio, por ejemplo, RDF / XML, N3 , Turtle y RDFa . RDF es un estándar fundamental de la Web Semántica.
RDF Schema extiende RDF y su vocabulario para poder estructurar propiedades y clases dentro de un recurso descrito en RDF.
OWL agrega más vocabulario para describir propiedades y clases: como con las relaciones entre clases, cardinalidad (por ejemplo, "exactamente una"), igualdad, tipificación de propiedades, características de propiedades (por ejemplo, simetría), etc.
SPARQL (pronunciado sparkle ; en inglés : "spark") es un lenguaje de consulta y un protocolo que permite buscar, agregar, modificar o eliminar datos RDF disponibles en la Web a través de Internet .

Progreso

Los estándares que aún se necesitan para implementar la Web Semántica pasan por el proceso de recomendación de los grupos de trabajo del W3C ( World Wide Web Consortium ). Esto significa que cada nueva recomendación ha estado sujeta a revisión pública. Entonces, las recomendaciones del W3C, que serán ampliamente adoptadas, se convertirán naturalmente en los estándares de la “Web Semántica”.

Aquí está la lista de estándares y recomendaciones principales en las que se basa la Web Semántica:

Aquí están las recomendaciones activas actuales:

RIF ( Rule Interchange Format ) es la capa de reglas en la Pila de Web Semántica .

Por otro lado, aún quedan por imaginar, aclarar y especificar muchos pasos para implementar una “Web Semántica”. Tim Berners-Lee , a través de su Semantic Web Stack , resume estos pasos a través de las siguientes capas:

Capa lógica de unificación
Capa de prueba
Capa de confianza / integridad
Capa de criptografía

A la espera de que se implementen todas estas capas, las tecnologías ya disponibles, como SPARQL , ya permiten ofrecer interoperabilidad con mejor granularidad sobre los datos que la que ofrecen los servicios Web (el W3C además ha retirado la estandarización de los servicios Web sus prioridades ).

El conjunto de fuentes de datos que comparten sus datos con estándares de Web semántica se ha denominado Web de datos (o en inglés “ Linked Open Data ”) para facilitar la adopción por parte del público. La web de datos se basa en tecnologías de datos enlazados que se superponen a las tecnologías de web semántica que ya han sido ampliamente adoptadas. Los datos vinculados son una de las principales tecnologías utilizadas en el movimiento " datos abiertos " en Inglaterra, que tiene como objetivo compartir datos públicos de forma masiva para acelerar la investigación y el comercio. Algunos consideran que el surgimiento de la Web Semántica es el próximo avance tecnológico y, por lo tanto, económico que ya llaman Web 3.0 .

Así pues, el objetivo será en el futuro mejorar el acceso y la utilidad de la Web y los recursos interconectados a través de ella tales como:

Servidores que exponen datos mediante RDF y SPARQL . Existen varios convertidores RDF para diversas aplicaciones. Por ejemplo, un servidor puede convertir los datos contenidos en una base de datos relacional sin afectar su funcionamiento y así hacer que los datos estén disponibles en RDF y responder a consultas SPARQL.
Documentos "etiquetados" con información semántica (una extensión de las etiquetas <meta>HTML utilizadas en las páginas web permite proporcionar información a los motores de búsqueda web mediante rastreadores ). Por lo tanto, el contenido contiene información legible por máquina relacionada con el documento, como el creador, el título, la descripción, etc. Esta información también puede contener metadatos que representan un conjunto de hechos (como otros recursos y servicios relacionados con el sitio). Tenga en cuenta que todo se puede identificar a través de un URI ( Uniform Resource Identifier ) y, por lo tanto, se puede describir, para permitir que la web semántica razone sobre animales, personas, lugares, ideas, etc. Estas etiquetas semánticas o etiquetas a menudo se generan automáticamente, en lugar de manualmente.
El vocabulario de metadatos compartidos ( ontologías ) es un repositorio entre este vocabulario que permite a los creadores de documentos saber cómo marcar sus documentos semánticamente para que los agentes puedan utilizar la información contenida en los metadatos proporcionados.
Agentes automatizados que realizan las tareas de los usuarios de la web semántica utilizando estos datos estructurados y disponibles.
Los servicios web (a menudo a sus propios agentes ) Proporcionarán información precisa a los agentes, por ejemplo, un servicio de reputación que tiene un agente puede preguntar si algunas tiendas en línea tienen buena o mala reputación y verificarla.

Observaciones escépticas

Viabilidad práctica

Las principales críticas se refieren a la viabilidad total o incluso parcial de la Web Semántica. Cory Doctorow habla de " metacrap " (una valija palabras formadas metadatos y la basura , podemos tratar de llevar a Francés poder por "métamerde"), una crítica que se basa en la observación sarcástica de la conducta humana. Por ejemplo, las personas pueden incluir microdatos parásitos en páginas web para engañar a los motores de la web semántica que confiarán “ingenuamente” en la veracidad de todos los datos. Este fenómeno es bien conocido por engañar: los motores de indexación, como Google , buscan detectar este tipo de manipulación. Peter Gärdenfors y Timo Honkela (en) habían notado que la lógica de las tecnologías de la Web semántica solo cubre una fracción de los fenómenos que afectarán la semántica de la Web.

En 2001, Cory Doctorow hizo una lista de los siete obstáculos supuestamente insuperables para obtener metadatos lo suficientemente confiables para ejecutar una posible Web Semántica. Según él :

La gente miente.
La gente es perezosa.
La gente es estúpida.
Es difícil describirse a sí mismo.
Las clasificaciones no son neutrales.
La unidad de medida elegida influye en los resultados.
Hay muchas formas de describir lo mismo.

También incluye otras razones relacionadas con la obsolescencia de los metadatos:

Los datos pueden volverse falsos con el tiempo.
Los datos no pueden incorporar nuevas ideas.

Cory Doctorow deduce que la investigación sobre un sistema de este tipo solo podría devolver datos obsoletos y parcial o totalmente incorrectos.

La arquitectura, las herramientas y los conceptos mismos de la Web Semántica a menudo han sido criticados, citando que las tecnologías o procesos para mantener la calidad de los datos, introducido por los seres humanos y por lo tanto falible, aún no puede operar a escala. Web . Estos límites son todos problemas nuevos que la investigación está tratando de resolver a través de los desafíos de la Web Semántica . La ciencia web (en) es el nombre que le damos a la "disciplina" que tiene como objetivo resolver los nuevos problemas científicos que saca a la luz la Web. Sin embargo, las tecnologías de web semántica se han adoptado dentro de comunidades especializadas en la implementación de sistemas de información, pero principalmente en sistemas cerrados (ejemplo: intranet ), como en empresas o bibliotecas.

Censura y privacidad

El entusiasmo por la Web Semántica puede verse atenuado por consideraciones como el rechazo a la censura y el deseo de proteger la privacidad . Por ejemplo, actualmente uno puede engañar fácilmente a los analizadores de texto para que usen otras palabras, metáforas o usen imágenes en lugar de palabras. Es mucho más fácil para los gobiernos visualizar, y por lo tanto controlar, la creación de información en línea si utiliza una estructura semántica, porque entonces la información es mucho más fácil de interpretar y posiblemente de bloquear mediante un sistema automatizado. Además, la cuestión también se planteó por el uso de metadatos como FOAF o de Geolocation API (as) , que cuestionan el anonimato de la World Wide Web . Estas preocupaciones hacen de la seguridad de los datos personales un tema activo de investigación, como en el proyecto “ Policy Aware Web ”.

Formatos de doble salida

Otro revisor habla de un aumento en el tiempo que lleva crear y publicar contenido debido a la necesidad de producir dos versiones del mismo: una para visualización humana y otra para máquinas. Sin embargo, muchas aplicaciones web ya se enfrentan a este problema al crear un formato legible para un navegador web oa petición de un lector de RSS , como un blog . El desarrollo de microformatos fue una reacción a este tipo de críticas. En su defensa, la Web Semántica probablemente reducirá el esfuerzo asociado con las tareas de recuperación de información y, por lo tanto, compensará el costo adicional de proporcionar un formato compatible para las máquinas.

Una de las primeras soluciones fue utilizar el lenguaje GRDDL , un mecanismo que solo usa el contenido ya presente en una página HTML (con microformatos potencialmente) para extraer RDF de ella. Sin embargo, la multiplicidad y la inestabilidad de los microformatos, así como la dificultad de crear el conversor XSLT para GRDDL, llevaron a especificar RDFa para integrar RDF simple y explícitamente en las páginas HTML . El método RDFa también se integrará directamente en el estándar HTML5 a través de microdatos , lo que simplificará aún más la inserción de datos RDF en un documento.

Proyectos

Esta sección enumera algunos de los muchos proyectos y herramientas que existen dentro del movimiento de la Web Semántica.

Europa: ERCIM

El avance de la Web Semántica en todo el mundo es monitoreado por W3C como parte del proyecto de Implementación Avanzada de Web Semántica ( SWAD ). El proyecto SWAD -Europe se llevó a cabo desdeMayo de 2002 a octubre de 2004.

La organización europea que aloja los proyectos del W3C y supervisa el progreso de la Web Semántica es ERCIM ( Consorcio Europeo de Investigación en Informática y Matemáticas ).

Proyecto Data.bnf.fr de la Biblioteca Nacional de Francia

La Biblioteca Nacional de Francia está entrando en la Web Semántica a través de su data.bnf.fr proyecto . Este proyecto integra datos producidos en varios formatos, incluidos Intermarc, XML-EAD y Dublin Core , para la biblioteca digital. Los datos se modela y agrupados por el procesamiento automático y publicado en varios RDF normas : RDF-XML, RDF-N3, y RDF-NT. También hay una publicación de datos en JSON . El proyecto utiliza la plataforma de desarrollo semántico CubicWeb .

La Biblioteca Nacional de Francia proporciona así:

URI de los recursos gracias a identificadores perennes, asignados según el mecanismo ARK que permite acceder a todos los recursos de la biblioteca.
para cada recurso, un conjunto de metadatos asociados con la URI del recurso en forma de RDF se triplica, de acuerdo con las tecnologías de datos abiertos vinculados . Estos metadatos se pueden recuperar en cada página (exportación) y para toda la base de datos (volcado). También se pueden consultar a través de una consola Sparql.

En 2013, el proyecto compartió el Premio Stanford a la Innovación en Bibliotecas de Investigación (SPIRL) con Gallica .

Desde 2017, el modelo de datos data.bnf.fr se ha basado en el modelo de referencia conceptual IFLA LRM , lo que le permite navegar por las relaciones entre entidades.

DBpedia y SemanticPedia

DBpedia es el primer esfuerzo histórico para publicar datos estructurados extraídos de Wikipedia : los datos se extraen de las páginas y en particular de los cuadros de información de Wikipedia publicados en RDF y puestos a disposición en la Web de los datos a través de HTTP y SPARQL bajo la licencia GFDL . .

SemanticPedia es una plataforma para publicar datos de varios proyectos de Wikimedia en francés con el apoyo del Ministerio de Cultura y Comunicación , Inria y Wikimedia France . El equipo de Wimmics desarrolló una versión francesa de DBpedia bajo la responsabilidad de Fabien Gandon en el centro de investigación Inria Sophia Antipolis. Este capítulo de habla francesa se llama DBpedia.fr y contribuye para el francés a la internacionalización de la iniciativa DBpedia extrayendo y publicando datos de los diferentes capítulos lingüísticos de Wikipedia . Este capítulo francés de DBpedia admite muchas aplicaciones. La ministra de Cultura de Francia, Aurélie Filippetti , anunció la19 de noviembre de 2012 que el próximo proyecto se referiría al Wikcionario y sus dos millones de términos.

Wikidata

Wikidata es uno de los proyectos de la Fundación Wikimedia. Su objetivo es poner a disposición de los colaboradores todos los datos estructurados de todos los proyectos de la fundación sin intermediarios.

Wikipedia es uno de los proyectos relacionados con Wikidata. Cada artículo de Wikipedia ahora tiene un identificador único en forma de IRI y es una entidad en la comunidad de Wikidata. Cada entidad está compuesta por varias propiedades con uno o más valores (triples). Estas entidades y propiedades están marcadas con un identificador único (por ejemplo: Q90 es el identificador único de París), lo que hace que la base de datos sea independiente del idioma utilizado. El valor de estas propiedades puede ser otra entidad, pero también una cadena, número, fecha, etc. Los datos así estructurados se pueden reutilizar en varios formatos (XML, JSON, Turtle, etc.) y finalmente se pueden utilizar para alimentar los infoboxes de Wikipedia, evitando así tener que modificarlos manualmente en todos los idiomas ya que cada vez que se modifica Wikidata ., todos los infoboxes se modifican al mismo tiempo.

Los datos de Wikidata tienen licencia CC0 . Por lo tanto, todos los datos compartidos son gratuitos y están abiertos para todo tipo de uso.

Para la Web Semántica, Wikidata es uno de los pocos puntos finales SPARQL conectados en tiempo real a los productores de datos. Esto significa que los cambios en Wikidata impactan inmediatamente en la base de datos RDF y por lo tanto permiten que estos datos se reutilicen en otras aplicaciones a través de SPARQL. En cuanto a su ontología, la estructura se construye a lo largo del tiempo de manera consensuada entre los contribuyentes. Por tanto, la estructura de esta ontología puede cambiar en cualquier momento según las necesidades de los contribuyentes.

AKSW

AKSW ( Agile Knowledge Engineering and Semantic Web ) es un grupo de investigación alojado por la Cátedra Betriebliche Informationssysteme ( BIS ) del Institut für Informatik ( IFI ) de la Universidad de Leipzig, así como por el Instituto de Computación Aplicada ( InfAI ) . El grupo de investigación AKSW ha lanzado varios proyectos como DBpedia.

Datalift

Datalift es una plataforma original destinada a la explotación de datos que integra en una única solución open source todas las funciones útiles para la interconexión de datos, desde su captura hasta su publicación final. En Datalift, los datos de entrada son datos brutos procedentes de formatos heterogéneos (bases de datos, CSV, XML, RDF, RDFa, GML, Shapefile ...). Los datos producidos son datos vinculados. La plataforma Datalift participa activamente en la transformación de la Web a la Web de datos .

Proyectos de ontología

FOAF

FOAF ( Friend Of A Friend ) es un vocabulario que usa RDF para describir las relaciones que las personas tienen con otras personas y las “cosas” que las rodean. FOAF es un ejemplo del intento de la Web Semántica de hacer uso de las relaciones dentro de un contexto social.

Comunidades en línea interconectadas semánticamente (SIOC)

El SIOC es un vocabulario para describir objetos de uso común en sitios comunitarios y sus relaciones.

Otro

La Web de datos ofrece el desarrollo de nuevos usos que concretan la noción de inteligencia colectiva como:

Los marcadores sociales .
Los wikis semánticos , que permiten crear contenido especificando su significado y caracterizando su relación a través de una especie de sintaxis wiki .

Notas y referencias

(fr) Este artículo está tomado parcial o totalmente del artículo de Wikipedia en inglés titulado " Web semántica " ( consulte la lista de autores ) .

"Buscar motor - Definiciones y explicaciones " , en techno-science.net (visitada 22 de de junio de, 2021 )
(in) "XML and Web Standards W3C Semantic Timeline" (versión del 26 de octubre de 2019 en Internet Archive ) ,4 de febrero de 2012.
(en) “ W3C Web Semántica Actividad ” , la World Wide Web Consortium (W3C),7 de noviembre de 2011(consultado el 26 de noviembre de 2011 ) .
(en) Tim Berners-Lee , James Hendler y Ora Lassila, " The Semantic Web " , Revista Scientific American ,17 de mayo de 2001( leído en línea , consultado el 26 de marzo de 2008 ).
(en) Lee Feigenbaum, " La Web semántica en acción " , Scientific American ,1 st de mayo de de 2007(consultado el 24 de febrero de 2010 ) .
(en) Berners-Lee, Tim " The Semantic Web " , Scientific American ,1 st de mayo de de 2001(consultado el 13 de marzo de 2008 ) .
(en) Nigel Shadbolt , Wendy Hall, Tim Berners-Lee, " La web semántica revisada " , IEEE Intelligent Systems ,2006(consultado el 13 de abril de 2007 ) .
(en) Allan M. Collins y R. Quillian, " Tiempo de recuperación de la memoria semántica " , Diario de aprendizaje verbal y comportamiento verbal , robo. 8, n o 21969, p. 240–247 ( PMID 615603750 , DOI 10.1016 / S0022-5371 (69) 80069-1 ).
(en) Allan Collins y Ross Quillian, " ¿El tamaño afecta el tiempo de categorización de categorías? » , Revista de aprendizaje verbal y conducta verbal , vol. 9, n o 4,1970, p. 432–438 ( DOI 10.1016 / S0022-5371 (70) 80084-6 ).
(en) Allan Mr Allan Collins y Elizabeth F. Loftus, " Una teoría de activación-difusión del procesamiento semántico " , Psychological Review , vol. 82, n o 6,1975, p. 407–428 ( DOI 10.1037 / 0033-295X.82.6.407 ).
(in) MR Quillian , " Conceptos de palabras: una teoría y simulación de algunas capacidades semánticas básicas " , Behavioural Science , vol. 12, n o 5,1967, p. 410–430 ( PMID 6059773 , DOI 10.1002 / bs.3830120511 ).
(in) Semantic memory | libro: Marvin Minsky (editor): procesamiento de información semántica, MIT Press, Cambridge, Massachusetts ,1988.
(en) Tim Berners-Lee , Fischetti, Mark, Weaving the Web , HarperSanFrancisco ,1999( ISBN 978-0-06-251587-2 ) , capítulo 12.
Yannick Maignien, "Los problemas de la web semántica" , en Marcello Vitali-Rosati , Michael E. Sinatra, Prácticas de publicación digital , Montreal, Presses de l'Université de Montréal ,2014, 224 p. ( ISBN 9782760632035 , leer en línea ) , pág. 77-94.
(in) Gerber, AJ Barnard, A, & Van der Merwe, Alta (2006) "Un modelo de estado de Web semántica, diseño integrado y tecnología de procesos" Número especial: ITDP, 2006.
(en) Gerber, Aurona; Van der Merwe, Alta; Barnard, Andries (2008) “Una arquitectura de Web Semántica Funcional” European Semantic Web Conference 2008 ESWC'08, Tenerife, junio de 2008.
(in) Alineación, estilos de fuente y reglas horizontales , especificación HTML 4.01 , 24 de diciembre de 1999.
Tim Berners-Lee, " La web cambiará de dimensión ", The Search , n o 413,2007, p. 34.
(en) Artem Chebotko y Lu Shiyong, "Consultando la web semántica: un enfoque eficiente utilizando bases de datos relacionales" LAP Lambert Academic Publishing , ( ISBN 978-3-8383-0264-5 ) , en 2009.
" Blog de Tim Berners Lee " .
(en) Victoria Shannon, “ A 'más revolucionaria' Web ” , International Herald Tribune ,26 de junio de 2006(consultado el 24 de mayo de 2006 ) .
palabra de moda, especialmente en el campo de la tecnología, más o menos sin sentido
http://www.worldwidewebsize.com ].
(in) " Razonamiento de incertidumbre para la World Wide Web " en www.w3.org , Grupo Incubadora para el razonamiento de incertidumbre para la World Wide Web (URW3-XG) 2008(visitada 1 st 07 2012 ) .
(in) Thomas Lukasiewicz y Umberto Straccia, " Manejo de la incertidumbre y la vaguedad en las lógicas de descripción para la Web Semántica " , Journal of Web Semantics , vol. 6, n o 4,Noviembre de 2008, p. 291-308 ( leer en línea ).
(en) Estándares de Web Semántica publicados por el W3C .
(in) " Descripción general del lenguaje de ontología web OWL " , Consorcio World Wide Web (W3C)10 de febrero de 2004(consultado el 26 de noviembre de 2011 ) .
(en) " tutorial RDF " , D r Leslie Sikos (visitada 05 de julio 2011 ) .
(En) " Marco de descripción de recursos (RDF) " , World Wide Web Consortium .
(en) " sitios web estándar " , D r Leslie Sikos (visitada 5 de julio de 2011 ) .
(en) Allemang, D. Hendler, J., RDF - La base de la Web Semántica ; en: Web Semántica para la Ontologist de Trabajo ( 2 ª ed. ) , Morgan Kaufmann,2011( DOI 10.1016 / B978-0-12-385965-5.10003-2 ).
(en) Jim Rapoza, " SPARQL hará que la Web brille " , eWeek (en) ,2 de mayo de 2006(consultado el 17 de enero de 2007 ) .
“ La designación“ Recomendación del W3C ”significa que un documento ha sido sometido a revisión pública y que se ha distribuido entre las organizaciones miembros del W3C para su revisión. " (Versión del 5 de agosto de 2012 en Internet Archive ) .
" W3C publica recomendaciones de RDF y OWL " , en w3.org (consultado el 13 de julio de 2021 )
Editorial JDN, " ¿Qué es Web 3.0?" » , En journal du net.fr ,29 de enero de 2019(consultado el 5 de febrero de 2021 )
Jean-François Ruiz, " Desde el ADN de la Web 2.0 hasta la ruptura de la Web 3.0 a través de la Web semántica, incluso Dædalus se perdería en el Webyrinth ... " , en Webdeux.info ,30 de marzo de 2006(consultado el 5 de febrero de 2021 )
(en) ¿Qué web semántica? .
(in) Peter Gärdenfors , " Cómo hacer que la Web semántica sea más semántica " (Ontología formal en sistemas de información: Actas de la tercera conferencia internacional (TIME-2004)), Fronteras en inteligencia artificial y aplicaciones , IOS Press,2004, p. 17–34.
(in) Timo Honkela, City Könönen Tiina-Knuutila Lindh y Sanna-Mari Paukkeri, " Simulando procesos de formación y comunicación de conceptos " , Journal of Economic Methodology ,2008.
"" La ontología está sobrevalorada ", de Clay Shirky, traducción de Christophe Ducamp" (versión fechada el 28 de junio de 2008 en Internet Archive ) .
(en) James Hendler, Nigel Shadbolt, Wendy Hall, Tim Berners-Lee y Daniel Weitzner. 2008. “Ciencia web: un enfoque interdisciplinario para comprender la web” Comunicación ACM 51, 7 (julio de 2008), 60-69. DOI : 10.1145 / 1364782.1364798 .
(in) Ivan Herman, " State of the Semantic Web " , Semantic Days 2007 ,2007(consultado el 26 de julio de 2007 ) .
www.policyawareweb.org .
http://data.bnf.fr/semanticweb
(in) " 2013 Prizes " , en Stanford Libraries (consultado el 26 de septiembre de 2020 ) .
Ejemplo del sitio DBpedia.fr .
" DBpedia FR " en fr.dbpedia.org (consultado el 3 de abril de 2017 ) .
Camille Gévaudan, " Wikipedia perdonará a los robots ", Liberation ,21 de noviembre de 2012( lea en línea , consultado el 19 de mayo de 2017 ).
AKSW ( Ingeniería del conocimiento ágil y Web semántica ) .
http://www.datalift.fr

Ver también

enlaces externos

(es) Sitio oficial de la Web Semántica, W3C .
Collins AM y Quillian M. R, Tiempo de recuperación de la memoria semántica , 1969.
Julien Plu, Introducción a la Web Semántica ,abril 2011.
¿Por qué y cómo se ha vuelto digital el mundo? Un resumen de la historia de la informática, INRIA, 2010. Video educativo de unos 24 minutos para estudiantes de secundaria. Presentación de la Web Semántica a cargo de Rose Dieng-Kuntz ; inicio: 15 min.

Bibliografía

Fabien Gandon , Catherine Faron Zucker y Olivier Corby , The Semantic Web: How to Link Data and Patterns on the Web? , Dunod ,1 st de enero de 2012( ISBN 978-2-10-057294-6 y 2-10-057294-6 , OCLC 795501050 )