Y por si fuera poco, toma Semántica.

Y por si fuera poco, toma Semántica.

Empezare diciendo que quien iba a pensar que la asignatura de lenguaje durante mi paso por la EGB -si EGB- seria el cimiento para abordar ciertos problemas del ámbito tecnológico en algún momento de mi trayectoria profesional. Pues eso, que para hacer la demostración empírica llego a nuestras vidas galopando a lomos de la semántica el Linked Data.

Cualquiera que pretenda explicar el campo de la Semántica en unos pocos párrafos es un inconsciente, además de ser imposible es de tal pretenciosidad que raya la ignorancia, así que no es a lo que aspiro aquí, tan solo persigo aterrizar mi esquema mental en una redacción que me permita ordenar y asentar conceptos.

DISCLAIMER: Y además quiero aclarar que no soy experto en nada, así que es probable que yerre en alguno de los planteamientos y/o conceptos, por lo que pido disculpas por anticipado. Me gustaría que no fuera así pero no puedo asegurarlo. He de añadir que durante la creación de este artículo, en todo momento he tenido la sensación de estar metiéndome donde no me llaman, pero me he propuesto romper la barrera del miedo escénico, en ocasiones sabemos mas de lo que creemos saber y en otras no, solo se necesita la valentía para exponer el conocimiento o su antónimo para seguir avanzando y en eso estoy. Si detectáis alguna errata sentiros libres de enmendarme la plana, para proceder a su corrección y de paso aprovechar a seguir aprendiendo.

El concepto Linked Data hace referencia a un conjunto de buenas practicas para publicar y enlazar datos estructurados en la WWW. Lo que permite acceder a nuevas fuentes de datos a partir de fuentes conocidas por medio de identificadores y mediante protocolo HTTP. Su característica clave es la des-referenciación, dado un identificador poder acceder al recurso en bruto. Esto es sencillo en recursos digitales, simplemente usando la dirección web donde está ubicado el recurso, pero cuando se manejan conceptos abstractos es muy complicado. Por eso se distingue entre la dirección web del recurso y las de la información.

Filosofía aparte, intentar contextualizar muchos elementos que son manejados de forma habitual en la vida cotidiana sin más ayuda que otros elementos del entorno es el pan nuestro de cada día. Son procesos completamente mecanizados y a los cuales no prestamos atención porque nuestros procesos mentales son capaces de manejar y descomponer el contexto, toda aquella información que no se explicita, establece el marco que completa la información. 

Voy a intentar exponer un caso práctico -para legos como yo- que explique la necesidad de ser determinista y como se llega a ese estado mediante la inferencia. Como existe una entretejida red invisible de asociaciones y aprendizajes que nos permiten comprender y actuar sobre nuestro entorno, a medida que las capas enriquecen el modelo. Es una aproximación.

Imaginemos un grupo de personas del cual no formamos parte y a las cuales no conocemos. Esta información concreta y concisa, sin más descripción, nos permite llegar a conclusiones mediante la descomposición y nos permite extraer datos para armar la información que declarara el conocimiento. (No profundizare más allá de cuatro o cinco niveles, y tampoco me ceñiré a ninguna ontología, todo ello con el bienintencionado afán de limitar la extensión).

De la breve información anterior se pueden extraer los siguientes datos, esto son mesurables, es decir están determinados por la mera observación. 

No alt text provided for this image

Comencemos a añadir capas para enriquecer el ambiente, estas ya no serán explicitas serán contextuales.

Si vemos a alguien vestida de blanco, probabilidad de boda en curso, pero si tan solo vemos personas vestidas elegantemente sin nadie de blanco, también podría serlo, pero no podría asegurarse y necesitaríamos extraer información de otro ámbito, por ejemplo que el grupo este reunido en la puerta de una iglesia, aproxima las probabilidades a la boda, y en una universidad lo haría hacia una graduación. Si llevasen una pancarta, pues abriría la puerta a que fuese una manifestación de la JetSet.

Esto evidencia que la forma en que la información de contexto rodea un dato altera la interpretación. Esta información no esta declarada de forma explícita, es inferida gracias al aprendizaje y la asociación. Por lo que aprovechando estas herramientas una persona podría relatar a otra algo que esta sucediendo, siempre y cuando el idioma sea interpretado por ambos. El citado relato no está definido de forma explícita, se le confiere continuidad a medida que se van uniendo elementos que a priori pueden parecer inconexos, pero una vez van encajando adquieren coherencia, se vuelve determinista, y tiene la capacidad de describir un hecho, una acción, un estado, un ente, etc.. En esto consiste lo que persigue el Linked Open Data, la información no esta embebida, pero si se dispone de la mínima cantidad de elementos posibles para seguir ampliando el horizonte. Tomando como ejemplo el anterior, se puede decir que una persona tiene un elemento género, si nos vamos a la rama correspondiente podemos aprender que este género puede ser de dos tipos, además lo define otro elemento edad, que determinaría la etapa vital en la que se encuentra y que son de cinco tipos. Pero es que además también se puede determinar “hacia arriba” la especie a la que pertenece, en este caso animal. Hasta este momento solo se ha buscado aquello que define a la persona, pero si en vez de ser concretos quisiéramos conocer para un posible aprendizaje cuantas especies existen, tan solo bastaría con recorrer la rama adecuada y encontraríamos que hay varios tipos de especie animal, vegetal, hongos, bacterias, etc..

Un error muy común con el entendimiento del Linked Data, es pensar que está formada por direccionamiento explícito a la información concreta, que también, lo que vendría siendo una URL, pero no es tan simple. Con la URL se tendría el “localizador exacto” de un documento y para obtener el perfilado de objetos reales y conceptos abstractos se utilizan las URIs. La URL no olvidemos es un subconjunto de la URI. La formulación del Linked Data implica que un dato si es de nuestro interés habilita a seguir ampliando el conocimiento dentro de su ámbito.

El tratamiento de elementos individuales plantea un reto que incluso tiene sus implicaciones filosóficas, cuando comienzas con esto de la semántica, y te tropiezas por primera vez con la filosofía, piensas WTF!!!, pero a medida que se va profundizando se encuentra el porqué de que la filosofía este presente. Solo puedo decir que plasmar el razonamiento lógico y metódico para dar una explicación que sea idempotente requiere de mucha reflexión. Se puede enseñar un pensamiento concreto, pero para ir más allá del ámbito conceptual y aprender se precisa del pensamiento abstracto. Dotar de esa capa de abstracción a la esfera computacional requiere de muchísima anticipación y de planteamientos altamente transformables. What if…?

Volviendo a los retos, el lenguaje tiene muchas “trampas” y en ocasiones puede resultar arbitrario. El lenguaje no es unidimensional, al menos pueden diferenciarse cuatro dimensiones:

  • Estructural (Forma, Contenido, Uso)
  • Funcional
  • Comportamental
  • Representativa

La semántica se centra en el apartado del contenido dentro de la dimensión estructural, que consiste en la codificación y decodificación de los contenidos semánticos en las estructuras lingüísticas.

Para poner un ejemplo de las trampas citadas anteriormente tomemos la palabra “hoja”, al menos se me ocurren tres usos diferentes; hoja de árbol, hoja de papel y hoja de sierra. Las propiedades que definen a cada una de ellas más allá del propio sustantivo difieren significativamente; formas, materiales, colores, etc.. Sin mas contexto la palabra “hoja” es arbitraria, hasta que realizamos su declaración bajo el amparo de una familia, una agrupación. En un escenario figurado, si nos dicen mira esa hoja; y estamos paseando automáticamente dirigiremos los ojos hacia un árbol, en una oficina hacia una mesa. Nadie nos dijo mira la hoja del árbol, mira la hoja sobre la mesa. Ese aprendizaje en base al contexto es innato, es experiencia. Sin embargo que sucede si lo complicamos; teniendo un ficus sobre una mesa con un folio, deberemos de tener la capacidad de desambiguar el termino con más información, o estableciendo una concreción de cómo nos referiremos de forma inequívoca a algo. Estableciendo modelos que pauten que para referenciar de manera única a una hoja de papel se utilice el término “folio”, manteniendo el termino “hoja” para indicar que es la de un árbol. Es un ejemplo simplón y ventajista, pero creo que bastante ilustrativo.

Pues si con todos estos inconvenientes solventados mediante el aprendizaje automático basado en la experiencia, si se intenta trasponer esta forma de obtener conocimiento a las maquinas, a los programas, seria prácticamente imposible plantear un escenario determinista, por ello viene al rescate la semántica con toda su batería de definiciones, estrategias, métodos y jerga por doquier.

El problema está servido, de qué forma se le puede indicar a un programa “tradicional” que interactúa con otro que la hoja es de árbol o de papel. No tienen conciencia de donde se encuentran -al menos de momento-, no pueden observar el contexto, la inferencia no es una de las cualidades de la programación, que precisa de orden y precisión. Se podría pensar que se solventa pasando toda la información de contexto que se precisa para determinar las propiedades de un objeto, pero además de ser muy ineficiente, nos toparíamos de frente con las interpretaciones del lenguaje, todos no utilizamos las mismas palabras y ni los mismos tiempos verbales dependiendo de las circunstancias, por lo que más vale que el programa emisor y receptor hayan sido desarrollados por la misma persona. Por otra parte tampoco interesa estar gestionando continuamente excepciones cuyo único valor añadido es la introducción de ruido, palabras que se incorporan al diccionario, otras que dejan de estarlo, anglicismos varios, homonimias, dislexias aparte, etc., etc., etc.. 

Esta necesidad de tener que dotarse de principios básicos, tanto conceptuales como tecnológicos, es lo que hace irrumpir en escena la definición de Web Semántica que plantearon en el año 2001 los señores Tim Berners-Lee, James Hendler y Ora Lassila.

“La web semántica es una extensión de la actual web en la que la información disponible se le otorga un significado bien definido que permita a los ordenadores y las perdonas trabajar en cooperación. Esta basada en la idea de proporcionar en la web datos definidos y enlazados permitiendo que aplicaciones heterogéneas localicen, integran, razonen y reutilicen la información presente en la web”

Avanzando en esa dirección se dota de un modelo básico para ampliar la interoperabilidad mediante metadatos, ontologías y reglas de inferencia. Se establece como unidad atómica del dato la tripleta semántica declarada en el modelo de datos RDF (Resource Description Framework), que amplía la interoperabilidad a nivel sintáctico de otros estándares ya existentes como el XML, extiende las capacidades a una estructura multinivel que cubre desde el básico metadato hasta la definición de ontologías y reglas. Los diferentes formatos RDF utilizan para su representación diversas sintaxis como son Turtle, NTriples o N3

Hasta aquí, parece simple, ¿cierto?. Pues nada que ver con la realidad, esto de la semántica tiene mucha miga, tanta o más que una buena hogaza de pan gallego. Descubrir lo que se esconde detrás de la “simplicidad” de una inofensiva terna semántica entidad-atributo-valor, no es tan solo un problema técnico, de hecho la parte tecnica es una de las más sencillas de resolver. Donde reside el verdadero reto, es en la definición de todos -y recalco todos- los objetos, sus características y sus relaciones. Es algo a lo que no se presta atención en el día a día, pero que sucede, se maneja constantemente de forma inconsciente, y donde resulta extremadamente fácil perderse cuando es necesario definir su descripción.

sujeto-objeto-predicado

Esta tripleta es la unidad atómica del modelo de datos RDF, habilitando la representación del conocimiento en modo que sea legible por programas.

Antes ponía un ejemplo sobre una instancia, ahora intentare hacer lo propio con una relación. Declarar todas las relaciones entre dos instancias puede resultar ineficiente y en ocasiones casi imposible. Si tenemos dos sujetos, Juan y Juanito, no sabemos si se conocen o si no, si son familia o si no, así todo lo que se nos ocurra. Definamos una relación; Juan es padre de Juanito. Si hacemos la pregunta exacta que hace que la afirmación anterior sea su respuesta, sin problema. Algunas preguntas posibles serian; ¿De quien es padre Juan?, ¿Juan es padre de Juanito?. Pero para que esto sea satisfactorio en todos los escenarios y situaciones deberíamos conocer las preguntas, cosa poco probable, por lo que la dinámica se ha de parecer más al juego de mesa “adivina quién”. Haciendo uso de las ontologías y sus vocabularios, si atómicamente Juan, Padre y Juanito están declarados como instancias y sus propiedades, se podrían inferir datos que no estén implícitos en la afirmación. Por ejemplo, ¿Tiene hijos Juan? Si hemos declarado como una de las propiedades de Padre, que tienen al menos un hijo. La respuesta se puede inferir mediante la búsqueda en la rama correcta. Otra pregunta a la cual se podría obtener respuesta es ¿Juan es hijo de Juanito? No es tan simple. Con este ejemplo quería representar además de la propia relación, la posibilidad de inferir información, ya que ciertas declaraciones excluyen otras, como por ejemplo el hijo de un padre no puede ser a su vez su padre.

Esta estrategia se vuelve necesidad, en el momento de querer empoderar a los usuarios de World Wide Web. Hacer mas justa la relación de poder entre usuarios y grandes corporaciones proveedoras de servicios con su insaciable acaparamiento de información. En que consiste este empoderamiento, concretamente en devolver el control sobre la información y/o contenidos generados por los usuarios de la WWW. Sonar, suena magníficamente, pero detrás de esta supuesta utopía aparecen una cantidad ingente de complejidades que antes se encontraban delegadas en otros, sin olvidar de las intrínsecas a la propia tecnología y la información. Hay que hacer balance entre lo que supone ser meramente mercancía o por otra parte ser la mercancía empoderada y además gestionarla. Lo primero suena a la definición de parasito, alguien se está beneficiando, mucho o poco, a costa de nuestros datos. Aunque no se puede eliminar de la ecuación que para captarnos se usa la inteligente estrategia del “caramelito”. Han ido poniendo a disposición del público herramientas que de otra forma no serían gratuitas. No defiendo el modelo de Google, Meta o Amazon, por poner algunos ejemplos, pero entiendo el enfoque empresarial. Se han aprovechado de la falsa creencia de que todo en internet es gratis o debería serlo. Este asunto seria objeto de una larga y entretenida discusión filosófica.

Se ha hecho referencia al empoderamiento, pero ni mucho menos es la único campo donde resulta útil la web semántica como habréis podido adivinar, en todos loca campos donde se necesita “tirar del hilo”. Se podría resumir que en todos aquellos donde se precisa “aprender”, que son casi todos, y además se necesita disponer de interacciones desatendidas con y entre máquinas/programas.

Habrá quien piense, interactuar con programas, eso ya es posible desde hace mucho, y es cierto. Pero cuando quiere incluirse una componente que contemple cierta capacidad de improvisación es necesaria alguna fórmula para enriquecer el modelo y no se encuentre limitado por la capacidad creativa de su autor. Es una aproximación para emular los procesos cognitivos que permiten razonar a los seres inteligentes.

Uno de los primeros retos que se presenta es resolver la interacción, la compartición, la interoperabilidad. Se podría definir como crear el esperanto del Linked Data. Si cada uno de los usuarios expone sus datos/contenido mediante una formula libre del lenguaje para describirlos, el entendimiento se vuelve imposible y el fracaso está garantizado. Es necesario disponer de una representación unificada de cada uno de los datos presentes que se pretende representar o al menos se quieran contemplar por si fuesen necesarios. Por suerte este trabajo ya se lleva realizando desde hace más de dos décadas, y hay bastante camino allanado. Los encargados como ya supondréis es la organización W3C, creada en el año 1994 y que ya era responsable del desarrollo de los estándares desde la versión primigenia de la web, pasando las web 2.0 y hasta donde nos encontramos hoy día la 3.0.

Y a partir de aquí, intentare que la jerga no se me vaya de las manos; Metadatos, Ontologías, Taxonomías, Vocabularios, Sinonimia, Esquemas, Clases, Subclases, Atributos, Propiedades, Relaciones, Funciones, Instancias, Axiomas, Inferencias, Tuplas, RDF, RDF-LD, OWL, SPARQL.

Una de las primeras organizaciones en aportar un modelo de datos, Dublin Core, a la web semántica es Dublin Core Metadata Initiative (DCMI), creada en el año 1995. El objetivo de esta organización es el fomento del uso de metadatos, a través de la adopción de estándares interoperables con vocabularios especializados, para describir recursos de información. No se persigue en este articulo hacer la descripción de los diferentes modelos, ya existe mucha bibliografía disponible sobre ello y os invito a bucear en ella, pero si anticipo que mayormente el repertorio esta formulado de forma académica sometido a continuas revisiones, la eterna disputa entre la teoría y la práctica.

El incluir en este ejercicio el caso de devolver el control de sus datos a los usuarios, no está motivado porque sea “trending topic”, además de abordar la problemática semántica me da la oportunidad de exponer algunas paradojas que al menos desde mi punto de vista se presentan y que no son menores. Al parecer una de las primeras motivaciones, aunque lo considero un caballo de troya, es la monetización del dato por parte de sus propietarios, hasta aquí todo correcto. Si hablamos del común de los mortales, los datos pueden crear valor, pero cuando nos dicen que otros ganan dinero con nuestra información, es una verdad interesada. Y lo hacen, es innegable, pero no solo por el mero hecho de la existencia del dato, opino que lo que verdaderamente crea valor es el cocinado. Cambridge Analytica es un claro ejemplo de ello. Otro escenario bien distinto es el de los creadores de cultura en general en su más amplio sentido, donde el resultado ya es una obra en sí. 

Me estoy desviando un poco del tema principal en este momento, pero considero importante analizar la supuesta oferta y demanda y sus consecuencias, bajo el amparo de hacer más justa la red de redes. Enseguida retomo el mundo multicolor de la Web Semántica.

Además de los simples mortales y culturetas, tenemos también a las empresas de todo tipo de sectores, donde el retorno del dato puede tener dos visiones, internamente para mejorar procesos y tomar mejores decisiones, o desde un prisma de capitalismo feroz la venta a terceros. Hasta no hace mucho tiempo estaba aceptada la máxima de zapatero a tus zapatos, la especialización en el negocio era lo más importante y gracias a lo cual existe todo un ecosistema de compañías de servicios asociados a las necesidades, pero con la tendencia de que todas las empresas que producen bienes de equipo han de reconvertirse en empresas de software para subsistir, se está introduciendo “cierta” distorsión en el tejido empresarial y productivo. 

Toda esta divagación está motivada por el hecho de que el empoderar más allá de la magnífica oportunidad de tomar el control, implica que lo que hacíamos hasta el momento que era consumir, consumir servicios, nos aboca a incluir la responsabilidad de también administrar, y cuando digo administrar, me refiero a todas las consecuencias y quebraderos que entiende un informático. No hay manera de tomar el control si no se asume lo que ello implica. Todo este nuevo escenario provocara la creación de nuevas formulas de negocio, donde los servicios actuales que obtienen enormes réditos económicos gracias al subsidio de nuestros datos, tendrán que evolucionar, no considero que vaya a pasar ni a corto ni medio plazo y en el largo largo plazo ya se verá lo que brota de los sesudos cerebros de los visionarios. Sin olvidar las obligaciones que se pudiesen derivar de la “monetización” del dato.

De hecho aun no existe demasiado oferta en el mercado de herramientas que permitan realizar esa tarea de administración. Hay iniciativas en marcha desde hace tiempo, pero que está costando que cuajen y se materialicen más allá de las pruebas de concepto, salvo raras excepciones. Todavía quedan muchas cuestiones que despejar, problemas que resolver y mercado que crear. Alguien se ha detenido a pensar lo que seria tener que definir quien-que-cuando del contenido que tenemos en nuestros dispositivos móviles, tan solo asignar los permisos a la décima parte del contenido fotográfico, por ejemplo. Habrá que repartir el tiempo de consumir con el nuevo rol de gobernador. No hay que preocuparse, siempre existirán los buenos samaritanos que creen APP’s que nos permitirán simplificar la labor para que sea oneClick y así seguir disfrutando de compartir nuestros contenidos, además lo idóneo seria que fuesen sin ánimo de lucro, porque las querremos gratis por supuesto. Si algo sobra en el mundo son personas que ponen su conocimiento y esfuerzo al servicio de la comunidad. No nos engañemos pretender que mientras tengamos la necesidad de un tercero para conectar con nuestra red de contactos sigamos manteniendo el control de nuestra información, es simplemente una quimera. Ese tercero siempre será un man-in-the-middle, con promesas de que nunca olisquearan nada, promesa que más pronto que tarde es probable que será incumplida. No se persigue crear simples agregadores de contenido más concienciados. Google también decía que no leía el correo, y yo hace tiempo que no me tengo que preocupar de agendar mis vuelos, como servil mayordomo lo hace por mí, a cambio de alguna que otra campaña de viajes, quid pro quo.

Mucho me temo que todavía nos queda mucho tiempo durante el cual seguiremos siendo la mercancía. Este debate tiene muchas aristas, muchos matices y escenarios varios. Seria para tratar largo y tendido, mucha tela que cortar.

Fuente: Tim Berners-Lee. Semantic Web -XML2000. Architecture

Y ahora sí, vuelvo a la web semántica. Principalmente, se busca deshumanizar palabras claves. Es decir, redactarlas de manera más natural para obtener resultados de búsqueda más personalizados. Esto hace que la experiencia de usuario sea considerablemente más grata y efectiva ya que ahorra tiempo. Para esto es necesario la creación de un software que sea capaz de interpretar y comprender el alfabeto, los significados, referencias y hasta los modismos. Los componentes principales con los metalenguajes y su representación a modo de estándares. Persiguiendo la creación de una inteligencia colectiva, aprovechando el conocimiento individual y poniéndolo al servicio de la comunidad global. Si estuviésemos en un película distópica aplicaría la expresión de mente de colmena.

Una de las principales desventajas actuales es el cómo abordar la transformación de toda la información ya existente en la WWW. Se hace borrón y cuenta nueva, punto y seguido, hasta aquí 2.0 y a partir de aquí 3.0. Pretender la transformación de 30 años de contenidos se vuelve una suerte de utopía. Pero por suerte no es el objetivo, pero si es necesario que no seguir incrementando el problema, se han de comenzar a plantear nuevas estrategias para hacer más eficiente el consumo de conocimiento y su distribución.

Hay también una Ley de Moore Semántica acuñada por Carlos Scolari.

“Trabaja del mismo modo que la aceleración tecnológica; promoviendo una obsolescencia terminológica planificada, abandonando conceptos de poco uso y rediseñando nuevas palabras constantemente, pensando más en el marketing viral que en su necesidad lingüística. Con esta lógica, algunos términos se convierten en potentes memes y se reproducen ganando visibilidad, como es el caso del concepto Web 2.0.”

Aunque la definición tiene cierta dosis de retórica, lo que viene a decir es que la adaptabilidad al medio toma mayor relevancia, y lo marcan los intereses de los usuarios, independiente de las capacidades tecnológicas en detrimento de las continuas actualizaciones de las versiones del software.

Esto permite incorporar otra capa de la tan ansiada estrategia del desacoplamiento en el desarrollo de aplicaciones, teniendo en cuenta también la parte lingüística y conductual en las arquitecturas. Es uno de los razonamientos que me he dado para comprender el interés en los últimos tiempos de contratación en las grandes corporaciones de ciertos perfiles profesionales que a priori en las cuales no se intuye la componente tecnológica. La incorporación de lingüistas y psicólogos, por mencionar algunas de ellas, no es más que la declaración del interés por entender el mundo que nos rodea para dotar a las aplicaciones de las capacidades de compresión necesarias para de las imbuir las características abstractas del entorno.

Las directrices que se siguen en la codificación son: simplicidad, interoperabilidad, consenso, flexibilidad, extensibilidad y la repetibilidad. Gruber enuncio en el año 1993 una de las definiciones más concisas de ontología, “una ontología es una especificación explicita de una conceptualización”. Cuando se introduce el termino concepto, se está incluyendo la abstracción como parte de la ecuación, que implica una complejidad intrínseca para la comunicación no humana. Las ontologías proporcionan un vocabulario común en un área de conocimiento, en diferentes niveles de formalización, el significado de los términos y las relaciones entre ellos. Dicho conocimiento esta compuesto por seis tipos de componentes.

  • Clases; ideas básicas a normalizar y suelen estar organizadas en taxonomías.
  • Atributos; representan la estructura de las clases, y toman valor dependiendo del dominio donde se maneje el concepto.
  • Relaciones; tipo de interacción entre conceptos. De tal forma que los conceptos forman estructuras y a su vez la taxonomía del dominio.
  • Funciones; relación razonada en base a la evaluación de uno o varios elementos dentro del domino.
  • Instancias; los elementos que se agrupan dentro de una misma clase.
  • Axiomas; expresiones siempre ciertas que deben cumplir todos los elementos pertenecientes a una ontología

Una de las ideas que más se repite de forma vehemente en el campo de la semántica, es que no se reinvente nada que ya este inventado, por el contrario cualquier forma de enriquecimiento es bien acogido, uno de los ejemplos donde mejor se entiende esta norma es en la inclusión de declaración de un nuevo idioma para una instancia ya definida. Como cabe esperar la mayoría de ontologías están declaradas en inglés, con todos sus componentes y definiciones, en una estrategia de ahorro de esfuerzos y recursos, es más optimo añadir, a lo ya existente, un nuevo atributo del nuevo idioma con la definición en el mismo. Un árbol y lo que lo define como tal es independiente del idioma en el que se exprese.

Desde mi punto de vista hay dos grandes ramas bien diferenciadas dentro del Linked Open Data, y aun abordando la misma problemática el ecosistema difiere enormemente, el horizonte a resolver tiene matices que derivan en complejidades de lo mas variadas. Una de las ramas pretende resolver la problemática en los entornos productivos y sus procesos, dotando a las herramientas de un mayor nivel de automatismos y comprensión, y la otra rama estaría enfocada en la parte social, donde vuelve a irrumpir en escena Sir Berners-Lee publicando en el año 2018 un paper, “One Small Step for the Web”, donde presentaba por primera vez el modelo SOcial LInked Data donde se enunciaba los problemas a nivel de seguridad y privacidad en el uso actual de la Web. La principal diferencia es la capacidad de improvisación en el modelo de cada una de las ramas. Si analizamos el ámbito industrial, este se encuentra mas encorsetado y sometido a protocolos más o menos definidos y los ambientes no son tan imprevisibles, sin embargo en la parte social, el límite es simplemente el infinito.

Actualmente existen ya distintos servicios comerciales que han intentado solventar esta problemática con ciertas similitudes a nivel conceptual con SoLiD:

  • mydex: Gestión de permisos de acceso a los datos por parte de terceros. En sus comienzos su modelo de negocio estaba basado en cobrar pequeñas cantidades a empresas que requiriesen acceder a los datos de los usuarios.
  • digi.me: Negocio fundamentado en la movilidad de datos y su economía. Basado en la capacidad de trasladar datos personales entre diferentes servicios y monetizando cada acceso de los servicios a los mismos.

Las dificultades a resolver son las relativas al control y gestión de datos personales, si hacemos foco en el mundo de las RRSS desde el punto de vista del usuario estas son:

  • Portabilidad: Los usuarios no pueden descargar sus datos y manipularos libremente.
  • Identidad: En cada red social es independiente del resto, complejizando la gestión de credenciales, lo que desemboca en la misma para todas.
  • Conectividad: Dos usuarios deben estar dados de alta en el mismo servicio para interactuar.
  • Privacidad: No se puede controlar lo que las RRSS hacen con la información de los usuarios.

En los tres se maneja el concepto POD (Personal Online Datastore), son aplicaciones que permiten almacenar todo tipo de datos en un servidor web. SoLiD va más allá añadiendo la “descentralización” a la ecuación además de abordar la protección de la propiedad, desacoplamiento de dato y aplicación y la reutilización de la información. Y un hándicap que no cabe minusvalorar es la necesidad de crear experiencias de usuarios que sean capaces de desbancar al actual statu-quo.

Otro actor a tener en cuenta en esta trama, es la compañía Janeiro Digital, creada en el año 2009, y que en sus comienzos colaboro en la creación de los estándares para la tan ansiada arquitectura web descentralizada planteada por SoLiD de la mano de su CTO. En la actualidad Janeiro Digital es partner de Inrupt, esta última creada en el año 2018 con la intención de proveer de servicios profesionales que hagan posible la promoción del prototipo promulgado por la SoLiD Community y conseguir que se establezca como un estándar de facto.

Lo siento me he vuelto a desviar. Hacía mención antes de que ya existía camino recorrido en el campo de la web semántica, no soy capaz de ponderar si mucho o poco, y ya se disponen de recursos colaborativos. Como es el caso de la comunidad schema.org, que actualmente está en su versión 14 y que pone a disposición un vocabulario con diferentes codificaciones. Este recurso fue creado Google, Microsoft, Yahoo y Yandex, y esta muy orientado por tanto a entornos bastante cotidianos, abarcando por ejemplo declaraciones de los ámbitos libros, audio, lugares, hoteles, etc. etc..

Otra iniciativa muy interesante es el proyecto dbpedia.org, que extrayendo información de Wikipedia ha ido categorizando la ingente cantidad de conocimiento contenido, permite mediante el lenguaje SPARQL realizar consultas sobre todo tipo de materias, basándose en el estándar para consultas de grafos sobre RDF, tiene ciertas similitudes con SQL, es un lenguaje orientado a consultas -pero hasta aquí- aunque hay algunos forks que permiten crear, modificar y borrar.

Otros ejemplos de Semantic Knowledge DB como DBpedia son Google Knowledge Graph y Open Graph Protocol de Meta.

IoT-Lite, es otra muestra open de ontología colaborativa que contiene vocabularios orientados al “Internet de las Cosas”, con todo lo que ello supone, desde la definición del sensor más simple hasta dispositivos extremadamente complejos.

Yassine Hammar

Uno de los mayores retos a los que se enfrenta la explosión del OpenData, no es la cantidad de información disponible, es como se expone al mundo, como es compartida, una de las principales quejas de las instituciones, cuyo concepto de transparencia es cuestionable, es que no se hace uso de toda la información que ponen disposición. Pero en muchas ocasiones interpretar el dato es misión imposible, en los casos donde ciertos niveles de automatización no puede ser aplicados, realizar la tarea de curar el DataSet provoca la desincentivación de cualquier iniciativa que se quiera afrontar. Ante la falta de homogenización en las formas y métodos cada iteración se convierte en un reinicio continuo del proceso, una y otra vez. De quien es la responsabilidad de que los datos sean interpretables, de aquellos que quieren consumir o de quienes quieren compartir, no es aventurado indicar que la mejor fórmula es que dicha responsabilidad sea compartida, haciendo que el esfuerzo sea compartido por medio del uso de estándares establecidos.

Los que saben de esto aconsejan seguir los siguientes pasos para trabajar una ontología los más satisfactoria posible.

  • Determinar dominio y alcance
  • Reutilizar las ya existentes
  • Enumeración de términos importantes
  • Definir clases y sus jerarquías
  • Definir las propiedades de las clases
  • Creación de instancias
  • Y como no podía faltar; Validación de la estructura y su funcionamiento.

Pero como todo a la Web Semántica también se le hacen algunas críticas basadas en dos evidencias principalmente; una de ellas es que para operar es preciso acceder a un recurso como puede ser el vocabulario, el cual se encuentra centralizado. Y la otra que debido a las más que probables ramificaciones y relaciones el coste computacional se puede disparar. Sin olvidar por el momento la complejidad de su tipado y la escasa penetración conseguida hasta el momento en los entornos de desarrollo y entre las tribus de desarrolladores.

En algún pinito que he intentado, y siendo honesto, nunca ha ido más allá de un Getting Started he utilizado protégé, un editor open-source desarrollado y mantenido por investigadores de la Facultad de Medicina de la Universidad de Stanford y que cuenta con más de 20 años de historia. Permite de una forma gráfica la creación del OWL correspondiente, lo que consiste en una extensión del vocabulario resultante permitiendo añadir otros tipos de propiedades como son la transitiva, la simétrica, la inversa, etc. No me puedo imaginar el infierno que tiene que ser el construir un Web Ontology Language sin este tipo de utilidades.

El objetivo de la web semántica, a mi modo de entender, es la necesidad de dotar a la tecnología de esos procesos cognitivos que tienen los seres inteligentes, la formula en la que pensamiento abstracto e incluso el instinto pueda ser tratado y tenido en cuenta por los procesos tecnológicos. ¿Ambicioso?, quizás, pero nada descabellado por otra parte, ya está sucediendo aunque todavía pueda estar en los albores de lo que se terminara desencadenando, tan solo necesita más adeptos a la causa para desarrollar el ecosistema necesario.

A pesar de la extensión, como se ha visto, si habéis llegado hasta aquí, el tema de la semántica es infinito, y ni tan siquiera se ha rascado la superficie. No descarto en un futuro otro ataque de insensatez y seguir ahondando en esta materia, quizás con un enfoque más técnico-filosófico en esa ocasión, lo que no me cabe ninguna duda es que necesito seguir aprendiendo para ser capaz de ello.

To be continue...

P.D.: Soy consciente de lo confuso, desorganizado e incompleto del contenido. Os pido disculpas.




Algo parecido me pasa, hay que pensar más allá del idioma, actualmente me encuentro desarrollando una base de datos semántica para manejar mi sistema.

Inicia sesión para ver o añadir un comentario.

Más artículos de Sote Sanchez Munuera

  • Controlar VS Empoderar

    Controlar VS Empoderar

    Antes de..

    5 comentarios
  • Fracasar (¿=?) Oportunidad

    Fracasar (¿=?) Oportunidad

    El tema de hoy tiene más de personal que de profesional. Pero soy de la opinión de que toda experiencia puede ser…

    2 comentarios
  • Innovation, what's that??

    Innovation, what's that??

    ¿Por qué? Si el cambio no es disruptivo se tiende a creer no es innovación de libro, y si la innovación también fuese…

  • umuntu (+) ngumuntu (+) ngabantu = Ubuntu

    umuntu (+) ngumuntu (+) ngabantu = Ubuntu

    Alerta!!! disertación filosófica -eufemismo de peñazo- para los que me conozcan y se quieran tirar; este es el momento.…

    2 comentarios
  • Arquitectura Reactiva, DDD mediante.

    Arquitectura Reactiva, DDD mediante.

    Cada vez la exigencia sobre los servicios que se consumen se vuelve más exigente, no solo en su apartado de utilidad…

  • DATAecCENTRIC

    DATAecCENTRIC

    Mas madera, que diría Groucho Marx. El dato se ha convertido en una suerte de nueva estirpe real, todos le rendimos…

    1 comentario
  • ¿Cuanto cuestan las cosas?

    ¿Cuanto cuestan las cosas?

    Pues depende que rezaba el título de una de las canciones de Jarabe de Palo. Lo que las cosas cuestan no es lo mismo…

  • Pecado Capital: Soberbia

    Pecado Capital: Soberbia

    Esta publicación pretende entonar un mea culpa, no me considero una persona soberbia, aunque esto no debería decirlo…

  • El efecto Osborne

    El efecto Osborne

    Tranquilidad, no se me ha ido la pinza -al menos de momento- no voy a hablar de Bertín. No recuerdo cuando leí por…

  • Mi reino por un "LOG"

    Mi reino por un "LOG"

    Nunca hay que subestimar el poder de un buen Log, tampoco el de uno malo, pero puestos a elegir. Si Hansel y Gretel…

    2 comentarios

Otros usuarios han visto

Ver temas