Web semantico, SEO ed e-commerce
Che cos'è il web semantico? Perché è rilevante ai fini dell'ottimizzazione dei siti? Quali vocabolari utilizzare per arricchire di contenuti semantici un sito di commercio elettronico? I motori di ricerca come utilizzano i contenuti semantici? Quali sono i vantaggi per acquirenti e venditori?
Come utilizzare le tecnologie del web semantico, e in particolare lo standard de facto GoodRelations, per supportare attività di SEO (search engine optimization) di siti di commercio elettronico ed e-shop
Dai primi anni 2000 il tema del web semantico emerge periodicamente come un fiume carsico.
In questo caso l'occasione è la pubblicazione del libro di Tommaso Di Noia, Roberto De Virgilio, Eugenio Di Sciascio, Francesco M. Domini, Semantic Web. Tra ontologie e Open Data, Apogeo, Milano, 2013.
Nella prefazione, Ora Lassila sottolinea che "il web è stato costruito come mezzo di distribuzione di informazioni pensate e prodotte principalmente per un consumo da parte di esseri umani, piuttosto che per essere interpretate e consumate da parte di macchine. Il web semantico è stato interpretato come tentativo di porre rimedio a questa lacuna ... il web semantico è l'idea di un futuro in cui agenti software e altri sistemi software lavorano in modo autonomo", eseguendo compiti assegnati loro dagli esseri umani.
Per rendere possibile l'elaborazione automatica delle informazioni è necessario, che esse siano state rese interoperabili attraverso la "rappresentazione formale ed esplicita della concettualizzazione condivisa di un dominio di conoscenza".
- Formale significa, che la rappresentazione utilizza un linguaggio logico processabile da macchine.
- Esplicita indica, che essa non deve essere ambigua.
- Il termine "concettualizzazione" si riferisce al fatto, che il dominio di conoscenza va rappresentato in modo astratto.
- Condivisa signfica, che la rappresentazione deve trovare un consenso il più possibile ampio all'interno della comunità, che opera in un determinato dominio.
In sintesi, interoperabilità significa standardizzazione del modo in cui le cose possono essere dette (non di ciò che può essere detto, ma di come può essere detto).
Come già accennato, il web semantico si gioca sull'evoluzione dall'attuale web dei documenti al web dei dati, interoperabili, interconnessi e interpretabili anche in modo autonomo delle macchine, non solo per svolgere compiti di ricerca, ma anche per generare nuova conoscenza sulla base dei dati di partenza disponibili (è questo l'obiettivo di software di ragionamento automatico come Fact++, Pellet, Jena, RacerPro, basati su logiche deduttive o tableaux semantici).
In ambito business-to-business (B2B) e business-to-consumer (B2C), cioè nella presentazione di aziende e nella proposta di prodotti / servizi, la semantizzazione delle informazioni rappresenta un passaggio chiave per ottimizzare indicizzazione e reperibilità da parte dei motori di ricerca e applicazioni web di reccomendations.
Semantizzare le informazioni contenute in un sito di commercio elettronico signfica comunicare con precisione al motore di ricerca / all'applicazione web di reccomandations, che un determinato insieme di dati si riferisce all'azienda venditrice, al prodotto / servizio (scendendo fin nel dettaglio di annotare, che un determinato valore si riferisce alle "dimensioni" in "pollici" del "monitor" di un computer), agli aspetti economici e a quelli logistici dell'offerta.
La semantizzazione disambigua le informazioni, rendendo contestuali, precisi e confrontabili i risultati.
I vocabolari (detti anche ontologie o schemi) sono lo strumento fondamentale per semantizzare le informazioni.
Il vocabolario (universale o, più spesso, specifico per un determinato dominio di conoscenza) si basa sulla concettualizzazione condivisa di un dominio, fornendo gli elementi per rappresentarlo in modo formale ed esplicito.
Solo la condivisione di uno stesso vocabolario garantisce la certezza, che N siti di e-commerce intendano la stessa cosa, quando parlano di computer, monitor, dimensioni e pollici.
Fra i vocabolari citati nel libro "Semantic Web. Tra ontologie e Open Data" è particolarmente interessante GoodRelations, nato nel 2008 e affermatosi come standard de facto nel settore degli e-shop.
GoodRelations permette di attribuire una descrizione semantica alle informazioni su azienda, prodotti / servizi, prezzi e logistica presenti in un sito di commercio elettronico.
La semantica di GoodRelations può essere inclusa nelle pagine web dell'e-commerce come Microdata di HTML 5 oppure come RDFa.
E' particolarmente rilevante, che GoodRelations abbia mappato i propri elementi con quelli di schema.org, iniziativa nata nel 2011 dalla collaborazione fra Google, Yahoo e Microsoft, con l'obiettivo di definire uno schema (cioè un vocabolario) comune, senza sostituirsi, ma integrando gli strumenti esistenti e stimolando lo sviluppo di pagine web dotate di markup semantico basato su Microdata di HTML 5. Dal varo del progetto Google ha smesso di supportare i propri Google Rich Snippets, invitando gli sviluppatori ad adottare lo standard di schema.org.
L'adesione di GoodRelations a standard.org, comporta il fatto che esso sia attualmente supportato da Google, Yahoo, Bing, BestBuy e utilizzando già da oltre 10.000 e-shop per finalità di SEO (Search Engine Optimization) e web marketing (fra cui O'Reilly, Volkswagen UK e Renault UK).
Nel complesso il libro "Semantic Web. Tra ontologie e Open Data" offre una panoramica sulle varie tecnologie legate al web semantico.
Oltre ai vocabolari sono presentati:
Linguaggi per la creazione del web semantico:
- RDF (Resource Description Framework). Si tratta del formato che - attraverso la tripla soggetto, predicato, oggetto - descrive la relazione fra oggetti (es. "In The Matrix recita Keanu Reeves").
- RDF Schema (RDF-S). L'enunciato RDF "In The Matrix recita Keanu Reeves" non permette di esplicitare che "The Matrix" è un film, né che "Keanu Reeves" è un attore. Si tratta di affermazioni implicite nel verso "recitare". RDF-S è il vocabolario di RDF, che permette di definire i termini e le loro relazioni.
- OWL (Ontology Web Language). Come RDF / RDF-S è un formato per descrivere oggetti / termini e le loro relazioni, ma rispetto a RDF / RDF-S supporta una maggiore complessità e l'integrazione di vocabolari esterni. Protegé OWL è un interessante editor grafico per la creazione e la modifica di ontologie
- SKOS (Simple Knowledge Organization System). Permette di includere in RDF / RDF-S vocabolari esterni.
Tecnologie per la generazione di dati RDF:
- Software "wrapper" per convertire database relazionali in dataset RDF (es. D2R Server).
- Sistemi di web content management (es. Drupal), che permettono di pubblicare dati semantizzati, utilizzando il linguaggio RDFa
- Applicazioni per la conversione in RDF di file in formato MS Excel e CSV
- Software in grado di estrarre dati semantici da pagine web statiche, annotando poi con essi i documenti (es. Open Calais, Ontos, DBPedia Spotlight)
- Linguaggi come GRDDL finalizzati all'estrazione di dati semantici in formato RDF da documenti XML e XHTML.
Tecnologie per l'archiviazione e il recupero di dati RDF:
- La memorizzazione può avvenire tramite file .RDF nel caso di dataset limitati, mentre nel caso basi dati estese l'archiviazione avviene preferibilmente attraverso cosiddetti triplestore (es. rdfDB, Inkling, SquishQL, Sesame, Jena), cioè sistemi di database management finalizzati alla memorizzazione e al recupero di dati RDF
- SPARQL è lo standard de facto per l'interrogazione di dati in formato RDF.
Tecnologie per la pubblicazione di dati RDF, con l'obiettivo di integrare web dei documenti e web dei dati (semantico), rendendo il secondo un'estensione del primo:
- RDFa. Permette di creare documenti XHTL, contenenti sia le informazioni che la semantica
- Microformat. Come RDFa, ma - mentre con RDFa è possibile codificare qualsiasi informazione relativa a qualsiasi dominio -, con Microformat è ammesso solo insieme predefinito di configurazioni (cioè di microformati. Es. hCard per persone e organizzazioni, hCal per i calendari ed eventi, ecc. Vd. http://microformats.org/)
- Microdata in documenti HTML 5
- Infine si fa cenno ai web service semantici (OWL-S, WSMO, WSDL-S, SAWSDL, SA-REST, MicroWSMO) finalizzati all'esposizione dei dati RDF.
Autore: Petra Dal Santo