CHIEDI UN PREVENTIVO
Tel: 0039.0575.383429 - Email: info[at]sintraconsulting.it
Sintra Consulting srl
Home Studi e ricerche Tesi per argomento Tesi Susanna Cipriani
SUSANNA CIPRIANI
Università degli studi di Siena, Facoltà di Ingegneria, Corso di Laurea Specialistica in Ingegneria Informatica
Anno Accademico 2010-2011
Candidato: Susanna Cipriani
Relatore: Prof. Marco Maggini
Correlatore: Prof.ssa Monica Bianchini, Ing. Michele Barbagli,
Tesi di Laurea in Ingegneria Informatica

Tecniche di tagging automatico e clustering per l'indicizzazione dei siti web

L’oggetto del lavoto di tesi è stato l’implementazione di un’applicazione di Data Mining che realizza il clustering dei contenuti testuali di siti web.
Il lavoro è stato svolto nell’ambito dell’attività di tirocinio formativo svolta presso Sintra Consulting ed ha riguardato 1 Minute Site, l'applicativo sviluppato dall'azienda che consente agli utenti  di realizzare siti web in maniera facile, veloce e personalizzabile.
I siti realizzati con la versione gratuita hanno oneminutesite.it come dominio e hanno funzionalità e numero di pagine limitati.

L’obiettivo centrale del lavoro è stato quello di clusterizzare tali siti, cioè raggrupparli per contenuto, classificarli e calcolare per ciascuno di essi la tag cloud.
Il lavoro di tesi si è collocato nell’ambito dell’Information Retrieval e del Data Mining, aree di ricerca attualmente attive e sulle quali è possibile recuperare una vasta documentazione.
In molte applicazioni reali può essere infatti importante avere strumenti di analisi che permettano di estrarre, in maniera più o meno automatica, conoscenza, sapere, informazioni utili, da grandi quantità di dati, dati che molto spesso non sono strutturati. In questa ottica, il web è un enorme contenitore di dati non/semi-strutturati, così come lo è, nel suo piccolo, l’insieme dei siti free di 1 Minute Site; poter estrarre da essi informazioni valide, pattern interessanti, può rappresentare un valore aggiunto per la ditta, la quale si troverà automaticamente tra le mani una tassonomia dei contenuti da poter usare per migliorare il servizio stesso offerto agli utenti, ad esempio garantendo una maggiore visibilità sul web dei siti stessi.
Anche il tagging è attualmente molto diffuso e rappresenta uno strumento utile per individuare velocemente i contenuti di un sito; tramite i tag è possibile implementare inoltre una navigazione rapida dei siti di 1 Minute Site e al tempo stesso gli utenti possono sfruttarli per valutare la bontà dei contenuti da loro stessi inseriti.

Il lavoro di tesi ha previsto diverse fasi di lavoro, dalla documentazione sulla teoria del Data Mining e Retrieval, alla documentazione sugli strumenti software utilizzati, dalla realizzazione pratica, alla valutazione dei risultati.
Il corpo del lavoro di tesi è stato strutturato
essenzialmente in tre parti, corrispondenti ai seguenti capitoli:
Particolare rilievo è stato dato all’ultima parte, quella implementativa, in quanto descrive cosa effettivamente è stato fatto nel lavoro di tesi, delineando da un lato come si sono impiegate le tecniche attualmente diffuse di Data Mining e gli strumenti software e dall’altro qual è il
contributo originale.

Presentazione dei risultati

I risultati ottenuti sono stati infine integrati in 1 Minute Site; il sistema di generazione del catalogo accede infatti al database e sfrutta tali dati per inserire nuove informazioni nelle pagine web create, usando il template engine Velocity17.
È possibile esplorare il catalogo alla pagina web creare sito internet gratis, sul quale a breve sarà possibile vedere i risultati del lavoro di tesi.
In questo modo sarà possibile avere un riscontro immediato e più intuitivo dei risultati del lavoro. Inoltre sarà possibile valutare meglio eventuali modifiche e migliorie da apportare in futuro.

Nella home del catalogo sarà pubblicata la tag cloud globale; per ciascun termine della tag cloud sarà possibile vedere poi l’elenco dei link che hanno tale parola nella propria tag cloud. In questo modo si vuole affiancare la navigazione semantica alla navigazione già
presente che raggruppa i siti in base al template grafico usato
. Ovviamente questa nuova esplorazione del catalogo non vuole sostituire quella vecchia, anche perché da sola sarebbe incompleta: dalla tag cloud globale, infatti, non è possibile raggiungere tutti i siti ma solo quelli
che contengono nella propria tag cloud almeno un termine presente in quella globale. È importante notare inoltre che un sito può essere raggiunto anche a partire da più termini della tag cloud globale.

Nelle pagine dei singoli prodotti sarà possibile vedere la tag cloud del singolo sito; per ogni prodotto, poi, verranno suggeriti alcuni siti simili, presi dallo stesso cluster, relativamente all’argomento individuato dall’etichetta.
L’inserimento di questo tipo di contenuti, fornendo uno strumento di navigazione facile e intuitiva agli utenti del web, punta ad aumentare il traffico di visitatori nel catalogo, con l’obiettivo anche economico di aumentare le vendite del prodotto.

Conclusioni e sviluppi futuri

Il lavoro di tesi svolto, tramite il tagging e il clustering dei contenuti di siti web, ha avuto come principale finalità quella di estrarre informazioni di interesse dall’enorme quantità di dati presenti nel web, limitate, nel caso specifico, ai siti di 1 Minute Site; queste informazioni, opportunamente interpretate, rappresentano una base utile per fornire servizi sempre migliori, ma anche per studiare i contenuti della rete, evidenziare tassonomie, rilevare gli interessi dell’utenza…
I risultati evidenziati con questo lavoro sono stati abbastanza soddisfacenti e saranno presto presentati nel catalogo web di 1 Minute Site.

La visibilità diffusa dei risultati permetterà una più facile analisi e valutazione per cui in futuro sarà possibile avere un quadro più preciso di quelli
che sono i punti deboli e le eventuali carenze.
Il lavoro si presta quindi a numerosi sviluppi futuri, primo fra tutti il continuo miglioramento dei risultati e delle prestazioni tramite l’ottimizzazione degli algoritmi di clustering e di tagging: ad esempio, si potrebbe implementare una versione soft di clustering che ammetta che un oggetto possa appartenere a più gruppi; del resto non è assolutamente detto che un testo appartenga ad un’unica categoria.
Inoltre si potrà cercare di estrapolare ulteriori schemi di conoscenza nascosta nei dati, ad esempio nella direzione proposta dal web semantico; in questo contesto il lavoro si propone come prima base di dati sulla quale lavorare ulteriormente per estrapolare nuove informazioni.


Tecnologie sviluppate
I Partner della ricerca
Tesi per argomento
2000-2014 © Sintra Consulting srl P.Iva: 01671150512 Ultimo aggiornamento: 29/10/2014 C.C.I.A.A. R.E.A. AR-130275 ; C.F. e Registro Imprese 01671150512
P.IVA: 01671150512 - Capitale sociale Euro 10.000 i.v