Categorizzazione di pagine web basate sull’analisi di immagini e testo

Lo studio si propone di definire tecniche che integrino l’analisi statistica del linguaggio naturale con tecniche di pattern recognition su immagini sia per la classificazione di pagine web in classi predefinite che per il clustering non supervisionato, ossia per il raggruppamento di pagine web in classi con un alto grado di similarità intra-classe ed un basso grado di similarità inter-classe.

Esistono varie problematiche da affrontarsi nell’analisi di pagine web: la prima riguarda l’analisi prettamente testuale: mentre infatti è relativamente facile procedere alla classificazione ed avviare algoritmi di clustering su pagine statiche in HTML, è piuttosto complesso realizzare tecniche che siano in grado di agire su di una pagina generata dinamicamente.

Dal punto di vista delle immagini, analizzare una pagina web facendo riferimento solamente al layout o alle immagini risulta assolutamente limitativo: mentre una decina d’anni fa era pensabile un’analisi puramente pittorica (i siti erano principalemente monotematici, si vedano le cosiddette geocities), oggigiorno questa strada è necessariamente fuorviante, si pensi per esempio alle immagini assolutamente eterogenee contenute in un blog.

La chiave di volta nell’analisi di pagine web è la stretta correlazione esistente tra la parte testuale e la parte grafica, intesa sia come immagini inserite nel testo sia come layout della pagina, che finora non è stata mai attivamente presa in considerazione come pattern indicativo per un sito web

Dopo uno studio accurato dello stato dell’arte, la tesi consisterà nell’acquisizione da parte dello studente dei principali strumenti di analisi testuale e di immagini, che, come verrà illustrato dal docente, possono essere ricondotti a tecniche comuni ai due ambiti (Bags of Words, Probabilistic Semantic Analysis). In una fase successiva, si procederà a sviluppare un’applicazione di classificazione e clustering in grado di agire su un database di siti web opportunamente selezionati (come per esempio i siti di notiziari on-line).

La tesi richiederà anche una parte di lavoro sperimentale.