We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Abbattere i silos informativi su 40 siti e 250.000 contenuti

00:00

Formal Metadata

Title
Abbattere i silos informativi su 40 siti e 250.000 contenuti
Title of Series
Number of Parts
38
Author
License
CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Regione Emilia-Romagna Abbattere i silos informativi su 40 siti e 250.000 contenuti: la ricerca unificata della Regione Emilia Romagna
37
Thumbnail
06:18
Meeting/InterviewComputer animation
Meeting/InterviewXML
Computer animation
Computer animationMeeting/Interview
Transcript: Italian(auto-generated)
Grazie Stefano, buongiorno a tutti, io sono Sara Turra, lavoro nel servizio ICT regionale della Regione Miglia Romagna e mi occupo della gestione tecnica e della realizzazione dei nostri siti web regionali e come strumento di gestione dei siti web utilizziamo appunto
Plone. Tra le altre cose mi occupo anche di strumenti a corollario della comunicazione web tra cui il motore di ricerca e oggi infatti vi parlerò del nostro nuovo motore di ricerca unificato per tutti i siti della Regione Miglia Romagna. Come si vede anche nel titolo del mio intervento, noi gestiamo più di 40 siti Plone, sono
più di 40 ma 40 sono quelli che vogliamo inserire all'interno del motore unificato di ricerca dei nostri siti e cubano più di 250 mila contenuti. Ciascun sito è indipendente dall'altro e quindi non si parlano tra di loro e abbiamo quindi dovuto affrontare il problema di gestire invece una ricerca che potesse
essere trasversale tra tutti. In questo momento come motore di ricerca abbiamo diversi strumenti, prevalentemente usiamo Plone in tutti i portali tematici, su Plone abbiamo sviluppato un'interfaccia
personalizzata, è un motore di ricerca monosito, quindi cerca solamente all'interno del sito in cui ci troviamo e però è utilizzato in tutti i nostri siti Plone. Solamente nel portale R invece abbiamo un motore di ricerca che utilizza Solar e che funziona con un crawler che gira di notte e indicizza tutti i siti web
della Regione. Poi abbiamo anche altri motori di ricerca specializzati su particolari contenuti tipo le ricerche sui comunicati, le ricerche sulla pubblicazione, il motore di ricerca unico dei bandi e altre ricerche contestuali che cercano solo in particolari sezioni del sito e questi sono stati sviluppati
verticalmente per fare ricerche specializzate solamente in quell'ambito. Quindi come vedete abbiamo diversi strumenti e l'utente si trova a interagire a seconda del sito in cui si trova e delle ricerche che fa si trova a interagire con situazioni diverse, il che non è molto bello. Vorremmo cercare di dare invece all'utente un'interfaccia unica.
I problemi che abbiamo riscontrato finora oltre a quelli che vi ho già descritto sono per quanto riguarda Plone in realtà come motore di ricerca funziona benissimo, solamente ha il limite di essere un motore monosito, infatti per esempio se un utente va sul portale ambiente e
pensa di trovare contenuti relativi all'energia cerca certificazione energetica trova solamente quattro risultati, mentre se sapesse che esiste un portale energia e fa la ricerca all'interno del portale energia ne troverebbe sessanta, quindi capite che questo purtroppo è un grosso limite. Sul portale R dove invece abbiamo motore di ricerca che
in tutti i siti regionali, al contrario abbiamo troppo rumore perché cercando certificazione energetica escono ben 17 mila risultati e altri problemi del crawler sono il fatto che avendo così tanti risultati non abbiamo la possibilità di fare dei filtri perché non abbiamo dei metadati con
cui dare all'utente la possibilità di filtrare risultati e quindi se non ha la fortuna di trovare come in questo caso dei link suggeriti che è una funzionalità che ci consente solar, purtroppo il nostro utente si trova un po' spaesato con 17 mila risultati. I link suggeriti sono
un'ottima funzionalità di solar però il limite attuale di questa funzionalità è che per aggiornarli è richiesto un intervento del tecnico che deve proprio andare a mano dentro il database di solar e aggiungere questi link sponsorizzati e quindi naturalmente l'aggiornamento non è che
si fa continuamente e quindi questo è un po' un peccato. Altro problema del nostro crawler è proprio che avendo così tanti risultati spesso sono risultati non pertinenti e supponiamo che il nostro utente voglia fare una ricerca per trovare perché vuole fare la vaccinazione per il covid, cerca vaccini e si trova 5 mila risultati di
cui i primi sono tutti relativi in realtà a bandi di intercenter per comprare dei vaccini e anche bandi molto vecchi come vedete. Solamente alla quinta pagina l'utente trova dei risultati che sono vagamente pertinenti a quello che sta cercando perché perlomeno si tratta di risultati del portale salute e comunque non sono ancora quello che
lui cercava. Penso che nemmeno la decima pagina io non ci sono arrivata a trovare un risultato pertinente sui vaccini con questa ricerca. Tra l'altro questi due risultati del portale salute che troviamo come vedete non sono particolarmente esplicativi. Infatti il nostro crawler
non è uno strumento intelligente. Lui spazzola il contenuto HTML della pagina e propone come sommario di questo contenuto quello che lui trova all'inizio del codice e quindi come vedete c'è scritto che è il titolo della pagina, poi c'è vai al contenuto vai alla navigazione che sono due elementi nascosti all'inizio di tutti i nostri siti, c'è regione
e poi dopo ci sono le voci del menu del portale. Come vedete l'abstract è identico per tutti i contenuti di questo portale e quindi non fornisce nessuna informazione delle due, anzi confonde l'utente che sta facendo la ricerca. Altro problema del nostro crawler è che i risultati
non sono pertinenti ma spesso sono anche obsoleti. Se il nostro utente raffina la sua ricerca e dice voglio i vaccini sul covid relativi al covid, continua a ricevere risultati non pertinenti, ne ha solamente 39 è fortunato però sono comunque risultati non pertinenti, arriva questo
che si chiama relazione covid 28 aprile dice a caspita però che bello ho trovato un contenuto aggiornatissimo fammi andare a vedere in realtà è un documento sì del 28 aprile ma del 2020. Altro problema del nostro motore di ricerca che utilizza il crawler è che i risultati non sono
anche particolarmente aggiornati perché per esempio se cerca di raffinare ulteriormente la sua ricerca e cerca prenotazione vaccini trova comunque dei risultati non pertinenti, due sono del portale informa famiglie che chiaramente non c'entra col fatto di andarsi a vaccinare, un comunicato stampa che però è di agosto 2020 e il primo è una notizia che
tra l'altro è del 2018 e che se l'utente ci clicca in realtà riceve un messaggio d'errore perché quella notizia è stata messa off line e il nostro crawler non se ne ha ancora accorto. Quindi l'utente come può reagire? Si mette le mani nei capelli e scappa a gambe levate perciò abbiamo
ritenuto che fosse decisamente giunto il momento di fare qualcosa e abbiamo riprogettato il nostro motore di ricerca. In realtà non siamo partiti da zero ma abbiamo fatto tesoro di quello che avevamo quindi abbiamo mantenuto solar come base come motore di ricerca, abbiamo mantenuto la
nostra interfaccia site search ma migliorandola perché abbiamo fatto test di usabilità e abbiamo capito quali erano i limiti dell'interfaccia che stavamo utilizzando e soprattutto abbiamo fatto tesoro dell'esperienza su Orma che è la nostra intranet dove utilizzavamo solar ma indicizzato da plone e abbiamo cercato di superare i limiti che abbiamo visto
nel tempo con questo strumento. Che cosa volevamo ottenere dal nostro nuovo motore di ricerca? Volevamo da un lato sicuramente avere dei risultati migliori e quindi contenuti aggiornati in tempo reale. Volevamo poter fare
una ricerca multiportale ma al tempo stesso cercare solamente nel sito in cui mi trovavo. Volevamo poter scegliere i tipi di contenuto, i portali da indicizzare perché come vi dicevo noi abbiamo più di 40 portali ma solo 40 sono quelli che vogliamo che facciano parte del nostro network, del nostro motore di ricerca e già che c'eravamo volevamo anche poter influire sui risultati delle ricerche e dare più o meno peso a
certi risultati in base a certi parametri magari anche in modo facile. Volevamo non solo risultati migliori ma anche dare una migliore esperienza utente per gli utenti che visitano il nostro sito e fanno le ricerche quindi sul front-end volevamo in particolare dargli anche
la possibilità di fare dei filtri, di ordinare risultati a piacere e volevamo anche che potessero gestire le ricerche avanzate su particolari tipi di contenuto sempre nella stessa interfaccia. Una migliore esperienza utente volevamo anche per i nostri redattori e quindi abbiamo lavorato
anche sul back-end e in particolare volevamo consentire i redattori di gestire in maniera più semplice i link sponsorizzati che vi facevo vedere prima e di gestirli direttamente loro senza dover necessariamente coinvolgere un tecnico e volevamo poter personalizzare il ranking e quindi dare più o meno peso ai risultati in maniera però semplice e con un
pratico pannello di controllo a nostra disposizione. Abbiamo quindi deciso di usare il metodo solar push che era quello che vi dicevo utilizzato nella intranet. Il metodo solar push consiste nel fatto che è plone che gestisce l'indicizzazione e quindi quando viene
pubblicato un contenuto oppure quando viene modificato un contenuto pubblicato è plone che passa i suoi metadata a solar per indicizzarlo. Dopodiché quando un utente fa una ricerca all'interno del sito è sempre plone che si occupa di interrogare solar e quindi restituisce i risultati della ricerca all'utente.
Allo stesso modo quando un contenuto viene cancellato o quando viene messo offline è sempre plone che si preoccupa di dire a solar toglielo dall'indice che non voglio più che esca nei risultati delle ricerche e questo soddisfa il nostro requisito di garantire che i contenuti siano sempre aggiornati in tempo reale. Siamo poi intervenuti sul front end
per i nostri utenti in primo luogo perché volevamo dargli la possibilità di scegliere dove cercare quindi solamente in questo sito web oppure in tutti i siti regionali. Di default nei portali tematici la ricerca sarà solamente in questo sito web mentre se entreremo
nel portale R la ricerca sarà in tutti i siti regionali. Poi ci sarà anche la possibilità di cercare semplicemente in una particolare sezione del nostro sito e quindi se partirò dalla ricerca all'interno di una specifica sezione con la ricerca contestuale avrò anche la possibilità di mantenere il filtro di ricerca solamente in quel sito. Dopodiché come vi dicevo volevamo dare
la possibilità all'utente di avere delle informazioni che gli garantissero di capire dove si trova, che cosa sta facendo e la possibilità di fare dei filtri. Quindi in primo luogo noi gli mostriamo qual è la parola che ha cercato, quali sono i risultati
della ricerca anche rispetto ai filtri che eventualmente ha impostato. Gli diamo più informazioni sui contenuti che trovano i risultati e quindi qual è la data di aggiornamento. Finalmente una descrizione parlante, quali sono le parole chiave che sono associate a quel contenuto. Gli facciamo vedere un'icona che
proprio a colpo d'occhio fa capire di quale tipo di contenuto si tratta e in certi casi particolari come per esempio nei bandi, gli facciamo anche vedere qual è la data di scadenza per la partecipazione al bando. Poi l'utente può interagire con questa maschera di ricerca e può ordinare
risultati per data o per titolo se non gli va bene la rilevanza che propone di default. Può filtrare per parole chiave e può anche scegliere di filtrare per la tipi di contenuto che vedremo dopo. Siamo intervenuti le front-end non solo per quanto riguarda la versione desktop ma anche sulla versione mobile per rendere
più fruibile i nostri risultati anche da mobile e quindi prima di tutto all'utente mostriamo i risultati, mostriamo la parola che ha cercato e dopodiché con un pulsante ricerca avanzata l'utente può scegliere di approfondire la ricerca e di utilizzare i filtri con questa maschera che si apre in
sovrimpressione. Anche questo ovviamente soddisfa entrambi i nostri desideri di poter avere comunque una scelta solo in questo sito o in tutti i siti e di dare all'utente la possibilità di fare dei filtri ma mantenendo un'interfaccia semplificata.
Come vi dicevo sui filtri per i tipi di contenuto abbiamo la possibilità di fare dei raggruppamenti per cui non presentiamo esattamente tutti i tipi di contenuto di plone anche perché l'utente non necessariamente li conosce ma li raggruppiamo per esempio abbiamo fatto qua un raggruppamento che si chiama news che unisce tre tipi di contenuto diversi, la notizia base di plone, notizie esterne e
notizie avanzate. Questa sarebbe la configurazione di default che proponiamo in tutti i nostri siti però in realtà se in un particolare sito per esempio io ho gli eventi che non hanno una particolare rilevanza e li tratto insieme alle notizie come tutti elementi di attualità posso con un semplice click all'interno del pannello di
configurazione cambiare la mia etichetta, la chiamo attualità, aggiungo il tipo di contenuto evento a quelli che voglio mostrare in questo raggruppamento e come vedete prima c'erano le news, adesso c'è attualità e l'attualità raggruppa anche gli eventi e questo è sempre un'altra funzionalità
che ci serve per soddisfare il requisito di dare all'utente la possibilità di fare dei filtri in maniera semplificata sui contenuti. Abbiamo anche sempre in questo pannello di controllo la possibilità di indicare un'icona per rendere più chiaro qual è il raggruppamento e quali sono i contenuti che verranno mostrati e
possiamo anche mostrare in certi casi particolari dei filtri avanzati, per esempio se io scelgo il tipo di contenuto evento e scelgo di usare il filtro avanzato eventi vedrò comparire qua in alto nella mia maschera dei risultati la possibilità di fare dei filtri su un calendario e quindi scegliere la data di inizio e di fine degli eventi che sto cercando e questo
risponde alla possibilità di fare delle ricerche avanzate su certi tipi di contenuto e quindi sostituire quei motori di ricerca verticali che avevamo sviluppato ad hoc e gestire tutto all'interno di un'unica interfaccia, c'è infatti anche una ricerca avanzata per i bandi per esempio che
consente di cercare i bandi per tipologia, per destinatario, per data di scadenza, per fare la domanda e ci sono ricerche avanzate per le pubblicazioni, per i catti stampa, eccetera. A metà strada tra il front-end e il back-end abbiamo la
gestione dei link sponsorizzati come vi dicevo noi abbiamo la possibilità di suggerire dei particolari contenuti a fronte di particolari ricerche, questo oggi si potrà fare da parte dei redattori con una interfaccia molto semplice da utilizzare in cui devono inserire la parola chiave a cui vogliono associare un contenuto e scegliere
all'interno del loro sito il contenuto che vogliono che esca a fronte di quella ricerca, quindi per esempio se il nostro utente cerca orientamento gli uscirà questa homepage della nostra area tematica orientamento come primo risultato in evidenza che lo invita a partire da lì per trovare quello che sta cercando e questo soddisfa il nostro
desiderio di dare ai redattori la possibilità di aggiornare i link sponsorizzati in maniera autonoma e semplice e anche il nostro desiderio di poter personalizzare i risultati delle ricerche perché appunto in questo modo riusciamo a spingere in alto certi contenuti.
Restando sul back-end, avevamo detto che volevamo poter scegliere quali tipi di contenuti indicizzare perché non tutti li riteniamo rilevanti per le ricerche degli utenti, per esempio abbiamo scelto di escludere dall'indicizzazione le cartelle, le collezioni, le newsletters e i contenuti di tipo audio, video
e immagine. Questa sarebbe la configurazione di base con cui partono tutti i nostri siti, però se all'interno di un nostro sito certi contenuti sono importanti, per esempio nel sito del patrimonio culturale le immagini sono particolarmente rilevanti perché hanno delle magnifice raccolte,
gli alberi monumentali, le farfalle, eccetera, e quindi si vuole indicizzare questo contenuto semplicemente con un click si indica nel pannello di controllo che deve essere indicizzato anche lui e in quel sito si potranno fare ricerche anche sulle immagini. Volevamo poi poter scegliere
sempre nella personalizzazione dei risultati delle ricerche anche se indicizzare o meno dei contenuti e se potenziare certi specifici contenuti. Questa scelta volevamo che fosse in capo al redattore che sa il suo contenuto, se è rilevante o meno, e quindi quando si gestisce un contenuto nel tab categorizzazione
c'è questo flag che serve per scegliere se indicizzarlo o meno e quindi tolgo il flag e questa pagina non sarà indicizzata e poi posso indicare delle parole chiave per cui quando l'utente fa una ricerca con questa parola chiave questo contenuto avrà un ranking maggiore e quindi uscirà
più in alto nei risultati. Abbiamo poi anche la possibilità di fare delle personalizzazioni molto di fino sui risultati delle ricerche e possiamo decidere per esempio di alzare o abbassare il ranking a seconda dei tipi di contenuto e quindi dare più o meno peso, per esempio noi daremo
alle pagine e alle notizie e daremo meno peso invece ai file, questo perché quando l'utente arriva su un file non necessariamente capisce il contesto in cui questo documento è inserito e quindi noi vogliamo che lui arrivi prima sulla pagina dove il file è linkato, capisce il contesto e capisce se quel documento effettivamente era
quello che stava cercando. Vogliamo influire anche sul peso delle pagine in base alla profondità in cui si trovano i nostri contenuti all'interno dell'albero di navigazione del sito per cui se un contenuto è più basso all'interno dei rami riceverà un punteggio minore e se invece si trova più in alto, più vicino alla radice del sito avrà un punteggio
maggiore e uscirà per primo nei risultati delle ricerche. E poi come vi dicevo prima anche potremmo intervenire su specifici contenuti proprio per tarare al massimo i nostri risultati come riteniamo che sia migliore per i nostri utenti. Questo è un pannello di controllo solamente per
noi amministratori perché come vedete si usano delle particolari termini particolari e questi pesi ed è proprio il lavoro che stiamo facendo in questo momento per tarare al meglio il nostro motore. Abbiamo poi altre impostazioni nel back-end. Uno dei nostri desideri era anche quello di scegliere quali portali indicizzare e quindi abbiamo
un semplice flag che ci dice se in quel portale la ricerca è attiva su Solar oppure no. Se disattiviamo la ricerca di Solar in automatico c'è la ricerca di Plone sempre presente. Abbiamo poi questa comoda funzione per indicizzare un portale da capo per cui come nell'esempio che vi facevo prima nel sito
del patrimonio culturale decidiamo che da quel momento vogliamo aggiungere anche le immagini al nostro motore di ricerca e quindi reindicizziamo tutto quanto per poter avere anche indicizzate le immagini che erano già state caricate nel sito e poi ci sono altre impostazioni come per esempio la possibilità di scegliere quante parole o quanti caratteri può inserire
l'utente nella forma di ricerca. Queste sono tutte le specifiche del nostro motore di ricerca come se non bastasse e a gratis avendo indicizzato tutti i contenuti su Solar abbiamo ottenuto anche le collezioni multiportale che sono una feature molto utile perché
ci consente di fare delle collezioni che pescano i dati non solamente all'interno del sito in cui mi trovo ma da qualunque altro sito che ha indicizzato e quindi per esempio noi possiamo fare una collezione che raccoglie tutti i bandi che vengono pubblicati da tutti i portali regionali e oltre al filtro sul tipo di contenuto quindi basta scegliere che vogliamo che
lo cerchi su Solar e indicare quali sono i siti su cui vogliamo che faccia la ricerca. Possiamo scegliere che vogliamo che cerchi in tutti i nostri siti o possiamo anche filtrarne solo due se vogliamo per esempio sul portale imprese far vedere i bandi che sono pubblicati sia sul portale imprese che sul portale energia. Queste
sono le nostre funzionalità come vi dicevo ci stiamo lavorando perché stiamo cercando di raffinare i pesi da dare ai vari tipi di contenuti quindi le query da fare su Solar per ottimizzare i risultati ma stiamo comunque anche già pensando al futuro e quindi vogliamo che possano essere indicizzati su Solar e quindi restituiti quei
risultati del nostro motore anche i contenuti che non sono di PLONE e quindi abbiamo predisposto lo schema dei metadata che noi mandiamo a Solar in modo che anche altri siti che non utilizzano PLONE o applicazioni possano mandare i loro contenuti utilizzando gli
stessi metadata a Solar e PLONE possa interrogare anche quelli forniti come risultati delle nostre ricerche. Vorremmo poi in futuro poter indicizzare anche i contenuti privati e gestire i risultati simili ai forse cercavi un po' come fa Google, abbiamo delle ambizioni un po' alte per
cui per dare sempre maggiori possibilità ai nostri utenti di raffinare le loro ricerche e di trovare quello che stanno cercando. Io con questo concluso vi lascio i miei riferimenti, ringrazio Red Art Hall per avermi chiamata a partecipare a questo evento, per cui partecipo molto volentieri.
Qui ci sono i link ai nostri repository dove sono pubblicati prodotti con cui gestiamo queste feature che vi ho raccontato e vabbè le attribuzioni per le icone che ho messo nella mia presentazione. Vi ringrazio e buon proseguimento.