Sanger Institute indicizza i dati sul genoma umano con Exalead

Sanger Institute é noto in tutto il mondo per il ruolo di primo piano svolto nello studio e nell’analisi dei genomi. Un esempio di eccellenza del lavoro svolto dall’istituto di Cambridge è il contributo dato allo Human Genome Project, con la scoperta dell’ordine di sequenza di un terzo del genoma umano (1.000.000.000 coppie di base).

Vista la complessità, la portata ed i volumi del patrimonio di conoscenza di una simile organizzazione, si rendeva necessario identificare una soluzione di Enterprise Search potente, flessibile e scalabile, capace di adattarsi alla crescita costante dei dati scientifici e di fornire agli utenti funzioni di ricerca avanzate.

Una ricerca che produce ogni anno un 20% di dati, infatti, ha bisogno di uno strumento con queste caratteristiche se vuole supportare volumi di dati sempre crescenti e repentini picchi di richieste da parte degli attori coinvolti.

Per sostenere l’incremento di informazioni inerenti genomica comparativa e funzionale, quindi, l’Istituto cercava una soluzione che garantisse alte prestazioni a fronte di una grande mole di dati. Inoltre, la soluzione ricercata avrebbe dovuto essere in grado di fornire un ricco assortimento di applicazioni Java e XML.

“Chiedevamo una soluzione che potesse gestire agevolmente un volume importante di dati, sia per i nostri utenti interni, che per la comunità scientifica che ha accesso a specifici progetti” ha dichiarato Tony Cox, Head of Software del Sanger Institute. Progetti che comprendono joint-venture con l’Istituto Bioinformatico Europeo – Ensembl – un centro di ricerca pubblico leader per l’accesso rapido e immediato alle informazioni sul genoma.

Attraverso una semplice ricerca testuale, gli utenti che visitano i siti http://search.sanger.ac.uk e http://www.ensembl.org/Multi/searchview hanno oggi facilmente accesso all’intera sequenza di risultati che si riferiscono a un determinato argomento tra più di 500 milioni di voci memorizzate nel database relazionale del progetto.

Leggi anche:  HyperloopTT presenta le linee guida di certificazione alla Commissione Europea

“Il nostro personale interno e la comunità di ricercatori esterni sono ora in grado di accedere istantaneamente alle informazioni di cui hanno bisogno,” ha continuato Tony Cox. “Il nostro compito è quello di fornire un contesto dietro alla ricerca, che permetta ai nostri utenti di navigare con pochi click nella specifica area di interesse.”

La soluzione proposta da Exalead permette ai ricercatori di accedere ad un database che cresce di 120 milioni di documenti ogni due mesi, con la prospettiva di raggiungere col tempo 20 miliardi di documenti. Questo permetterà al Sanger Institute di avere uno dei più grandi indici di ricerca attualmente pubblici in tutto il mondo.

"Interrogare i database con un approccio Search Based é qualcosa che potrebbe sembrare inusuale, ma in realtà é molto logico. I database infatti non sono ottimizzati per le operazioni di accesso, i motori di ricerca sì – ha affermato Rosagrazia Bombini, Managing Director di Exalead in Italia. "Exalead offre una tecnologia non intrusiva che abbatte sensibilmente i costi, fornendo risultati in real time”.