La tecnologia dei microarrays



I microarrays, o matrici ad alta densità, sono la più recente di una serie di tecniche che sfruttano le caratteristiche peculiari della doppia elica del DNA, ovvero la natura complementare delle due catene e la specificità dell’accoppiamento delle basi.



Infatti, da circa 25 anni, le tecniche standard di laboratorio per il rilevamento di specifiche sequenze nucleotidiche utilizzano una sonda (probe) di DNA, costituita da un piccolo frammento di acido nucleico marcato con un isotopo radioattivo o una sostanza fluorescente. La sonda, rappresentante la sequenza complementare a quella del gene da individuare, viene posta in contatto con un supporto solido (ad esempio, un gel od un filtro poroso) sulla cui superficie sono ancorati acidi nucleici provenienti da un dato genoma. Grazie alla peculiarità degli acidi nucleici di riconoscere le sequenze ad essi complementari, la sonda può legarsi in maniera selettiva al frammento ancorato ad essa complementare così che, semplicemente misurando la presenza e la quantità di marcatore legato al supporto solido, è possibile quantificare se e quanto è stato espresso un determinato gene (Southern et al, 1975).



Questa tecnica applicata per la prima volta da Ed Southern nel 1975, ha aperto di fatto la strada alla possibilità di analizzare i profili di espressione genica di un intero organismo. Tuttavia, l’applicazione su larga scala di questa metodologia si è avuta solo di recente grazie all’utilizzo di supporti solidi non porosi, come il vetro, e alla messa a punto di tecniche fotolitografiche per la sintesi di frammenti oligonucleotidici ad alta densità spaziale. In particolare, i protocolli sviluppati dal gruppo di Pat Brown a Stanford, hanno permesso di ancorare automaticamente migliaia di catene di cDNA su vetrini da microscopio e, grazie alla loro ibridazione con campioni di mRNA marcati selettivamente con molecole fluorescenti, di studiare il profilo di espressione di colture cellulari in stati fisiologici diversi (Brown e Botstein, 1999). Parallelamente, sono state messe a punto tecniche di mascheramento fotolitografico, normalmente utilizzate nell’industria dei semiconduttori, per la produzione di microarray capaci di 400.000 sonde oligonucleotidiche su una superficie di un pollice quadrato (Lipshutz et al, 1999).

Esistono di fatto due tecnologie per la produzione di microarrays: la prima denominata a spotting e la seconda detta in situ.

Nella tecnologia spotting, le sonde da ancorare al supporto solido, normalmente un vetrino da microscopia, sono sintetizzate a parte e quindi depositate sul supporto. Tali sonde possono essere costituite da molecole di cDNA lunghe alcune migliaia di paia di basi le cui sequenze possono essere ricavate da banche dati genomiche (GenBank, dbEST o UniGene) o da librerie proprietarie costituite da cDNA non ancora completamente sequenziato. Nello studio dell’espressione di organismi eucarioti, le sequenze delle sonde sono normalmente ricavate dalle cosiddette Express Sequence Tags (EST), ovvero dalle porzioni codificanti identificate dai singoli progetti genoma. Tali banche dati contengono, assieme alle sequenze, anche tutta una serie di informazioni bibliografiche necessarie, oltre che per la scelta delle porzioni di DNA da depositare sulla matrice, anche per la successiva valutazione dei profili di espressione. Nel caso dei lieviti o di organismi procarioti le sonde sono generate per amplificazione diretta, con primers specifici, del DNA genomico. Selezionate le sequenze da studiare, il cDNA relativo viene prodotto mediante PCR ottenendo così sonde della dimensione da 600 a 2400 bps. Più recentemente, le sonde che vengono depositate sono rappresentate non tanto da frammenti di materiale genomico ottenuto via PCR, quanto piuttosto da sequenze sintetiche di oligonucleotidi lunghe 50-70 paia di basi.

Una volta prodotte, le sonde vengono depositate sul supporto solido, in genere costituito da un vetrino. La deposizione viene effettuata da sistemi robotizzati che mediante l’utilizzo di pennini prelevano le sonde direttamente dalle piastre utilizzate per la PCR e le depositano sul vetrino formando spots di circa 100-150 µm di diametro, distanziati l’uno dall’altro 200-250 µm. Durante la deposizione, il sistema di controllo del robot registra automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della matrice (identità del cDNA, coordinate sul supporto, ecc.). Una volta sul vetrino, il probe viene legato covalentemente ai gruppi amminici del supporto attraverso una reazione innescata dall’irragiamento con luce ultravioletta, mentre il cDNA in eccesso viene rimosso con semplici lavaggi dell’array. Infine, il cDNA sul supporto viene reso a catena singola attraverso una denaturazione termica o chimica.



L’altra tecnica utilizzata per la produzione di microarrays è quella detta in situ che, sviluppata da Affimetrix, è frutto dell’interazione di due tecnologie particolari, la fotolitografia e la sintesi diretta in fase solida di oligonucleotidi. La sintesi delle sonde avviene direttamente sulla superficie del supporto solido. In particolare, il supporto costituito da un wafer di silicio viene funzionalizzato con piccole sequenze di oligonucleotidi (oligo-starter). Questi oligo hanno la caratteristica di avere il gruppo reattivo protetto da gruppi fotosensibili e quindi, grazie ad una maschera fotolitografica, è possibile indirizzare la luce in specifiche posizioni dell’array e liberare i siti necessari per la sintesi della sequenza. Una volta deprotetti selettivamente i siti reattivi, è sufficiente incubare la superficie con desossiribonucleotidi protetti per allungare la catena in fase di sintesi. Ripetendo il ciclo di deprotezione grazie all’applicazione di maschere fotolitografiche diverse e di incubazione è quindi possibile aggiungere nucleotidi diversi in posizioni diverse e sintetizzare tutte le sonde necessarie per l’analisi di un dato genoma.



I targets, ovvero gli acidi nucleici da ibridizzare alle catene di cDNA ancorate al supporto solido, sono normalmente ottenuti dalla marcatura dell’mRNA proveniente da un dato organismo per mezzo di molecole fluorescenti. Probes e targets vengono poi messi a contatto per fare avvenire la reazione di ibridazione e dopo alcuni lavaggi per rimuovere i prodotti aspecifici, l’array viene passato attraverso uno scanner per la misura dei segnali fluorescenti. L’intensità dei pixel di ciascuna immagine è proporzionale al numero di molecole di tracciante presenti sullo spot e quindi al numero di probes che hanno ibridizzato le sonde ancorate al supporto.



Di fatto, livelli diversi di fluorescenza indicano livelli diversi di ibridizzazione e quindi di espressione genica. Il segnale rilevato dallo scanner viene poi sottoposto ad algoritmi di filtrazione e di pulizia del segnale e convertito in valori numerici .

In generale, quindi, un esperimento di analisi dei profili di espressione fornisce come risultato una matrice di dati, in cui le righe rappresentano i geni monitorati e le colonne corrispondono alle diverse condizioni sperimentali, quali punti temporali, condizioni fisiologiche, tessuti. Ogni elemento della matrice rappresenta quindi il livello di espressione di un particolare gene in uno specifico stato fisiologico. Ciascuna colonna è data da un vettore che ha tante dimensioni quanti sono i geni o le sequenze immobilizzate sull’array.



Questo numero può raggiungere valori notevoli che vanno da circa 6000 per il genoma di un organismo semplice come il lievito di birra, fino a 5 volte tanto qualora si stiano analizzando i profili di espressione di organismi complessi.

La gestione e l’interpretazione dell’enorme quantità di dati generata dalle matrici ad alta densità rappresentano un aspetto fondamentale di questa tecnologia. Infatti, la loro applicazione nello studio dei profili dell’espressione genica produce volumi di informazioni tali da limitare l’applicazione delle tecniche modellistiche classiche. Tali tecniche non sono generalmente applicabili in maniera soddisfacente in presenza di sistemi poco caratterizzati e descritti da quantità grandissime di dati. È necessario, quindi, avere a disposizione tutta una serie di tecniche computazionali capaci di gestire ed interpretare questi enormi database nonché di interfacciarsi con gli strumenti bioinformatici per l’analisi funzionale (database mining).



Si definiscono tecniche di database mining tutta una serie di strumenti informatici per l’esplorazione e l’analisi di grandi quantità di dati al fine di estrarre motivi caratteristici e persistenti (patterns) e regole. Gli algoritmi che costituiscono il database mining derivano da campi quali la statistica, la pattern recognition, l’intelligenza artificiale e l’analisi dei segnali; essi sfruttano le informazioni ricavate direttamente dai dati per creare dei modelli empirici in grado di descrivere il comportamento di un sistema complesso. Nel caso dei profili di espressione genica, le tecniche di database mining rappresentano un utile strumento per identificare ed isolare particolari pattern di espressione che di fatto rappresentano delle vere e proprie impronte digitali genetiche di un determinato stato fisiologico. L’analisi dei dati degli array di cDNA è normalmente basata sull’uso sinergico di test di ipotesi (hypothesis testing) e di sistemi per l’estrazione della conoscenza (knowledge discovery). I metodi di hypothesis testing sono sostanzialmente degli approcci di tipo top-down con i quali si ricercano nei dati le conferme sperimentali ad ipotesi precedentemente formulate. La knowledge discovery può essere intesa invece come un approccio bottom-up nel quale sono i dati stessi che forniscono le indicazioni necessarie alla formulazione di nuove ipotesi. Un aspetto cruciale dell’applicazione di queste procedure è l’identificazione di tutti quei geni che manifestano un’elevata attività in un determinato stato fisiologico. Questi geni attivi, e le loro relazioni, possono essere identificati attraverso tecniche quali Mean Hypothesis Testing (MHT), Cluster Analysis (CA), Principal Component Analysis (PCA) e Decision Tree (DT).

<\font>