-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathriassunto_tesi.lyx
297 lines (258 loc) · 8.26 KB
/
riassunto_tesi.lyx
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
#LyX 2.0 created this file. For more info see http://www.lyx.org/
\lyxformat 413
\begin_document
\begin_header
\textclass article
\use_default_options true
\maintain_unincluded_children false
\language italian
\language_package default
\inputencoding auto
\fontencoding global
\font_roman utopia
\font_sans default
\font_typewriter default
\font_default_family default
\use_non_tex_fonts false
\font_sc false
\font_osf false
\font_sf_scale 100
\font_tt_scale 100
\graphics default
\default_output_format default
\output_sync 0
\bibtex_command default
\index_command default
\paperfontsize 12
\spacing single
\use_hyperref false
\papersize default
\use_geometry true
\use_amsmath 1
\use_esint 1
\use_mhchem 1
\use_mathdots 1
\cite_engine basic
\use_bibtopic false
\use_indices false
\paperorientation portrait
\suppress_date false
\use_refstyle 1
\index Index
\shortcut idx
\color #008000
\end_index
\leftmargin 3cm
\topmargin 3cm
\rightmargin 3cm
\bottommargin 3cm
\secnumdepth 3
\tocdepth 3
\paragraph_separation indent
\paragraph_indentation default
\quotes_language english
\papercolumns 1
\papersides 1
\paperpagestyle default
\tracking_changes false
\output_changes false
\html_math_output 0
\html_css_as_file 0
\html_be_strict false
\end_header
\begin_body
\begin_layout Title
Sviluppi teorici e applicativi delle metriche entropiche di Rohlin
\end_layout
\begin_layout Date
Università degli studi di Parma
\end_layout
\begin_layout Author
Dawid Crivelli
\end_layout
\begin_layout Standard
\size larger
\begin_inset Box Frameless
position "t"
hor_pos "c"
has_inner_box 1
inner_pos "t"
use_parbox 0
use_makebox 0
width "100col%"
special "none"
height "1in"
height_special "totalheight"
status open
\begin_layout Plain Layout
\size larger
\begin_inset Box Frameless
position "t"
hor_pos "c"
has_inner_box 1
inner_pos "t"
use_parbox 0
use_makebox 0
width "35text%"
special "none"
height "1in"
height_special "totalheight"
status open
\begin_layout Plain Layout
\paragraph_spacing single
\align center
Relatore:
\begin_inset Newline newline
\end_inset
Prof.
Mario Casartelli
\end_layout
\end_inset
\begin_inset space \hfill{}
\end_inset
\begin_inset Box Frameless
position "t"
hor_pos "c"
has_inner_box 1
inner_pos "t"
use_parbox 0
use_makebox 0
width "40text%"
special "none"
height "1in"
height_special "totalheight"
status open
\begin_layout Plain Layout
\align center
Correlatore:
\begin_inset Newline newline
\end_inset
Prof.ssa Raffaella Burioni
\end_layout
\end_inset
\end_layout
\end_inset
\end_layout
\begin_layout Standard
\begin_inset VSpace 1.5cm
\end_inset
\end_layout
\begin_layout Standard
In questa tesi ci siamo occupati della metrica di Rohlin sotto diversi aspetti
formali e algoritmici, per una migliore comprensione del suo significato
e della sua adattabilità allo studio di situazioni complesse, quali ad
esempio l'evoluzione di sequenze geniche o la caratterizzazione di sistemi
disordinati in meccanica statistica.
Lo scopo iniziale del lavoro era approfondire l'utilizzo delle misure entropich
e di Rohlin su sequenze biologiche, corrispondenti alla sequenza di amminoacidi
della proteina HA dei virus dell'influenza.
Differente dalla solita distanza che differenzia mutazioni puntuali nei
simboli, la distanza di Rohlin lavora nello spazio delle partizioni sulle
sequenze, permettendo di evidenziare strutture e differenze globali, con
alto potere predittivo per quanto riguarda il riconoscimento dell'emergenza
di nuovi ceppi virali a partire dalla distanza su un insieme di sequenze
campionato nel tempo.
\end_layout
\begin_layout Standard
La metrica entropica misura la distanza tra le partizioni costruite a partire
dai simboli sulle sequenze.
La scelta più semplice, che ha dimostrato ottime proprietà, corrisponde
a prendere partizioni formate da segmenti omogenei di simboli.
Abbiamo inoltre esteso il criterio di partizionamento rendendolo del tutto
generale.
Per migliorare la sensibilità delle metriche utilizzate, è risultato anche
in questo caso cruciale definire un metodo di amplificazione delle distanze,
detto
\emph on
riduzione
\emph default
, su cui abbiamo concentrato i nostri sforzi al fine di ottenere un'implementazi
one ottimale.
La riduzione consiste nella semplificazione dei fattori che non influiscono
sulla distanza: si calcola l'intersezione tra le due partizioni e si ricostruis
ce la partizione evitando di includere i fattori che risultano comuni.
\end_layout
\begin_layout Standard
Abbiamo sperimentato anche la definizione di diversi processi di riduzione,
sempre perfettamente generali, utilizzabili su partizioni non aventi una
geometria predefinita sottostante: ad esempio usando un criterio meno sensibile
a variazioni sui singoli siti, tralasciando direttamente fattori anche
nel caso in cui non sono comuni, ma differiscono in misura meno di una
soglia
\begin_inset Formula $\epsilon$
\end_inset
.
Per fare ciò si è dovuto definire operazioni binarie tra partizioni usando
algoritmi di
\emph on
clustering
\emph default
e
\emph on
sorting
\emph default
, per potere rimuovere anche i limiti sull'insieme dei simboli ammesso nelle
sequenze.
Questo rende possibile definire lo studio delle distanze tra partizioni
di qualunque forma e dimensione, generalizzando il problema allo studio
di partizioni su reticoli anche con un elevato numero di siti (
\begin_inset Formula $N\sim10^{6})$
\end_inset
prima non attaccabile, esibendo un andamento asintotico
\begin_inset Formula $\mathcal{O}(N\ln N)$
\end_inset
per singola operazione.
\end_layout
\begin_layout Standard
Nel caso di sequenze biologiche abbiamo studiato variazioni nei possibili
tipi di distanza.
La complessità nelle sequenze è solitamente misurata con l'entropia metrica
di Shannon, che dipende dalla lunghezza dei segmenti individuati.
Non essendoci un criterio fondamentale per pesare le lunghezze, abbiamo
sperimentato anche l'utilizzo dell'entropia topologica, definita solo in
base al numero di atomi in cui è stata partizionata la sequenza.
Abbiamo inoltre verificato cosa accade quando si formano partizioni nonconnesse
, per evitare che mutazioni puntuali nascondano possibili invarianze su
un piano più astratto, permettendo quindi di collegare amminoacidi uguali
anche saltando un numero massimo predefinito di simboli diversi.
Abbiamo studiato come l'informazione fornita dalla sequenza viene filtrata
dall'ignorare mutazioni su scale sempre più lunghe o utilizzando alfabeti
ridotti di amminoacidi.
Tutto per svincolarsi da supposizioni ad hoc ed esplorare il panorama delle
possibili misure, per verificare quali meglio mettono in evidenza la funzionali
tà biologica in gioco nel processo evolutivo, senza mai fare assunzioni
richiedenti la conoscenza di caratteristiche biologiche non direttamente
inferibili dalle sequenze considerate.
Si è anche analizzato diversi algoritmi per raggruppare sequenze simili,
notando che l'emergenza dei
\emph on
cluster
\emph default
di notevole interesse biologico evidenziati grazie alla distanza di Rohlin
non dipende dal metodo scelto.
Lo studio di tutte le distanze ha selezionato il miglior tipo di distanza,
in cui la
\emph on
riduzione
\emph default
ha un ruolo fondamentale, mentre un'eccessiva aggregazione di siti e mutazioni
maschera l'essenziale funzione del drift genetico.
\end_layout
\begin_layout Standard
Per sistemi di Ising in assenza di campo magnetico, l'energia del sistema
è invariante per inversione degli spin e le grandezze fisiche rilevanti
sono le differenze tra spin vicini, opportunamente rappresentate dai bordi
delle partizioni formate da cluster connessi di spin omogenei.
La distanza di Rohlin con questo partizionamento cattura solo l'effettiva
differenza tra realizzazioni dello stesso sistema rispecchiando la simmetria
dell'hamiltoniana.
Anche generalizzando l'accoppiamento al caso disordinato, la distanza media
al crescere della lunghezza delle sequenze ha permesso di definire e misurare
una lunghezza di correlazione efficace in funzione della temperatura.
Lo studio è stato esteso a un sistema bidimensionale di Ising in diversi
istanti temporali, sia all'equilibrio che in fase transiente o stazionaria
a partire da una configurazione casuale, per verificare la adattabilità
del metodo a modelli disordinati più generali del reticolo monodimensionale.
\end_layout
\end_body
\end_document