La distribution de la quasi-espèce
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Part Number | 14 | |
Number of Parts | 17 | |
Author | ||
License | CC Attribution 3.0 Unported: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/20268 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
Les Probabilités de Demain14 / 17
2
17
00:00
Differential equationEntropyErgodentheorieSequenceEquationCurveNatural numberNumerical analysisSymmetry (physics)Model theoryDifferential equationMatrix (mathematics)Phase transitionFinitismusInfinityTotal S.A.Axiom of choiceDeterminismFunctional (mathematics)Group actionLimit (category theory)ChainPower (physics)LogarithmMoment (mathematics)TheoryPhysical systemSigma-algebraStandard errorTerm (mathematics)TheoremReal numberDivisorGenerating set of a groupDistanceParameter (computer programming)Mortality rateRandomizationDistribution (mathematics)Square numberSummierbarkeitPoint cloudSocial classDirection (geometry)Process (computing)Outline of industrial organizationNumerical digitAlpha (investment)Selectivity (electronic)EvoluteLengthMultiplication signSpacetimeConcentricLecture/Conference
Transcript: French(auto-generated)
00:15
Je vais présenter mes travaux de tests sur la distribution de la cassier espèce avec mon directeur, Afa El-Sair.
00:23
Pour commencer, je vais présenter les modèles de Huygen, ce qui a donné naissance à ces termes de cassier espèce. Les modèles de Huygen, c'est un modèle qui a été créé en 1971 par Manfred Huygen
00:43
dans un long article où il explore les possibles façons dont la vie a pu apparaître sur Terre et notamment les premières étapes de la vie sur Terre. D'après la théorie darwinienne, on croit que ce sont des macromolécules très simples
01:01
qui, d'une façon un peu miraculeuse, on ne sait pas trop comment, sont arrivées à se reproduire. Pour modéliser ça, Huygen a utilisé les ingrédients suivants.
01:20
D'abord, nos individus, nos macromolécules vont être identifiés avec leur génotype, ce qui est une chaîne de 0 et de 1 de longueur L. On va prendre 0 et 1 pour simplifier, mais ici on pourrait considérer n'importe quelle alphabet,
01:41
comme par exemple ATGC si on voudrait modéliser des chaînes d'ADN ou les vents aminoacides pour des protéines. C'est un modèle avec sélection et mutation. Pour modéliser la sélection, on va utiliser un paysage de fitness
02:02
qui est une fonction de l'ensemble des génotypes dans les réels positifs. Si cette fonction est une fonction constante, il n'y aurait pas de sélection. On parlerait d'une population neutre, mais ça ne nous intéresse pas.
02:20
La fonction de fitness la plus simple qu'on peut imaginer qui n'est pas neutre, c'est le paysage en pique. Le paysage en pique veut dire qu'il existe une séquence particulière, On va prendre la séquence formée par les 1 et on va l'appeler la Master Sequence.
02:46
On va dire que celle-là a une fitness sigma plus grande que 1, alors que toutes les autres ont une fitness 1.
03:03
Il y a juste une séquence qui va se reproduire plus vite que toutes les restes. Les mutations vont arriver au cours des reproductions et on va supposer qu'elles arrivent en dépendance par site de la chaîne avec probabilité Q.
03:31
La probabilité des mutées d'une chaîne U vers une chaîne V va être donnée par Q à la puissance de la distance de A min entre les deux chaînes,
03:42
A min Q à la puissance L moins la distance d'A min entre les deux chaînes. La distance d'A min c'est juste le nombre de digits qui sont différentes parce que c'est là qu'il faut muter et ailleurs il faut rester pareil. Donc entre deux chaînes on compte le nombre de digits qui sont différentes
04:02
et ça nous donne la distance d'A min. Une fois qu'on a tous nos ingrédients, on va appeler XVDT à la concentration des chaînes ayant un genotype V autant T dans une population et le modèle des gaines nous dit que cela varie selon l'équation différentielle suivante.
04:25
On somme sur tous les genotypes possibles la concentration fois leur fitness fois la probabilité de muter vers V moins XVDT fois la fitness moyenne de la population.
04:50
On fait ça pour tous les genotypes. Donc qu'est-ce qu'il nous est en train de dire cette équation? Il y a clairement deux termes.
05:01
Le premier c'est un terme des productions, on produit des chaînes de type V et le deuxième terme c'est un terme de destruction. Et la destruction est proportionnelle au taux des productions totales.
05:24
Donc si on suppose que la concentration totale des chaînes est égale à 1, on voit bien en faisant la somme en dérivant que cela reste constante au cours du temps.
05:50
Quand Egen avait proposé ce terme, il avait étudié ce qui se passe dans le cas du Sharping Landscape. Ce qu'il avait trouvé c'est que quand on fait tendre L, la longueur du génome, vers l'infini,
06:08
il existe un taux de mutation critique qui est de l'ordre log sigma sur L qui va séparer deux régimes très différents.
06:21
Si le taux de mutation est sur critique, ça veut dire qu'on moute trop vite et la master sequence ne peut rien faire. À l'équilibre on va avoir une population totalement désordonnée. Par contre, si on moute suffisamment lentement,
06:45
on ne va plus voir les désordres. À l'équilibre on va observer ce qu'on appelle une quasi-espèce, c'est-à-dire une concentration positive de la master sequence est un nuage de mutants autour.
07:16
Après avoir appris ça, il y avait plein de gens dans la communauté, surtout des virologues,
07:21
qui étaient très contents parce qu'on a fait des simulations pour voir à quoi ça ressemblait ce nuage de mutants. On s'est rendu compte que ça approchait assez bien les distributions observées expérimentalement d'après les populations des virus.
07:41
Imaginez maintenant que vous êtes quelqu'un qui est à la recherche d'un vaccin pour les VIH. Là vous n'avez rien à faire parce qu'ils moutent trop vite. Vous ne savez pas quelle séquence, quel genotype il faut attaquer. Vous ne savez pas quoi visser parce que ça moute trop vite. Maintenant vous dites, si ça moutait juste un petit peu plus vite,
08:02
on rentrerait dans la phase de désordre, ça se tuerait toute seule parce qu'ils mouteraient trop vite dans des séquences qui ne sont pas viables. Peut-être que vous allez changer votre approche pour développer des vaccins et aller essayer de remonter les taux de mutation. Qu'est-ce qui font certaines approches, notamment dans les recherches des médicaments pour les VIH.
08:25
Si vous voulez savoir plus sur ça, il y a un livre qui vient de paraître sur Espringard qui s'appelle « Quasi-Species from Theory to Experimental Systems ».
08:49
Je ne suis pas sûr si c'est « Systems » à la fin. Parle beaucoup de ça. Par contre, le problème avec ce modèle, c'est que c'est un modèle qui était conçu
09:03
pour expliquer les débuts de la vie sur Terre dont les macromolecules sont vraiment très simples. Et les virus, les génomes, ils sont un peu plus longs. Donc il y a eu pas mal de critiques à cet égard pour ce modèle
09:20
puisqu'il est un modèle à population infinie, ce qui n'est pas très cohérent parce que vous voyez, on peut former deux à la puissance celles génomes possibles et ça, pour des virus, c'est énormément plus grand que n'importe quelle taille de population qu'on peut observer dans la nature.
09:42
Donc c'est pas très cohérent de supposer que la taille de la population est infinie alors que la longueur du génome ne l'est pas. Le deuxième critique vient du fait que le modèle est déterministe.
10:02
Les gens qui ont travaillé dans la génétique de population savent depuis longtemps qu'il y a un facteur important qui guide l'évolution d'une population, c'est qu'il y a aléatoire. Donc maintenant, les challenges, c'est de retrouver le seuil d'erreur pour le taux de mutation et la distribution des caches espèces pour des modèles à population infinie et aléatoire.
10:28
Donc pour faire cela, on va prendre un des modèles les plus connus en génétique de population qui est le modèle de Wright-Fischer.
10:49
Donc on garde tout notre cadre, nos genotypes, la sélection, la mutation, tout est égal mais on va rajouter un nouveau paramètre M qui va représenter la taille de la population.
11:08
Donc le modèle de Wright-Fischer va être donné par une chaîne de Markov. A la génération N, on va avoir plusieurs chaînes différentes, peut-être de Master Sequence, j'en sais rien moi.
11:31
Et maintenant, on doit définir comment on fait pour passer à la génération suivante. Donc on va choisir la im chaîne dans la population avec une probabilité proportionnelle à sa finesse.
11:52
La probabilité de la choisir va être donnée par sa finesse divisée par la somme de finesse dans la population.
12:10
Donc avec cette loi, disons qu'on a choisi une première chaîne, on la note et on la remet dans les sacs.
12:21
Et maintenant on la fait muter et là on garde. Et maintenant on va itérer cette procédure M fois. On va prendre une chaîne avec cette loi, on va la noter, on va la remettre dans les sacs et puis on fait muter ce qu'on a noté ici et voilà.
12:42
Et comme ça jusqu'à avoir à nouveau M chaîne. Et ça va nous faire la génération M plus 1. Donc est-ce qu'il est clair les mécanismes de transition ? Oui ? Oui ? Oui oui.
13:01
Bah si ça arrive avec probabilité 1 moins Q à la puissance L. Donc voilà, on répète ça M fois avec remise et on retrouve la nouvelle mutation, la nouvelle génération. Donc en particulier, ça c'est un modèle où les générations ne se superposent pas.
13:22
Ok, le processus qu'on vient de définir est une chaîne de Markov ergodique
13:43
et on va s'intéresser aux quantités suivantes. On peut regarder les nombres d'individus dans la population N, dans la génération N pardon, qui sont des master sequences.
14:02
Ou plutôt, on peut regarder la concentration, mais encore l'espérance, mais encore la limite de l'espérance quand N tombe vers l'infini. Comme la chaîne de Markov est ergodique, cette limite est bien définie, on peut l'appeler rho de 0.
14:27
De façon plus générale, on peut considérer la quantité rho de K, qui est la limite quand N tombe vers l'infini, de l'espérance d'un nombre d'individus dans la population, dans la génération N,
14:42
qui sont à distance de Hamming K de la master sequence. Et on s'intéresse à ces quantités-là. Malheureusement, on ne peut pas dire grand chose, les choses sont entre elles,
15:02
mais on peut considérer un régime asymptotique intéressant en voyant la longueur du génome vers l'infini,
15:20
la probabilité des mutations vers 0 et la taille de la population vers l'infini aussi. Mais on ne fait pas ça n'importe comment, on dit que L x Q tend vers A et M sur L tend vers un paramètre alpha. Donc voilà, quand on fait ça, on a les théorèmes suivants qui nous disent que dans l'espace des paramètres A alpha,
15:52
on trouve une curve donnée par alpha en certaines fonctions phi dA égala ln de 2, qui va nous séparer une région où elle est des sordres et une autre où il y a la quasi-espèce.
16:08
Et là où il y a la quasi-espèce, la concentration de la master sequence va tendre vers sigma exponential moins 5 moins 100 sur sigma moins 100.
16:25
Et puis, plus généralement, la quantité Rho K va tendre vers sigma exponential moins 5 moins 100 à la puissance K sur K factorial, i plus grand que 1, i à la puissance K sur sigma à la puissance i.
16:47
Si on somme sur K ici, on va bien voir que ça fait 1. Donc ça, ça définit une distribution sur le sentier qu'on appelle la distribution de la quasi-espèce des paramètres sigma et A.
17:01
Pour voir à que ça ressemble, on peut tracer les différentes concentrations en fonction des A. Donc A va varier entre 0 et log sigma, puisqu'après la quasi-espèce disparaît. Et on va voir que la master sequence a une concentration comme ça.
17:22
Et puis, on va voir que la classe 1 fait quelque chose comme ça, puis la classe 2, puis la classe 3, etc.
17:46
Donc vous voyez quand vous êtes près du point critique, les nuages des moutons, il est beaucoup plus important que la master sequence. Donc la concentration de la master sequence peut être vraiment très très faible, alors que les nuages des moutons peut être bien plus important.
18:03
Un autre petit commentaire avant de finir, pour justifier un peu cet travail. Donc on a dit que dans les modèles de Huygens, il y avait une transition de faces pour Q de l'ordre D log sigma sur L. Donc ça revient ici. Vous voyez ici, vous avez log sigma.
18:24
Ce qui se passe dans les modèles de Huygens, c'est qu'il n'y a pas la taille de la population. Donc c'est comme si vous étiez à l'infini ici. Et du coup, vous aviez la quasi-espèce d'un côté et le désordre de l'autre. Ici on voit que quand la taille de la population est finie, même dans les régimes où pour les modèles de Huygens il y a une quasi-espèce,
18:50
maintenant il faut que la population soit suffisamment grande, soit assez grande pour que cette quasi-espèce puisse se former. S'il y a trop peu d'individus, on ne va pas pouvoir arriver à former cette quasi-espèce.
19:04
Donc voilà, avec ça j'ai fini, merci beaucoup. Vous avez des informations sur la façon dont la généalogie du processus évolue?
19:28
Est-ce qu'on est capable de dire des choses sur... J'aurais chantillonné en temps N et regardé ce qui se passe. Aucune idée. Je n'ai jamais regardé et je ne sais pas ce qui se passe. Mais normalement je pense que c'est assez compliqué de savoir ça quand il y a la sélection et la mutation.
19:51
Ici dans ton modèle, tu as fait un choix uniforme de l'individu et ensuite tu le fais muter avec cette probabilité de transition, c'est ça?
20:03
Mais le choix n'est pas uniforme. Le choix est donné selon cette loi. Donc ici on favorise les individus avec plus grand fitness. Donc la sélection ça fait dans les deux côtés. La reproduction et la mutation.
20:20
La sélection c'est d'abord ici pour reproduire. Il y a les gens qui ont plus de finesse, qui vont être choisis avec plus de probabilité. Mais après la mutation est la même pour toutes les chaînes. On va flipper chaque spin avec probabilité Q. Donc peu importe que ce soit une master sequence ou pas, la mutation marche pareil.
20:44
D'accord. D'autres régions? Tu as parlé uniquement d'un paysage à pique. Tu regardes que ça pour l'instant ou t'as déjà regardé? Non. Alors les paysages général pour l'instant c'est beaucoup trop compliqué.
21:03
Mais par contre on peut étendre des paysages qui vont dépendre de la classe de Hamming. Donc la classe de Hamming ici dans ce modèle là ça correspond au nombre de zeros qu'il y a dans la chaîne. En particulier ce qui se passe c'est que cette matrice de mutation va respecter la classe de Hamming.
21:25
Donc elle va juste pour muter d'une chaîne à une autre. On peut juste regarder le nombre de zeros que chacun de deux ont. On s'en fout de où ils sont en fait. C'est pas très grave ça. Donc du coup ce qu'on peut faire c'est qu'on peut étendre ça à des fonctions de finesse
21:43
qui toutes les séquences avec le même nombre de zeros ont la même finesse. Et ça plus ou moins on sait faire. Et est-ce que t'as essayé de regarder des paysages avec deux ou trois piques? Par exemple tu pourrais voir un paysage avec deux piques et essayer de voir si ta population évolue toujours vers le même
22:01
ou si t'as la moitié de l'application vers l'un ou vers l'autre. Alors est-ce que tu peux observer par exemple des phénomènes de spéciation? Alors là c'est plus compliqué que les trucs qui dépendent de la classe de Hamming parce que c'est pas du tout la même méthode. Donc je sais pas trop ce qui se passerait.
22:21
Normalement je pense que si t'as deux piques tu peux avoir des questions de symétrie qui peuvent t'aider. Donc en gros ce qu'il y a là, j'imagine que si les piques sont à distance finie c'est pas très intéressant. Ce qui est intéressant derrière ça c'est quand les piques sont à une distance qui est proportionnée à elles.
22:45
Mais là je pense qu'il y aurait des classes espèces qui se formeraient et pas souvent ensemble dans les deux piques. Au moins c'est ça l'impression que j'ai mais je sais pas t'assurer. S'il n'y a pas d'autres questions, merci Josépa encore une fois.
23:04
Et merci à tous les orateurs de cette première session d'après-midi.