Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
aoc:bdd_ridi [2016/06/20 16:46] Stéphanie Cheviron créée |
aoc:bdd_ridi [2016/06/21 16:43] (Version actuelle) Stéphanie Cheviron |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ===== Moteur de recherche pour séquençage ADN ===== | + | ====== Moteur de recherche pour séquençage ADN ====== |
- | Mise en forme en cours // work in progress | ||
- | ==== L’ÉQUIPE DE RECHERCHE ET SON PROJET ==== | ||
+ | ===== L’ÉQUIPE DE RECHERCHE ET SON PROJET ===== | ||
- | === • Porteur du projet === | + | |
+ | ==== • Porteur du projet ==== | ||
**Laurent Troxler**, bioinformaticien à l'UPR9022 du CNRS, Institut de Biologie Moléculaire et Cellulaire (IBMC) | **Laurent Troxler**, bioinformaticien à l'UPR9022 du CNRS, Institut de Biologie Moléculaire et Cellulaire (IBMC) | ||
- | === • Membres de l'équipe de recherche et/ou projet === | + | ==== • Membres de l'équipe de recherche et/ou projet ==== |
L'équipe de recherche de l'UPR9022 du CNRS, IBMC | L'équipe de recherche de l'UPR9022 du CNRS, IBMC | ||
- | === • Le projet de recherche === | + | ==== • Le projet de recherche ==== |
L’Unité Propre de Recherche 9022 du CNRS (UPR 9022), « Réponse immunitaire et développement chez les Insectes », est l’un des trois laboratoires de l’Institut de Biologie Moléculaire et Cellulaire, Institut Fédératif du CNRS localisé sur le campus central de l’Université de Strasbourg. | L’Unité Propre de Recherche 9022 du CNRS (UPR 9022), « Réponse immunitaire et développement chez les Insectes », est l’un des trois laboratoires de l’Institut de Biologie Moléculaire et Cellulaire, Institut Fédératif du CNRS localisé sur le campus central de l’Université de Strasbourg. | ||
+ | |||
La recherche de l’UPR 9022 se concentre sur l’étude des bases moléculaires et cellulaires de la défense antimicrobienne (bactéries, champignons et virus) des invertébrés en utilisant comme modèles, la mouche du vinaigre, Drosophila melanogaster et le moustique Anopheles gambiae. | La recherche de l’UPR 9022 se concentre sur l’étude des bases moléculaires et cellulaires de la défense antimicrobienne (bactéries, champignons et virus) des invertébrés en utilisant comme modèles, la mouche du vinaigre, Drosophila melanogaster et le moustique Anopheles gambiae. | ||
+ | |||
Depuis une vingtaine d’années, ces modèles ont été développés pour l’étude du système immunitaire inné et des mécanismes de lutte contre les pathogènes ou les parasites, comme Plasmodium, responsable de la malaria((http://ibmc-ridi.cnrs.fr/fr/accueil-ridi/)). | Depuis une vingtaine d’années, ces modèles ont été développés pour l’étude du système immunitaire inné et des mécanismes de lutte contre les pathogènes ou les parasites, comme Plasmodium, responsable de la malaria((http://ibmc-ridi.cnrs.fr/fr/accueil-ridi/)). | ||
Les données analysées cherchent à mettre en rapport les génomes de la mouche, des virus, des bactéries selon le type de recherche effectuée. | Les données analysées cherchent à mettre en rapport les génomes de la mouche, des virus, des bactéries selon le type de recherche effectuée. | ||
- | === • Objectifs du projet === | + | ==== • Objectifs du projet ==== |
L'équipe de l'UPR9022 a besoin d'un moteur de recherche adossé à leurs données de séquençage ADN et de microarrays afin de tester et comparer des séquences ADN de la drosophile à des génomes d'organismes connus (drosophile, virus, bactéries, champignons, etc.) | L'équipe de l'UPR9022 a besoin d'un moteur de recherche adossé à leurs données de séquençage ADN et de microarrays afin de tester et comparer des séquences ADN de la drosophile à des génomes d'organismes connus (drosophile, virus, bactéries, champignons, etc.) | ||
- | === • Financement du projet === | + | ==== • Financement du projet ==== |
CNRS | CNRS | ||
- | === • Type(s) et volume du corpus étudié === | + | ==== • Type(s) et volume du corpus étudié ==== |
Génome de la drosophile | Génome de la drosophile | ||
- | ==== LES DONNÉES DE LA RECHERCHE ==== | + | ===== LES DONNÉES DE LA RECHERCHE ===== |
- | === • Types de données === | + | ==== • Types de données ==== |
Les données brutes sont réalisées par l'IGBMC et mises sur serveur pour un mois. | Les données brutes sont réalisées par l'IGBMC et mises sur serveur pour un mois. | ||
- | Microarrays (puces à ADN) : | ||
- | Le principe des puces à ADN repose sur les interactions de deux brins complémentaires de la | ||
- | double hélice d'ADN qui peuvent s'apparier (un peu comme une fermeture-éclair). | ||
- | Une des chaînes (la sonde) est fixée sur une surface par une de ses extrémités. La chaîne | ||
- | complémentaire (cible) peut s'y apparier pour former un composé stable (hybridation). Si on fixe | ||
- | sur un support des simples brins d'une séquence donnée, on peut détecter l'existence dans une | ||
- | solution à analyser des brins complémentaires. Tous les brins de la solution cible sont liés à une | ||
- | molécule fluorescente. | ||
- | Quand la puce a été mise en contact avec la solution cible, les brins hybridés deviennent | ||
- | fluorescents et peuvent être identifiés. La lecture des puces à ADN ou à protéines utilise en général | ||
- | un microscope de fluorescence adapté (biochip reader)2. | ||
- | « Les fichiers d'origine sont des fichiers binaires .CEL. Ensuite, après normalisation, ce sont des | ||
- | fichiers Excel ou texte .TAB d'une taille pouvant aller jusqu'à plusieurs dizaines de Mo. »3 | ||
- | Séquençage ADN : | ||
- | Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un | ||
- | fragment d’ADN donné. | ||
- | Un fichier de séquences ADN est une liste de séquences ou de bouts de séquences de même taille | ||
- | au format FASTQ (données brutes). Il est composé d'un entête, d'une séquence et d'une séquence | ||
- | qualité codée qui donne une idée de la qualité de la séquence. Ce « triplet » se répète dans le | ||
- | fichier. Les données brutes sont filtrées, puis un bout de séquence ADN est aligné en vis à vis d'un | ||
- | génome connu ou de familles de génomes pour le situer, pour savoir à quel endroit on le retrouve | ||
- | et pour savoir combien de séquences s'alignent sur ce gène. On cherche à trouver des homologies | ||
- | avec des familles de bactéries, par exemple. | ||
- | Quand il n'y a pas d'alignement possible, on procède à un assemblage des bouts de séquences qui | ||
- | se répètent pour reconstituer des enchaînements plus grands et on aligne à nouveau ces | ||
- | séquences sur la base de génomes connus. | ||
- | Il y a donc plusieurs niveaux de données (brutes, filtrées, traitées). Après analyse, on obtient une | ||
- | vue synthétique consultable sur tableur. | ||
- | « Les données traitées sont au format SAM ou BAM (version compressée de SAM) ou des fichiers | ||
- | texte tabulés ou CSV lisibles par Excel. » | ||
- | 2 http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm | ||
- | 3 Les citations de Laurent Troxler sont issues d'échange de courriels | ||
- | 2 | ||
- | === • Périodicité actuelle de la mise à jour de la base === | + | __Microarrays (puces à ADN)__ |
+ | |||
+ | Le principe des puces à ADN repose sur les interactions de deux brins complémentaires de la double hélice d'ADN qui peuvent s'apparier (un peu comme une fermeture-éclair). Une des chaînes (la sonde) est fixée sur une surface par une de ses extrémités. La chaîne complémentaire (cible) peut s'y apparier pour former un composé stable (hybridation). Si on fixe sur un support des simples brins d'une séquence donnée, on peut détecter l'existence dans une solution à analyser des brins complémentaires. Tous les brins de la solution cible sont liés à une molécule fluorescente. | ||
+ | |||
+ | Quand la puce a été mise en contact avec la solution cible, les brins hybridés deviennent fluorescents et peuvent être identifiés. La lecture des puces à ADN ou à protéines utilise en général un microscope de fluorescence adapté (biochip reader)((http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm)). | ||
+ | |||
+ | « Les fichiers d'origine sont des fichiers binaires .CEL. Ensuite, après normalisation, ce sont des fichiers Excel ou texte .TAB d'une taille pouvant aller jusqu'à plusieurs dizaines de Mo.((Les citations de Laurent Troxler sont issues d'échange de courriels)) » | ||
+ | |||
+ | __Séquençage ADN__ | ||
+ | |||
+ | Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. Un fichier de séquences ADN est une liste de séquences ou de bouts de séquences de même taille au format FASTQ (données brutes). Il est composé d'un entête, d'une séquence et d'une séquence qualité codée qui donne une idée de la qualité de la séquence. Ce « triplet » se répète dans le fichier. Les données brutes sont filtrées, puis un bout de séquence ADN est aligné en vis à vis d'un génome connu ou de familles de génomes pour le situer, pour savoir à quel endroit on le retrouve et pour savoir combien de séquences s'alignent sur ce gène. On cherche à trouver des homologies avec des familles de bactéries, par exemple. | ||
+ | |||
+ | Quand il n'y a pas d'alignement possible, on procède à un assemblage des bouts de séquences qui se répètent pour reconstituer des enchaînements plus grands et on aligne à nouveau ces séquences sur la base de génomes connus. | ||
+ | |||
+ | Il y a donc plusieurs niveaux de données (brutes, filtrées, traitées). Après analyse, on obtient une vue synthétique consultable sur tableur. « Les données traitées sont au format SAM ou BAM (version compressée de SAM) ou des fichiers texte tabulés ou CSV lisibles par Excel.((Les citations de Laurent Troxler sont issues d'échange de courriels)) » | ||
+ | |||
+ | |||
+ | ==== • Périodicité actuelle de la mise à jour de la base ==== | ||
/ | / | ||
- | === • Volumétrie des données === | + | ==== • Volumétrie des données ==== |
- | Il y a plusieurs copies de ces données à différents stades, après filtrage, sans filtrage, analysées, | + | Il y a plusieurs copies de ces données à différents stades, après filtrage, sans filtrage, analysées, etc. Il faudrait garder toutes les versions des données, parce que les méthodes d'analyse évoluent et que la reproductibilité exacte est impossible. Entre 2009 et aujourd'hui, il y a eu des changements techniques et, pour un même séquençage, on produit beaucoup plus de données pour un même coût. La taille d'une séquence est d'une centaine de nucléotides, avant c'était une trentaine. Certaines techniques permettent d'atteindre de 200 à 500 nucléotides, ce qui rend les fichiers 5 fois plus lourds. |
- | etc. Il faudrait garder toutes les versions des données, parce que les méthodes d'analyse évoluent | + | |
- | et que la reproductibilité exacte est impossible. Entre 2009 et aujourd'hui, il y a eu des | + | |
- | changements techniques et, pour un même séquençage, on produit beaucoup plus de données | + | |
- | pour un même coût. La taille d'une séquence est d'une centaine de nucléotides, avant c'était une | + | |
- | trentaine. Certaines techniques permettent d'atteindre de 200 à 500 nucléotides, ce qui rend les | + | |
- | fichiers 5 fois plus lourds. | + | |
__Microarrays__ : | __Microarrays__ : | ||
Ligne 100: | Ligne 80: | ||
__Séquençage ADN__ : | __Séquençage ADN__ : | ||
- | « Actuellement, un fichier FASTQ brut de séquençage fait de 1,8Go à 4,2Go, 2,7Go en moyenne | + | « Actuellement, un fichier FASTQ brut de séquençage fait de 1,8Go à 4,2Go, 2,7Go en moyenne (compressé par gzip, soit 4x plus décompressé). Selon la taille du génome de référence, le fichier SAM peut lui aussi faire plusieurs Go. Un séquençage est en un seul fichier. Un manip rassemble plusieurs séquençages, 12 par exemple pour le dernier (rarement moins de 4). |
- | (compressé par gzip, soit 4x plus décompressé). Selon la taille du génome de référence, le fichier | + | |
- | SAM peut lui aussi faire plusieurs Go. Un séquençage est en un seul fichier. Un manip rassemble | + | |
- | plusieurs séquençages, 12 par exemple pour le dernier (rarement moins de 4). » | + | |
Pour information, le volume des séquençages réalisés depuis 2009 : | Pour information, le volume des séquençages réalisés depuis 2009 : | ||
- | 2009 1,5 go | ||
- | 2011 18 go | ||
- | 2012 7 go | ||
- | 2012 23 go | ||
- | 2012 52 go | ||
- | 2013 17 go | ||
- | 2015 137 go | ||
- | Génomes de référence : | + | * 2009 : 1,5 go |
+ | * 2011 : 18 go | ||
+ | * 2012 : 7 go | ||
+ | * 2012 : 23 go | ||
+ | * 2012 : 52 go | ||
+ | * 2013 : 17 go | ||
+ | * 2015 : 137 go((Les citations de Laurent Troxler sont issues d'échange de courriels)) » | ||
+ | |||
+ | __Génomes de référence__ : | ||
- | Les bases de données de génomes utilisées de type [[http://www.ncbi.nlm.nih.gov/genbank/|GenBank]] sont rapatriées en local. | + | Les bases de données de génomes utilisées de type [[http://www.ncbi.nlm.nih.gov/genbank/|GenBank]] sont rapatriées en local. Actuellement, l'ensemble de ces bases de données sur lesquelles Laurent Troxler travaille constitue un dossier de 27 Go. |
- | Actuellement, l'ensemble de ces bases de données sur lesquelles Laurent Troxler travaille constitue | + | |
- | un dossier de 27Go. | + | |
- | === • Stockage actuel des données === | + | ==== • Stockage actuel des données ==== |
Ligne 127: | Ligne 104: | ||
Les données de la recherche sont stockées sur un disque dur de 5 to + un backup (en local). Actuellement, 2 to de données sont stockées sur ces disques. Une sauvegarde Time Capsule est effectuée toutes les heures. Les données initiales sont copiées par l'équipe sur d'autres disques durs. Les tableaux finals sont renvoyés à l'équipe par Laurent Troxler. | Les données de la recherche sont stockées sur un disque dur de 5 to + un backup (en local). Actuellement, 2 to de données sont stockées sur ces disques. Une sauvegarde Time Capsule est effectuée toutes les heures. Les données initiales sont copiées par l'équipe sur d'autres disques durs. Les tableaux finals sont renvoyés à l'équipe par Laurent Troxler. | ||
- | Il y a quelques années l'Institut a mis en place une politique de sauvegarde des données de chaque ordinateur sur un serveur commun. Mais des problèmes de sauvegarde, de lenteur du réseau, de manque de fiabilité du système ont poussé l'UPR9022 à se retirer et depuis, chaque chercheur gère sa sauvegarde sur disque dur xterne avec Time Machine (mac). Les utilisateurs temporaires peuvent sauvegarder sur un disque dur commun relié en wifi. Certains chercheurs gardent une copie sur disque dur chez eux. | + | Il y a quelques années l'Institut a mis en place une politique de sauvegarde des données de chaque ordinateur sur un serveur commun. Mais des problèmes de sauvegarde, de lenteur du réseau, de manque de fiabilité du système ont poussé l'UPR9022 à se retirer et depuis, chaque chercheur gère sa sauvegarde sur disque dur externe avec Time Machine (mac). Les utilisateurs temporaires peuvent sauvegarder leurs données sur un disque dur commun relié en wifi. Certains chercheurs gardent une copie sur disque dur chez eux. |
__Autres types de données__ : | __Autres types de données__ : | ||
Ligne 138: | Ligne 115: | ||
L'équipe dépose désormais tout sur ce site. Lors de la soumission de la publication, il faut fournir le numéro GEO attribué aux données brutes et seuls les peer reviewers y ont accès. Les données brutes doivent être rendues publiques (au bout de trois ans maximum), mais aussi les données traitées si elles sont disponibles. | L'équipe dépose désormais tout sur ce site. Lors de la soumission de la publication, il faut fournir le numéro GEO attribué aux données brutes et seuls les peer reviewers y ont accès. Les données brutes doivent être rendues publiques (au bout de trois ans maximum), mais aussi les données traitées si elles sont disponibles. | ||
- | === • Logiciels et sites utilisés / à disposition pour créer / gérer les données de la recherche === | + | ==== • Logiciels et sites utilisés / à disposition pour créer / gérer les données de la recherche ==== |
Ligne 167: | Ligne 144: | ||
Outil open source utilisé en bio-informatique pour visualiser des données issues de l'alignement de séquences ADN sous forme de « camemberts ». Il est utilisé à travers un pipeline mis en place par une thésarde de l'unité. Il produit un fichier au format HTML5 zoomable, lisible par tous les navigateurs internet modernes. | Outil open source utilisé en bio-informatique pour visualiser des données issues de l'alignement de séquences ADN sous forme de « camemberts ». Il est utilisé à travers un pipeline mis en place par une thésarde de l'unité. Il produit un fichier au format HTML5 zoomable, lisible par tous les navigateurs internet modernes. | ||
- | ==== LES DÉMARCHES EFFECTUÉES AVANT AOC ==== | + | ===== LES DÉMARCHES EFFECTUÉES AVANT AOC ===== |
Ligne 177: | Ligne 154: | ||
Les résultats peuvent être affichés de deux manières: | Les résultats peuvent être affichés de deux manières: | ||
* les valeurs pour chaque microarray avec l'écart type et un drapeau qualitatif, | * les valeurs pour chaque microarray avec l'écart type et un drapeau qualitatif, | ||
- | * les ratios de ces valeurs par rapport à une valeur de référence (celle d'un microarray de référence | + | * les ratios de ces valeurs par rapport à une valeur de référence (celle d'un microarray de référence pour cette manip)((http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm)). » |
- | pour cette manip). » | + | |
Il n'y a pas de statistiques d'utilisation. Cependant, les problèmes d'accès au serveur et de fichiers | Il n'y a pas de statistiques d'utilisation. Cependant, les problèmes d'accès au serveur et de fichiers | ||
déplacés font que l'outil n'est plus vraiment utilisé. | déplacés font que l'outil n'est plus vraiment utilisé. | ||
- | ==== LE CONTEXTE JURIDIQUE ==== | + | ===== LE CONTEXTE JURIDIQUE ===== |
- | === • Conventions de partenariat === | + | ==== • Conventions de partenariat ==== |
/ | / | ||
- | === • Licences (degré d'ouverture des données, restrictions éventuelles) === | + | ==== • Licences (degré d'ouverture des données, restrictions éventuelles) ==== |
- | Le futur moteur de recherche devra être librement consultable par la communauté scientifique. | + | Le futur moteur de recherche devra être librement consultable par la communauté scientifique. On doit pouvoir choisir quelles données sont accessibles à tous et quelles autres sont d'accès restreint. Quel périmètre ? A définir (CNRS ? Strasbourg?) Voir stratégie au niveau du CNRS, qu'est ce qui est possible de faire ? |
- | On doit pouvoir choisir quelles données sont accessibles à tous et quelles autres sont d'accès | + | |
- | restreint. Quel périmètre ? A définir (CNRS ? Strasbourg?) Voir stratégie au niveau du CNRS, qu'est | + | |
- | ce qui est possible de faire ? | + | |
- | === • Droit d'exploitation et de reproduction d'images, sons, vidéos, etc. === | + | ==== • Droit d'exploitation et de reproduction d'images, sons, vidéos, etc. ==== |
/ | / | ||
- | ==== LA DÉFINITION DES BESOINS ==== | + | ===== LA DÉFINITION DES BESOINS ===== |
- | === • Ressources techniques (logiciels, stockage, visualisation de données, etc.) === | + | ==== • Ressources techniques (logiciels, stockage, visualisation de données, etc.) ==== |
**Stockage des données** | **Stockage des données** | ||
- | Laurent Troxler souhaite que le moteur de recherche et ses données soient hébergés en externe, à | + | Laurent Troxler souhaite que le moteur de recherche et ses données soient hébergés en externe, à la DI par exemple. Actuellement, l'hébergement du site web Wordpress de l'unité est hébergé par le CNRS. |
- | la DI par exemple. Actuellement, l'hébergement du site web Wordpress de l'unité est hébergé par | + | |
- | le CNRS. | + | |
**Moteur de recherche et base de données** | **Moteur de recherche et base de données** | ||
- | L'équipe a besoin d'une base de données de recherche pour les microarrays et surtout pour le | + | L'équipe a besoin d'une base de données de recherche pour les microarrays et surtout pour le séquençage ADN. |
- | séquençage ADN. | + | Le futur instrument de recherche doit être le plus simple possible et permettre une certaine liberté au chercheur. Il doit comporter une partie privée pour permettre l'alimentation de la base de données. |
- | Le futur instrument de recherche doit être le plus simple possible et permettre une certaine liberté | + | |
- | 6 | + | |
- | au chercheur. Il doit comporter une partie privée pour permettre l'alimentation de la base de | + | |
- | données. | + | |
__Les fonctionnalités nécessaires__ : | __Les fonctionnalités nécessaires__ : | ||
Ligne 233: | Ligne 200: | ||
* un lien vers les données brutes sur GEO. | * un lien vers les données brutes sur GEO. | ||
- | 7 | + |