Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
aoc:bdd_ridi [2016/06/21 08:57] Stéphanie Cheviron [LES DÉMARCHES EFFECTUÉES AVANT AOC] |
aoc:bdd_ridi [2016/06/21 16:43] (Version actuelle) Stéphanie Cheviron |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ===== Moteur de recherche pour séquençage ADN ===== | + | ====== Moteur de recherche pour séquençage ADN ====== |
- | ==== L’ÉQUIPE DE RECHERCHE ET SON PROJET ==== | + | ===== L’ÉQUIPE DE RECHERCHE ET SON PROJET ===== |
- | === • Porteur du projet === | + | ==== • Porteur du projet ==== |
**Laurent Troxler**, bioinformaticien à l'UPR9022 du CNRS, Institut de Biologie Moléculaire et Cellulaire (IBMC) | **Laurent Troxler**, bioinformaticien à l'UPR9022 du CNRS, Institut de Biologie Moléculaire et Cellulaire (IBMC) | ||
- | === • Membres de l'équipe de recherche et/ou projet === | + | ==== • Membres de l'équipe de recherche et/ou projet ==== |
L'équipe de recherche de l'UPR9022 du CNRS, IBMC | L'équipe de recherche de l'UPR9022 du CNRS, IBMC | ||
- | === • Le projet de recherche === | + | ==== • Le projet de recherche ==== |
Ligne 26: | Ligne 26: | ||
Les données analysées cherchent à mettre en rapport les génomes de la mouche, des virus, des bactéries selon le type de recherche effectuée. | Les données analysées cherchent à mettre en rapport les génomes de la mouche, des virus, des bactéries selon le type de recherche effectuée. | ||
- | === • Objectifs du projet === | + | ==== • Objectifs du projet ==== |
L'équipe de l'UPR9022 a besoin d'un moteur de recherche adossé à leurs données de séquençage ADN et de microarrays afin de tester et comparer des séquences ADN de la drosophile à des génomes d'organismes connus (drosophile, virus, bactéries, champignons, etc.) | L'équipe de l'UPR9022 a besoin d'un moteur de recherche adossé à leurs données de séquençage ADN et de microarrays afin de tester et comparer des séquences ADN de la drosophile à des génomes d'organismes connus (drosophile, virus, bactéries, champignons, etc.) | ||
- | === • Financement du projet === | + | ==== • Financement du projet ==== |
CNRS | CNRS | ||
- | === • Type(s) et volume du corpus étudié === | + | ==== • Type(s) et volume du corpus étudié ==== |
Génome de la drosophile | Génome de la drosophile | ||
- | ==== LES DONNÉES DE LA RECHERCHE ==== | + | ===== LES DONNÉES DE LA RECHERCHE ===== |
- | === • Types de données === | + | ==== • Types de données ==== |
Ligne 62: | Ligne 62: | ||
Il y a donc plusieurs niveaux de données (brutes, filtrées, traitées). Après analyse, on obtient une vue synthétique consultable sur tableur. « Les données traitées sont au format SAM ou BAM (version compressée de SAM) ou des fichiers texte tabulés ou CSV lisibles par Excel.((Les citations de Laurent Troxler sont issues d'échange de courriels)) » | Il y a donc plusieurs niveaux de données (brutes, filtrées, traitées). Après analyse, on obtient une vue synthétique consultable sur tableur. « Les données traitées sont au format SAM ou BAM (version compressée de SAM) ou des fichiers texte tabulés ou CSV lisibles par Excel.((Les citations de Laurent Troxler sont issues d'échange de courriels)) » | ||
- | 2 http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm | ||
- | 3 Les citations de Laurent Troxler sont issues d'échange de courriels | ||
- | 2 | ||
- | === • Périodicité actuelle de la mise à jour de la base === | + | |
+ | ==== • Périodicité actuelle de la mise à jour de la base ==== | ||
/ | / | ||
- | === • Volumétrie des données === | + | ==== • Volumétrie des données ==== |
Ligne 96: | Ligne 94: | ||
__Génomes de référence__ : | __Génomes de référence__ : | ||
- | Les bases de données de génomes utilisées de type [[http://www.ncbi.nlm.nih.gov/genbank/|GenBank]] sont rapatriées en local. Actuellement, l'ensemble de ces bases de données sur lesquelles Laurent Troxler travaille constitue un dossier de 27Go. | + | Les bases de données de génomes utilisées de type [[http://www.ncbi.nlm.nih.gov/genbank/|GenBank]] sont rapatriées en local. Actuellement, l'ensemble de ces bases de données sur lesquelles Laurent Troxler travaille constitue un dossier de 27 Go. |
- | === • Stockage actuel des données === | + | ==== • Stockage actuel des données ==== |
Ligne 106: | Ligne 104: | ||
Les données de la recherche sont stockées sur un disque dur de 5 to + un backup (en local). Actuellement, 2 to de données sont stockées sur ces disques. Une sauvegarde Time Capsule est effectuée toutes les heures. Les données initiales sont copiées par l'équipe sur d'autres disques durs. Les tableaux finals sont renvoyés à l'équipe par Laurent Troxler. | Les données de la recherche sont stockées sur un disque dur de 5 to + un backup (en local). Actuellement, 2 to de données sont stockées sur ces disques. Une sauvegarde Time Capsule est effectuée toutes les heures. Les données initiales sont copiées par l'équipe sur d'autres disques durs. Les tableaux finals sont renvoyés à l'équipe par Laurent Troxler. | ||
- | Il y a quelques années l'Institut a mis en place une politique de sauvegarde des données de chaque ordinateur sur un serveur commun. Mais des problèmes de sauvegarde, de lenteur du réseau, de manque de fiabilité du système ont poussé l'UPR9022 à se retirer et depuis, chaque chercheur gère sa sauvegarde sur disque dur xterne avec Time Machine (mac). Les utilisateurs temporaires peuvent sauvegarder sur un disque dur commun relié en wifi. Certains chercheurs gardent une copie sur disque dur chez eux. | + | Il y a quelques années l'Institut a mis en place une politique de sauvegarde des données de chaque ordinateur sur un serveur commun. Mais des problèmes de sauvegarde, de lenteur du réseau, de manque de fiabilité du système ont poussé l'UPR9022 à se retirer et depuis, chaque chercheur gère sa sauvegarde sur disque dur externe avec Time Machine (mac). Les utilisateurs temporaires peuvent sauvegarder leurs données sur un disque dur commun relié en wifi. Certains chercheurs gardent une copie sur disque dur chez eux. |
__Autres types de données__ : | __Autres types de données__ : | ||
Ligne 117: | Ligne 115: | ||
L'équipe dépose désormais tout sur ce site. Lors de la soumission de la publication, il faut fournir le numéro GEO attribué aux données brutes et seuls les peer reviewers y ont accès. Les données brutes doivent être rendues publiques (au bout de trois ans maximum), mais aussi les données traitées si elles sont disponibles. | L'équipe dépose désormais tout sur ce site. Lors de la soumission de la publication, il faut fournir le numéro GEO attribué aux données brutes et seuls les peer reviewers y ont accès. Les données brutes doivent être rendues publiques (au bout de trois ans maximum), mais aussi les données traitées si elles sont disponibles. | ||
- | === • Logiciels et sites utilisés / à disposition pour créer / gérer les données de la recherche === | + | ==== • Logiciels et sites utilisés / à disposition pour créer / gérer les données de la recherche ==== |
Ligne 146: | Ligne 144: | ||
Outil open source utilisé en bio-informatique pour visualiser des données issues de l'alignement de séquences ADN sous forme de « camemberts ». Il est utilisé à travers un pipeline mis en place par une thésarde de l'unité. Il produit un fichier au format HTML5 zoomable, lisible par tous les navigateurs internet modernes. | Outil open source utilisé en bio-informatique pour visualiser des données issues de l'alignement de séquences ADN sous forme de « camemberts ». Il est utilisé à travers un pipeline mis en place par une thésarde de l'unité. Il produit un fichier au format HTML5 zoomable, lisible par tous les navigateurs internet modernes. | ||
- | ==== LES DÉMARCHES EFFECTUÉES AVANT AOC ==== | + | ===== LES DÉMARCHES EFFECTUÉES AVANT AOC ===== |
Ligne 156: | Ligne 154: | ||
Les résultats peuvent être affichés de deux manières: | Les résultats peuvent être affichés de deux manières: | ||
* les valeurs pour chaque microarray avec l'écart type et un drapeau qualitatif, | * les valeurs pour chaque microarray avec l'écart type et un drapeau qualitatif, | ||
- | * les ratios de ces valeurs par rapport à une valeur de référence (celle d'un microarray de référence pour cette manip). » | + | * les ratios de ces valeurs par rapport à une valeur de référence (celle d'un microarray de référence pour cette manip)((http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm)). » |
Il n'y a pas de statistiques d'utilisation. Cependant, les problèmes d'accès au serveur et de fichiers | Il n'y a pas de statistiques d'utilisation. Cependant, les problèmes d'accès au serveur et de fichiers | ||
déplacés font que l'outil n'est plus vraiment utilisé. | déplacés font que l'outil n'est plus vraiment utilisé. | ||
- | ==== LE CONTEXTE JURIDIQUE ==== | + | ===== LE CONTEXTE JURIDIQUE ===== |
- | === • Conventions de partenariat === | + | ==== • Conventions de partenariat ==== |
/ | / | ||
- | === • Licences (degré d'ouverture des données, restrictions éventuelles) === | + | ==== • Licences (degré d'ouverture des données, restrictions éventuelles) ==== |
- | Le futur moteur de recherche devra être librement consultable par la communauté scientifique. | + | Le futur moteur de recherche devra être librement consultable par la communauté scientifique. On doit pouvoir choisir quelles données sont accessibles à tous et quelles autres sont d'accès restreint. Quel périmètre ? A définir (CNRS ? Strasbourg?) Voir stratégie au niveau du CNRS, qu'est ce qui est possible de faire ? |
- | On doit pouvoir choisir quelles données sont accessibles à tous et quelles autres sont d'accès | + | |
- | restreint. Quel périmètre ? A définir (CNRS ? Strasbourg?) Voir stratégie au niveau du CNRS, qu'est | + | |
- | ce qui est possible de faire ? | + | |
- | === • Droit d'exploitation et de reproduction d'images, sons, vidéos, etc. === | + | ==== • Droit d'exploitation et de reproduction d'images, sons, vidéos, etc. ==== |
/ | / | ||
- | ==== LA DÉFINITION DES BESOINS ==== | + | ===== LA DÉFINITION DES BESOINS ===== |
- | === • Ressources techniques (logiciels, stockage, visualisation de données, etc.) === | + | ==== • Ressources techniques (logiciels, stockage, visualisation de données, etc.) ==== |
**Stockage des données** | **Stockage des données** | ||
- | Laurent Troxler souhaite que le moteur de recherche et ses données soient hébergés en externe, à | + | Laurent Troxler souhaite que le moteur de recherche et ses données soient hébergés en externe, à la DI par exemple. Actuellement, l'hébergement du site web Wordpress de l'unité est hébergé par le CNRS. |
- | la DI par exemple. Actuellement, l'hébergement du site web Wordpress de l'unité est hébergé par | + | |
- | le CNRS. | + | |
**Moteur de recherche et base de données** | **Moteur de recherche et base de données** | ||
- | L'équipe a besoin d'une base de données de recherche pour les microarrays et surtout pour le | + | L'équipe a besoin d'une base de données de recherche pour les microarrays et surtout pour le séquençage ADN. |
- | séquençage ADN. | + | Le futur instrument de recherche doit être le plus simple possible et permettre une certaine liberté au chercheur. Il doit comporter une partie privée pour permettre l'alimentation de la base de données. |
- | Le futur instrument de recherche doit être le plus simple possible et permettre une certaine liberté | + | |
- | 6 | + | |
- | au chercheur. Il doit comporter une partie privée pour permettre l'alimentation de la base de | + | |
- | données. | + | |
__Les fonctionnalités nécessaires__ : | __Les fonctionnalités nécessaires__ : | ||
Ligne 211: | Ligne 200: | ||
* un lien vers les données brutes sur GEO. | * un lien vers les données brutes sur GEO. | ||
- | 7 | + |