Le métier de bio-informaticien·ne, c’est quoi ?#
La bio-informatique se situe à l’interface entre la biologie, l’informatique et les statistique. Le métier consiste à :
concevoir des analyses de données biologiques (NGS, protéomique, imagerie, métabolomique, phénotypage, etc.) ;
développer des scripts/pipelines robustes et reproductibles ;
interpréter les résultats avec les équipes expérimentales ;
diffuser des outils, des jeux de données et des bonnes pratiques FAIR.
Domaines d’application (exemples)#
Génomique : contrôle qualité (FastQC/MultiQC), alignement (BWA/Bowtie2), appel de variants (bcftools/GATK), annotation.
Transcriptomique (RNA-seq) : quasi-mapping (salmon), quantification, tests différentiels, enrichissements fonctionnels.
Épigénomique : ChIP-seq/ATAC-seq, analyse de pics, intégration multi-omiques.
Protéomique : identification/quantification, recherche de PTM, intégrations protéome-génome.
Imagerie : segmentation, extraction de features, apprentissage profond, tracking.
Microbiome/Métagénomique : classification taxonomique, profils fonctionnels, diversité.
Les piliers du métier#
Programmation scientifique : Python (numpy/pandas/matplotlib), R (tidyverse/bioconductor).
Systèmes : Linux/CLI, gestion de paquets (conda/mamba), conteneurs (Docker/Singularity/Apptainer).
Statistique & modélisation : tests, modèles linéaires, contrôle du FDR, apprentissage machine.
Reproductibilité : Git/GitHub, notebooks (Jupyter), pipelines (Snakemake/Nextflow), CI.
Données & FAIR : métadonnées, formats standards (FASTQ/SAM/BAM/VCF/GFF), dépôts publics.
Interop & infra : HPC/SLURM, Cloud, stockage, sécurité/éthique/RGPD.
Un workflow type (NGS)#
Planifier : design expérimental, puissance/statistiques, métadonnées.
Acquérir : FASTQ + checks (intégrité, encodage).
QC : FastQC/MultiQC, trimming si besoin.
Aligner/Quantifier : BWA/Bowtie2, salmon/kallisto.
Analyser : variantes, expression différentielle, enrichissements.
Valider : contrôles positifs, réplicats, sensibilités/spécificités.
Documenter & publier : figures, rapport, dépôt de données, archivage.
Boîte à outils recommandée#
Gestion d’environnements : conda/micromamba (fichiers environment.yml).
Pipelines : Snakemake/Nextflow + profils HPC/Cloud.
Qualité : MultiQC ; tests unitaires simples sur fonctions critiques.
Visualisation : matplotlib/plotly/seaborn, IGV, UCSC Genome Browser.
Packaging : pyproject.toml, versions épinglées, conteneurs pour la prod.
Collab : Git/GitHub (issues, PR), conventions de nommage et de logs.
Qualité, éthique, diffusion#
Traçabilité : versions d’outils, références génomiques, paramètres ; journal d’analyse.
Éthique & RGPD : pseudonymisation, contrôles d’accès, consentements, DPIA si nécessaire.
FAIR : formats ouverts, DOIs, documentation d’accès/reprise, licences claires.
Bonnes pratiques CNRS (recommandations rapides)#
Données : séparer brutes / intermédiaires / résultats, versionner les scripts mais pas les gros binaires (utiliser des DOIs ou DRS).
Paramètres : conserver un fichier YAML/TOML centralisé des paramètres d’analyse.
Rapports : générer automatiquement un rapport QC (Notebook/Quarto/Markdown + MultiQC).
Formation : documenter pré-requis, temps d’exécution, taille des données, budgets HPC.
Pérennité : fournir une image conteneur (ou un environment.yml figé) + un how-to-reproduce.