Le métier de bio-informaticien·ne, c’est quoi ?

Le métier de bio-informaticien·ne, c’est quoi ?#

La bio-informatique se situe à l’interface entre la biologie, l’informatique et les statistique. Le métier consiste à :

concevoir des analyses de données biologiques (NGS, protéomique, imagerie, métabolomique, phénotypage, etc.) ;
développer des scripts/pipelines robustes et reproductibles ;
interpréter les résultats avec les équipes expérimentales ;
diffuser des outils, des jeux de données et des bonnes pratiques FAIR.

Génomique : contrôle qualité (FastQC/MultiQC), alignement (BWA/Bowtie2), appel de variants (bcftools/GATK), annotation.
Transcriptomique (RNA-seq) : quasi-mapping (salmon), quantification, tests différentiels, enrichissements fonctionnels.
Épigénomique : ChIP-seq/ATAC-seq, analyse de pics, intégration multi-omiques.
Protéomique : identification/quantification, recherche de PTM, intégrations protéome-génome.
Imagerie : segmentation, extraction de features, apprentissage profond, tracking.
Microbiome/Métagénomique : classification taxonomique, profils fonctionnels, diversité.

Programmation scientifique : Python (numpy/pandas/matplotlib), R (tidyverse/bioconductor).
Systèmes : Linux/CLI, gestion de paquets (conda/mamba), conteneurs (Docker/Singularity/Apptainer).
Statistique & modélisation : tests, modèles linéaires, contrôle du FDR, apprentissage machine.
Reproductibilité : Git/GitHub, notebooks (Jupyter), pipelines (Snakemake/Nextflow), CI.
Données & FAIR : métadonnées, formats standards (FASTQ/SAM/BAM/VCF/GFF), dépôts publics.
Interop & infra : HPC/SLURM, Cloud, stockage, sécurité/éthique/RGPD.

Traçabilité : versions d’outils, références génomiques, paramètres ; journal d’analyse.
Éthique & RGPD : pseudonymisation, contrôles d’accès, consentements, DPIA si nécessaire.
FAIR : formats ouverts, DOIs, documentation d’accès/reprise, licences claires.

Données : séparer brutes / intermédiaires / résultats, versionner les scripts mais pas les gros binaires (utiliser des DOIs ou DRS).
Paramètres : conserver un fichier YAML/TOML centralisé des paramètres d’analyse.
Rapports : générer automatiquement un rapport QC (Notebook/Quarto/Markdown + MultiQC).
Formation : documenter pré-requis, temps d’exécution, taille des données, budgets HPC.
Pérennité : fournir une image conteneur (ou un environment.yml figé) + un how-to-reproduce.