Cours
BioInformatique et fouille de données
M2 IBM 2012
Jean-Daniel Zucker
Objectif du Projet : Fouille de données
cliniques et biologiques
- On utilisera une base de données commune liée à la chirurgie de l'obésité: ObesOP2009
- Pour les méthodes vous utiliserez R vu en cour et découvrirez RanalyticFlow qui permet de partager du R et de visualiser graphiquement des programmes en R.
- Vous fournirez :
Analyse et Fouille de données
- Faites des flux en RAnalyticFlow pour charger et analyser ces données.
- Choisir trois parametres d'intérêt qui vous semblent d'intérêt a priori: P1, P2 et P3.
- En R (avec RAnalyticFlow) faite un flux (en anglais Analysis Flow) qui permette de construire le profil de P1, P2 et P3 aux différents temps en faisant une structure de données par parametre.
- Pour chaque parametre P1, P2 et P3 faite un flux clustering hierarchique et un clustering par k plus proche voisin. Vous pourrez faire le premier et le dupliquer.
- Comme ces données sont longitudinales, vous pourrez charger le package R kml qui permet de faire du clustering pour ce type de données et vous donne un nombre k optimal de classe.
- Calculer la silhouette de vos classes.
- Choisissez le parametre P qui vous donne la meilleure silhouette et choisissez k=2 et considérer les deux classes obtenues pour ce paramètre P.
- Utiliser l'algorithme de construction d'arbre de décision vu en cours (package rpart).
- Analyser et discuter vos résultats.
Pour la présentation
- Faire un rapport présentant votre travail (article de 4 pages plus annexes graphiques)
- Préparer une présentation de ce travail en ppt. Pour cette présentation
ne présentez que ce que vous avez fait d'original (inutile de passer trop de temps à présenter ce qui est en commun à tous) :
- Vos flux,
- Vos analyses des données,
- Vos profils, vos groupes de profils ou classes,
- Vos apprentissages des données
- Discussion des résultats
Faites un zip avec les flux RAnalytical Flow, le rapport et envoyez les à jdzucker /@/gmail.com au plus tard le 11/12/2011 à minuit.
SOUTENANCES: Mecredi 14 Décembre 2011 à 9h
Ordre de passage alphabétique.
- Données : Voici les données relatives à des patients ayant subis une opération et leur suivi, il ya 5 fichiers:
- Preop: Données bioclinique avant opérations
- 3 mois: Données à 3 mois
- 6 mois: Données à 6 mois
- 1 An: Données à 1 an
- 2 An: Données à 2 an