Optimisation par réduction d incertitudes : application à la recherche d idéotypes

: application à la recherche d idéotypes Victor Picheny 1, D. Da Silva et E. Costes 2 Rencontres du réseau Mexico, Toulouse 23 mai 2014 1. INRA MIAT 2. INRA GAP

Plan de l exposé 1 Introduction : recherche d idéotypes 2 Optimisation à l aide des processus gaussiens 3 4 Application au simulateur MAppleT 2/19

Retour sur le simulateur MAppleT Un problème simplifié : Traits géométriques : Performance : Distance internoeuds Surface feuille Diamètre branche Angle MappleT + VPLANT Interception lumineuse 3/19

Objectif : recherche d idéotypes performants Problème d optimisation classique Objectif : trouver la meilleure combinaison de traits pour l interception lumineuse Traits = variables continues Domaine de variation : intervalles réalistes Quelle pertinence des résultats? Optima dans les coins du domaine Variétés non atteignables (?) par croisement 4/19

Reformulation du problème Introduction d un deuxième objectif : coût de conception Coût de conception = distance d une combinaison de traits à des phénotypes réels Antagoniste avec la performance Quelle fonction de coût? Données disponibles : 123 observations Pas de lien explicite au génotype Solution raisonnable : distance au nuage de points 5/19

Coût de conception Coût log(d(x) densité de probabilité (gaussienne) des 123 observations Area 20 40 60 80 100 20 40 60 80 100 20 40 60 80 100 20 25 30 35 40 45 50 3 4 5 6 7 8 0 20 40 60 80 INL 20 30 40 50 20 30 40 50 3 4 5 6 7 8 0 20 40 60 80 Diameter 3 4 5 6 7 8 0 20 40 60 80 6/19

Optimisation multi-critères Deux objectifs antagonistes { min -Performance min Coût Solution = ensemble de Pareto Obj2 0.2 0.4 0.6 0.8 1.0 Obj1 7/19

Quels défis? Calcul de l interception lumineuse Modèle coûteux (45min) Boîte-noire (sans dérivées) Fonction non convexe (Stochastique!) Algorithmes classiques inutilisables Solution retenue (parcimonieuse!) Métamodèle + échantillonnage adaptatif Nouvel algorithme adapté au cas multi-objectifs 8/19

Une solution classique : métamodélisation x Simulateur y(x) Plan d'exp. Objectif Métamodèle S... S x 1,..., x N y 1,..., y N S ŷ(x) enrichissement Utiliser au mieux le métamodèle pour piloter les nouvelles expériences y(x) 4000 2000 0 2000 4000 x Prédicteur Observations 9/19

Métamodélisation par processus gaussiens Hypothèse fondamentale y est une réalisation de Y (x) PG ( µ(x), k(x, x ) ) Métamodèle = loi conditionnelle aux observations Métamodèle probabiliste Beaucoup d information exploitable pour l optimisation! y(x) 4000 2000 0 2000 4000 x Prédicteur Observations 10/19

Stratégies d enrichissement adaptatif Principe : critères d échantillonnage Mesure de l intérêt d une observation potentielle grâce au métamodèle Stratégie : on effectue l observation maximisant le critère Critères pour l optimisation Référence : Amélioration espérée = plus grand gain attendu sur l objectif Jones, Schonlau & Welch, Efficient global optimization of expensive black-box functions Journal of Global optimization 13 (4), 455-492 (1998) 4000 2000 0 2000 4000 0.0 1.0 2.0 Critère 11/19

Retour au problème multi-objectifs Illustration : 2 objectifs, 1 dimension, 6 observations Un modèle PG pour chaque objectif 3 observations Pareto-dominantes f1(x) 0.0 0.5 1.0 1.5 Obj1 f2(x) 4000 2000 0 2000 4000 Obj2 Obj2 4000 2000 0 2000 4000 Pareto front x x Obj1 Comment choisir l observation suivante? 12/19

Stepwise uncertainty reduction (SUR) Principe Mesure d incertitude par rapport à un objectif Observation suivante : réduction optimale de l incertitude SUR et optimisation multi-objectifs Critère d incertitude = volume de l ensemble d excursion derrière le front f1(x) 0.0 0.5 1.0 1.5 Obj1 Obj2 1.2 0 x x 13/19 f2(x) 4000 2000 0 2000 4000 4000 2000 0 2000 4000 p(x)

Calcul du critère d échantillonnage [CENSURÉ] Pour croquer dans cette pomme empoisonnée, lire : V. Picheny (2014) Multiobjective optimization using Gaussian process emulators via stepwise uncertainty reduction, Statistics and Computing (on press) 14/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 0 1 2 3 4 Obj2 Sampling crit 15/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 0 2 4 6 8 Obj2 Sampling crit 15/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 0 1 2 3 4 Obj2 Sampling crit 15/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 0.0 0.5 1.0 1.5 2.0 2.5 Obj2 Sampling crit 15/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 0.0 0.5 1.0 1.5 2.0 Obj2 Sampling crit 15/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 Obj2 Sampling crit 15/19

Illustration 4000 0 2000 4000 0.0 0.5 1.0 1.5 Obj1 Pareto 1.2 J 4000 0 2000 4000 0.0 0.2 0.4 0.6 Obj2 Sampling crit 15/19

Application au simulateur MAppleT Configuration Initialisation : 50 observations 110 itérations de l algorithme 1 min pour trouver la nouvelle observation (45min par simulation) Résultats Front étendu malgré le faible nombre de simulations Ensemble de variétés potentielles Feasability 5 0 5 10 15 20 Croix : observations initiales Cercles : nouvelles observations 350 250 150 50 Performance 16/19

3 arbres Pareto-optimaux Paramètre LB UB x1 x2 x3 Branching Angle 20 120 79 77 79 Internode Length (m) 0.008 0.051 0.050 0.048 0.044 Top Shoot Diameter (m) 0.001 0.0085 0.0069 0.0074 0.0066 Leaf Area (m 2 ) 0.0003 0.011 0.0089 0.0065 0.0046 PLA - - 360 310 214 Feas. - - 4-1.2-4.3 17/19

Quelques perspectives Application Résultats sous une forme plus facilement exploitables (chemins?) Approfondissement de la notion de faisabilité Traitement des aspects stochastiques Transposition à d autres modèles (SUNFLO) Algorithme Gestion des corrélations entre objectifs Parallélisation, données bruitées Paquet R en préparation... 18/19

The End 19/19

Ensemble des simulations MAppleT 0.0 0.4 0.8 0.0 0.6 BA 0.0 0.6 0.0 0.4 0.8 IL TSD 0.0 0.6 0.0 0.6 0.0 0.6 0.0 0.6 LA 19/19