Terapix Star Formation Region IC 1396, © 2002 CFHT
Introduction
Last content update November 10th, 2004

An introduction to the EFIGI project

Une introduction au projet EFIGI

In terms of total amount of data, modern astronomy is dominated by survey imaging data produced by wide-field digital cameras. After two decades of development, these cameras, constructed from mosaics of many individual charge-coupled devices, can now cover an area equivalent or larger with respect to their photographic predecessors. Moreover, unlike photographic plates, digital cameras have excellent sensitivity over a wide wavelength range and respond linearly to the incident light. Rather than directly using this vast quantity of pixel data, statistical observational cosmology is mostly carried out using catalogues in which galaxies are described only by positions, brightnesses and colours, and perhaps one or two simple shape parameters such as ellipticity or concentration index; a vast amount of useful information is therefore discarded. The morphology of galaxies can provide a key insight into their formation histories but until now, extracting useful morphological information for a large (109) numbers of galaxies has been extremely challenging due to both computational and algorithmic difficulties; existing tools are all either too slow or provide output insufficiently detailed to fulfill our goal of a complete description of each galaxy using a dozen or so parameters.

The EFIGI (Extraction de Formes Idealisées de Galaxies en Imagerie) project proposes to address both the computational and algorithmic aspects of this problem and to develop a robust and scalable solution to measure galaxy morphologies for large numbers of objects in very large imaging surveys.

Solving this problem requires the skills of signal processing specialists, computer scientists and astronomers. In algorithmic terms, several avenues are being developed, including machine learning techniques trained on local data sets of large, well-resolved galaxies, and complementary approaches which attempt to reduce the dimensionality of galaxy images by describing them in terms of a set of discrete parameters.

EFIGI must also address systematic errors, selection effects and band-shifting effects which have plagued this work in the past by carrying out extensive simulations and using data spanning from the UV (GALEX) to the infrared (WIRCAM).

Following the "open source" philosophy, EFIGI will provide the tools we develop free of charge for use by the entire astronomical community. EFIGI software will be designed to operate in a distributed computing environment so that more processing power can easily be added to deal with even larger surveys.

EFIGI is a 3-year ACI (large data-sets) project funded by the French ministery of Research.


En termes de masses de données, l'astronomie moderne est largement dominée par les images des relevés effectués à partir de caméras électroniques à grand champ. Ces dernières ont, depuis la fin des années 90, avantageusement remplacé les plaques photographiques en usage pendant près d'un siècle. Elles offrent une réponse en flux plus linéaire et plus homogène, un meilleur piqué, et une sensibilité décuplée. Ce développement s'accompagne logiquement d'un effort important au niveau du traitement de données. Ainsi pour un seul instrument le volume typique de pixels à traiter et analyser dépasse actuellement les 50 Toctets. Par ailleurs, d'une génération d'instruments à l'autre le gain en débit de données excède le progrès en puissance de calcul par processeur (loi de Moore), et plus encore celui du débit des entrées-sorties durant la même période de temps, ce qui rend désormais nécessaire une approche distribuée à la fois pour le calcul et le stockage.

Après calibration, l'exploitation scientifique des données se fait essentiellement au travers d'un catalogue des sources (astres) détectées automatiquement dans les images. Des statistiques exhaustives effectuées sur des attributs de ces astres (position dans le ciel, flux, orientation, etc.) sont issues une grande partie de nos connaissances actuelles en cosmologie (géométrie et densité à grande échelle de l'Univers, matière et énergie sombre, évolution des galaxies) et en structure galactique (populations d'étoiles, dynamique de la Galaxie). Du point de vue de l'astronome, le catalogue idéal est une forme de version compressée des images qui préserve et condense tout le contenu scientifique exploitable.

Les sources ponctuelles (indistinguables de la réponse impulsionnelle) comme les étoiles sont relativement simples à cataloguer: position, flux et eventuellement couleur suffisent à caractériser entièrement leur contribution aux images. Cependant les objets résolus, constitués à une écrasante majorité de galaxies, posent bien d'autres problèmes. Les paramètres de formes extraits des sources des relevés actuels se résument le plus souvent à des rapports d'axes et angles de position issus des moments du 2ème ordre. A ceci trois raisons essentielles, qui sont autant de défis:
-  Le temps de calcul: les volumes de donnĂ©es Ă  analyser (typiquement 109 sources) imposent un temps moyen de calcul par source ne pouvant excĂ©der une dizaine de millisecondes.
-  Les complications introduites par la convolution des images des galaxies par la rĂ©ponse impulsionnelle; depuis le sol une grande partie des galaxies dĂ©tectĂ©es ont un rayon d'Ă©chelle Ă©quivalent Ă  celui de la rĂ©ponse impulsionnelle. La mesure de paramètres ``dĂ©convoluĂ©s'' doit donc frĂ©quemment faire face Ă  des problèmes de dĂ©gĂ©nĂ©rescence, qui ne peuvent ĂŞtre rĂ©solus que par l'application d'a priori prĂ©cis sur la morphologie des sources.
-  La nĂ©cessitĂ© de maĂ®triser les erreurs de mesure systĂ©matiques: les mesures morphologiques effectuĂ©es sur les sources ne sont exploitables scientifiquement que si les biais Ă©ventuels qui les affectent peuvent ĂŞtre parfaitement maitrisĂ©s. A titre d'exemple, certains objectifs scientifiques comme la mesure du cisaillement gravitationnel aux très grandes Ă©chelles Ă  partir de l'Ă©longation des profils, nĂ©cessitent des erreurs systĂ©matiques infĂ©rieures au 1/1000.

En conséquence, les catalogues des grands relevés actuels ne contiennent aucune description morphologique sophistiquée des galaxies. L'objectif d'EFIGI (Extraction de Formes Idealisées de Galaxies en Imagerie) est de combler cette lacune, en proposant un système générique et performant de description et classification morphologiques des galaxies détectées sur les images astronomiques. Les statistiques de formes des galaxies sont en effet au coeur de questions fondamentales de l'astrophysique moderne; citons en particulier
-  La morphogenèse des galaxies: comment se dĂ©veloppent les diffĂ©rents types constituant la sĂ©quence de Hubble, leur Ă©volution au sein des amas en fonction du dĂ©calage spectral et de la densitĂ© locale, la triaxalitĂ© des profils tridimensionnels ou sous-structures internes, la frĂ©quence et la distribution en taille des barres et des ``coquilles'' internes de galaxies, les fonctions de luminositĂ© par type.
-  L'Ă©volution des composantes de populations stellaire des galaxies, Ă  travers l'histoire de la formation stellaire, et les interactions gravitationnelles Ă©ventuelles.
-  Les collisions entre galaxies, et leur dĂ©pendance avec le dĂ©calage spectral et l'environnement local.
-  Les distorsions gravitationnelles sur la ligne de visĂ©e: recherche automatique d'arcs gravitationnels signalant des concentrations de matière noire, cartographie des grandes structures en avant-plan, corrĂ©lation matière noire et lumière ("biais") ou matière noire des halos et type morphologique.

Historiquement, les efforts de description morphologique des galaxies se sont principalement portés sur la modélisation des profils des objets. Dans les programmes du type GIM2D, une galaxie est décomposée en 2 composantes axisymétriques de bulbe ("loi de de Vaucouleurs") et de disque (loi exponentielle tronquée), chacune décrite par 4 à 5 paramètres, pour un total de 10 paramètres par objet. L'ajustement est évidemment non-linéaire et réalisé par minimisation globale. A chaque pas de calcul, une reconvolution du modèle par la réponse impulsionnelle locale est nécessaire. Une majorité de galaxies des relevés profonds est très bruitée et/ou mal résolue, et les solutions sont sujettes à des dégénérescences importantes. D'où l'usage d'algorithmes lents mais sachant éviter les minima locaux, du type Metropolis.

En complément de ces ajustements de profils symétriques, d'autres paramètres empiriques tels que coefficient de Gini, indices d'"asymétrie", de "concentration", sont évalués, mais ils sont difficilement utilisables pour des expériences sol en raison notamment de la difficulté à contrôler les effets de la réponse impulsionnelle. Il en va de même des paramètres de contour ou isophotaux employés dans les tentatives passées de classification morphologique par apprentissage supervisé.

Conscients de ce problème, un certain nombre d'auteurs ont proposé plus récemment une décomposition linéaire des images de galaxies sur des bases de fonctions: composantes principales, polynômes de Gauss-Hermitte, "shapelettes". Ces dernières ont une expression analytique simple et facilitent l'approximation des transformations géométriques élémentaires (décalage, anamorphose, rotation, ...) sous forme de combinaisons d'opérateurs. En ajustant les fonctions de base convoluées par la réponse impulsionnelle locale, il est possible de déconvoluer paramétriquement les images. Toutefois une solution basée uniquement sur une maximisation de la vraisemblance est susceptible de dégénérescences, en particulier dans les directions azimuthales. Une partie des efforts actuels en ce domaine se porte sur l'inclusion d'a priori réalistes permettant de lever les dégénérescences les plus sévères.

Le Projet EFIGI se propose d'aborder à la fois les aspects théoriques et algorithmiques du problème et de développer une solution robuste pour mesurer en nombre la morphologie des galaxies présentes dans les grands relevés d'imagerie.

Le projet mobilise les compétences de specialistes du traitement du signal, de l'informatique, et de l'astronomie. En termes algorithmiques, plusieurs aspects sont pris en compte, parmi lesquels les techniques d'apprentissage automatiques appliquées à des jeux de données de galaxies bien résolues, et la réduction de dimensionnalité des images.

EFIGI doit aussi investiguer les erreurs systématiques, ainsi que les effets de sélection et de décalage spectral au moyen de larges simulations d'images et d'échantillons de référence allant du domaine UV (GALEX) à l'infra-rouge (WIRCAM).

Suivant la philosophie "open source", EFIGI délivrera à terme les outils qu'il développe à la communauté scientifique. Les logiciels EFIGI seront concus pour fonctionner dans un environnement de calcul distribué, afin de pouvoir bénéficier d'une puissance de calcul aisément incrémentable.

EFIGI est un projet ACI "masses de données" de 3 ans, financé par Fond National pour la Science.


Site Map  -  Administration  -  Contact
© Terapix 2003-2011