• Increase font size
  • Default font size
  • Decrease font size

PhD thesis

E-mail Print PDF
BY ››Gwénolé QUELLEC
DIRIGEE PAR ››Roux C
Title ››Indexation et fusion multimodale pour la recherche d'informations par le contenu : application aux bases de données médicales
THESE DE ››SCIENCE
INSTITUTION ››Ecole Nationale Supérieure des Télécommunications de Bretagne
ECOLE DOCTORALE ››Matisse, Rennes
SOUTENUE EN ››2008
Keywords ››Indexation et recherche d'images par le contenu, Fusion sémantique, Numérique
RESUME ››Dans cette thèse, nous nous intéressons aux méthodes de recherche d'information dans des bases de données constituées de documents multimédia. Nous les appliquons à des documents contenant des images numériques et des éléments sémantiques associés. Notre objectif est de sélectionner dans la base des documents similaires à un document proposé en requête. Pour réaliser cet objectif, nous proposons des méthodes basées sur la recherche d'images par le contenu et le raisonnement à base de cas. L'application visée est l'aide au diagnostic dans un cadre médical : la base est constituée de dossiers patients contenant plusieurs images et des informations cliniques contextuelles à propos du patient. Le système est appliqué à deux bases de données médicales multimodales. La première base de données étudiée est une base d'images rétiniennes, constituée au LaTIM pour l'aide au suivi de la rétinopathie diabétique. La seconde est une base publique de mammographies. Dans un premier temps, nous cherchons à caractériser individuellement chaque image du dossier patient. Cette caractérisation est effectuée dans le domaine compressé. Nous avons ainsi proposé deux méthodes originales d'indexation à partir de la transformée en ondelettes des images : 1) une méthode globale, modélisant la distribution des coefficients d'ondelette dans l'image, 2) une méthode locale, basée sur l'extraction de lésions modélisables par une fonction paramétrique. Une des originalités de ces méthodes réside dans le fait que la base d'ondelettes est recherchée par optimisation dans le cadre du schéma de lissage. Après avoir obtenu les signatures caractérisant les images, nous cherchons à fusionner les signatures provenant de l'ensemble des images du dossier, ainsi que des informations sémantiques contextuelles, pour sélectionner les dossiers patients les plus proches. Outre le problème de l'hétérogénéité des données, nous devons résoudre le problème de l'incomplétude des dossiers patients. A notre connaissance, seuls des systèmes de recherche traitant séparément chaque type d'information ont été proposées dans la littérature. Nous proposons trois nouvelles approches, inspirées de la fouille de données et de la fusion d'information, pour réellement intégrer les différentes sources d'information hétérogènes tout en gérant les informations manquantes. La première est basée sur les arbres de décision et ses extensions, la deuxième sur les réseaux bayésiens et la troisième sur la théorie de Dezert-Smarandache (DSmT). Les résultats que nous obtenons pour les deux bases de données médicales multimodales que nous étudions sont très satisfaisants et supérieurs aux méthodes classiques. Ainsi, la précision moyenne pour une fenêtre de cinq cas atteint 81,78% pour la base d'images rétiniennes et 92,90% pour la base des mammographies.
DOCUMENT ››2008telb0078-Quellec.pdfDOWNLOAD (10.77 Mo)