• Medientyp: Sonstige Veröffentlichung; Elektronische Hochschulschrift; E-Book
  • Titel: Domain knowledge and functions in data science, application to hydroelectricity production ; Connaissances du domaine et fonctions en science des données, application à la production d'hydroélectricité
  • Beteiligte: Faure-Giovagnoli, Pierre [VerfasserIn]
  • Erschienen: theses.fr, 2023-11-24
  • Sprache: Englisch
  • Schlagwörter: Fouille de données ; Dépendance de données ; Graph ; Data Dependency ; Dépendance fonctionnelle ; Fonctions de similarité ; Functions ; Complexity ; Graphe ; Complexité ; Visualisation ; Data mining ; Functional dependencie ; Informatique ; Informatics
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: Dans cette thèse, nous étudions le lien entre la connaissance métier sous la forme d'une fonction et la science des données. Considérons le scénario suivant. Soit D(y,z1,.,zn) un ensemble de données, Alice une experte en science des données, Bob un expert du domaine et y=f(z1, ., zn) une fonction connue de Bob grâce à ses connaissances métier. Dans cette thèse, nous nous intéressons aux questions suivantes, simples mais cruciales pour Alice. Comment définir la satisfaction de f dans D ? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D ? Il s'avère que ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données telles que l'indicateur g3. Plus précisément, nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles, une relaxation maintenant courante dans la littérature. Premièrement, nous examinons la complexité du calcul du g3. Il est connu que g3 peut être calculé en temps polynomial lorsqu'on utilise l'égalité, alors qu'il devient NP-difficile lorsqu'on utilise des prédicats généraux. Nous proposons d'affiner cette dichotomie en étudiant l'impact des propriétés communes suivantes : réflexivité, transitivité, symétrie et antisymétrie. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Cependant, la suppression de l'une d'entre elles rend le problème difficile. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée des performances temporelles et d'approximation. Tous les algorithmes sont également ...
  • Zugangsstatus: Freier Zugang