UFC
CNRS


Accueil > Activités > Séminaires > Probabilités et Statistique

Planning des séminaires 2021-2022

par Duchamps Jean-Jil - publié le , mis à jour le

Le séminaire a lieu le lundi, à 11h, en salle 316 du bâtiment de Métrologie B. Vous trouverez ci-dessous le planning du séminaire de Probabilités-Statistique pour l’année universitaire en cours.

Contacts : jean-jil.duchamps univ-fcomte.fr ou yacouba.boubacar_mainassara univ-fcomte.fr

Exposés à venir :

23 mai : Josué Nussbaumer
(Université Gustave Eiffel / Universität Duisburg-Essen)

Limites infinies d’arbres (à deux niveaux) sans longueur de branches

Abstract :
Les données sur les longueurs de branches d’un arbre généalogique peuvent être incertaines. Dans ce contexte, la notion d’arbre algébrique permet de généraliser les arbres définis aux sens de la théorie des graphes, à des structures potentiellement indénombrables. On peut munir l’espace des arbres algébriques mesurés binaires d’une topologie compacte, basée sur la convergence des sous-arbres échantillonnés finis. Après avoir présenté ces résultats, j’expliquerai comment les étendre à des systèmes à deux niveaux de type hôtes-parasites.

Exposés passés :

11 avril : Jean-Baptiste Bonnier
(CRESE - UFC)

Prévoir les prix du pétrole à partir d’un grand nombre de variables

Résumé :
Après une brève introduction sur mon thème de recherche principal, les marchés de matières premières, je présenterai un papier dont l’objet est la prévision des prix du pétrole à partir d’un grand nombre de variables. Pour ce faire, j’adopte une approche qui consiste à combiner de différentes manières les prévisions de plusieurs régressions prédictives bivariées. Un point méthodologique central du papier est de s’interroger sur l’utilité de traiter, pour la prévision des prix du pétrole, un problème de biais qui émerge sous certaines conditions dans les régressions prédictives. Un second intérêt est de donner des indications sur les déterminants des prix du pétrole pour la période étudiée.

21 et 28 mars : Davit Varron
(LmB)

Méthodes de couplage pour l’estimation et la validation dans le modèle des queues proportionnelles

Résumé :
Le modèle des queues proportionnelles est un modèle de régression dans lequel les lois conditionnelles de $Y$ sachant $X=x$ sont toutes des lois à queues lourdes (de type Pareto) et de même paramètre. Nous proposons une statistique de test pour tester la validité de ce modèle et montrons sa convergence ainsi que la validité de la méthode du bootstrap échangeable pour tabuler la loi limite de ce test. Les méthodes de preuve reposent sur une méthode de couplage entre
- l’échantillon des observations correspondant aux $k$ valeurs de Y les plus élevées
- un échantillon fictif dont la loi est celle d’un modèle limite. Ce modèle est la limite de la loi de $(X,Y)$ sachant que $Y>y$, lorsque y tend vers l’infini.

14 mars : Eric Adjakossa
(AgroParisTech)

Kalman recursions aggregated online

Résumé : Dans ce travail, nous améliorons la qualité de la prédiction par agrégation d’experts en utilisant les propriétés sous-jacentes des modèles qui fournissent ces experts. Nous nous limitons au cas où les prédictions d’experts sont issues de récursions de Kalman par ajustement de modèles espace-état. En utilisant des poids exponentiels, nous avons construit différents algorithmes d’agrégation de récursions de Kalman en ligne (KAO) qui compétissent avec le meilleur expert ou la meilleure combinaison convexe des experts de façon adaptative ou non. Nous améliorons les résultats existants de la littérature sur l’agrégation d’experts lorsque les experts sont des récursions de Kalman en utilisant leurs propriétés de second ordre. Nous appliquons notre approche aux récursions de Kalman et l’étendons au contexte général d’experts en ajustant un modèle espace-état aux erreurs d’experts fournis.

28 février : Phuong Thuy Vo
(UMPA, ENS Lyon)

Estimation of stochastic block model via graphon visited by a random walk

Abstract :
We are interested in recovering information on a stochastic block model from the subgraph discovered by an exploring random walk. Stochastic block models correspond to populations structured into a finite number of types, where two individuals are connected by an edge independently from the other pairs and with a probability depending on their types. We consider here the dense case where the random network can be approximated by a graphon. This problem is motivated from the study of chain-referral surveys where each interviewee provides information on her/his contacts in the social network. First, we write the likelihood of the subgraph discovered by the random walk : biases are appearing since hubs and majority types are more likely to be sampled. Even for the case where the types are observed, the maximum likelihood estimator is not explicit any more. When the type of the vertices is unobserved, we use an SAEM algorithm to maximize the likelihood. Second, we propose a different estimation strategy using new results by Athreya and Röllin. It consists in de-biasing the maximum likelihood estimator proposed in Daudin et al. and that ignores the biases.

31 janvier : Aude Sportisse
(Inria Sophia Antipolis)

Model based clustering with Missing Not At Random data

Abstract :
With the increase of large datasets, the model-based clustering has become a very popular, flexible and interpretable methodology for data exploration in a well-defined statistical framework. However, in large scale data analysis, the problem of missing data is ubiquitous. We propose a novel approach by embedding missing data directly within model-based clustering algorithms. In particular, we consider the general case of Missing Not At Random (MNAR) values.
We introduce a selection model for the joint distribution of data and missing-data indicator. It corresponds to a mixture model for the data distribution and a general MNAR model for the missing-data mechanism, for which the missingness may depend on the underlying classes (unknown) and/or the values of the missing variables themselves. A large set of meaningful MNAR sub-models is derived and the identifiability of the parameters is studied for each of the sub-models, which is usually a key issue for any MNAR proposals. The EM and Stochastic EM algorithms are considered for estimation. Finally, we perform empirical evaluations for the proposed sub-models on synthetic data and we illustrate the relevance of our method on a medical register, the TraumaBase dataset.

24 janvier : Aymen Amara
(LmB)

Gestion des signaux faibles et précurseurs par l’application de processus décisionnels fondée sur l’analyse des données aéronautiques

Abstract :
Quel que soit le domaine d’expertise, le point commun est toujours la maîtrise des erreurs potentielles afin de garantir un système exempt de danger. Le contrôle absolu est certainement souhaitable, mais les dangers font partie intégrante des contextes opérationnels dans tout secteur d’activité. La stratégie de contrôle et de supervision doit être périodiquement revue et réévaluée dans tout système soumis à la fois à la réglementation et à différents changements. Diverses méthodes sont applicables afin d’accompagner l’amélioration continue de la sécurité. Dans tous les cas, il ne s’agit pas de réalisations ponctuelles, mais d’un processus constant et continu pour surveiller toutes sortes de risques qui pourraient impacter le quotidien. De ce fait, la fluctuation de l’activité d’une compagnie aérienne pousse à des réajustements en permanence, afin de récupérer l’autonomie d’un système sûr dans toute la chaine opérationnelle. Cette approche repose sur plusieurs piliers fondamentaux, grâce auxquels la compagnie trouve un vaste terrain de développement, allant de l’évolution rapide des technologies des systèmes d’information et de la communication, jusqu’au processus de mesure et de surveillance des résultats liés à la sécurité. Par conséquent, il est fortement recommandé de commencer par comprendre l’ensemble des lignes directrices relatives aux bonnes pratiques réglementaires, et savoir comment exploiter celles-ci, afin d’identifier et de cibler les processus qui doivent être contrôlés. Cette approche est en effet une stratégie proactive pour anticiper la détection des signaux faibles et précurseurs qui inquiètent les opérateurs, mais aussi une approche « corporative », grâce à laquelle la mise en œuvre de marqueurs est pertinente. C’est aussi un surcroît de retour d’expérience et de réelles « best practices », qui sont de plus en plus surveillées et auditées. La corrélation entre la réglementation et la démarche itérative du recueil des données facilite l’interaction des sources d’informations, et développe des approches différentes de prévention.
La « data science » offre de nombreux avantages pour le secteur aérien, car elle ne s’arrête pas à la réalisation de l’inventaire des points de contrôle et à la démystification des lacunes. Elle permet aussi la mise en œuvre de pratiques efficaces de gestion des données, et un développement de modèles et de stratégies proactives, qui permettent aux compagnies aériennes d’améliorer la surveillance des principaux facteurs de performances, d’affiner leur expérience et de prendre les meilleures décisions par rapport à certaines prédictions.

17 janvier : Bilel Bousselmi
(Univ. Lyon 2)

Censure et données manquantes en modélisation des données de comptage

Résumé :
Nous nous intéressons à l’estimation dans le modèle de régression de Poisson lorsque la variable de comptage observée peut être censurée aléatoirement à droite et que les indicatrices de censure sont manquantes pour certains individus de l’échantillon. Nous proposons plusieurs méthodes d’estimation : imputation multiple, régression-calibration estimation IPW (pondération par l’inverse de la probabilité de sélection) et établissons les propriétés asymptotiques des estimateurs obtenus. Nous proposons également une méthode d’estimation IPW robuste. Une étude de simulation comparant ces différentes méthodes est décrite.

13 décembre : Fabrice Grela
(Univ Rennes 2)

Minimax detection and localisation of an abrupt change in a Poisson process

Abstract :
Considering a Poisson process observed on a bounded, fixed interval, we are interested in the problem of detecting an abrupt change in its distribution, characterized by a jump in its intensity. Formulated as an off-line change-point problem, we address two questions : the one of detecting a change-point and the one of estimating the jump location of such change-point. This study aims at proposing a non-asymptotic minimax testing set-up, first to construct a minimax and adaptive detection procedure and then to give a minimax study of a multiple testing procedure designed for simultaneously detecting and localising a change-point.

6 décembre : Arthur Maillart
(Detralytics)

Tail-index partition-based rules extraction with application to tornado damage insurance.

Abstract :
The tail index is an important parameter that measures how extreme events occur. In many practical cases, this tail index depends on covariates. In this paper we assume that it takes a finite number of values over a partition of the covariate space. This article proposes a tail-index partition-based rules extraction method that is able to construct estimates of the partition subsets and estimates of the tail index values. The method combines two steps : first an additive tree ensemble based on the Gamma deviance is fitted (which includes random forest and gradient tree boosting), second a hierarchical clustering with spatial constraints is used to estimate the subsets of the partition. We also propose a global tree surrogate model to approximate the partition-based rules while providing an explainable model from the initial covariates. Our procedure is illustrated on simulated data. A real case study on wind property damages caused by tornadoes is finally presented.

29 novembre : Jürgen Angst
(LmB)

Fluctuations dans le théorème limite central presque sûr de Salem et Zygmund

Résumé :
En 1954, Salem et Zygmund ont établi un théorème limite central (TLC) presque sûr pour des polynômes trigonométriques aléatoires à coefficients indépendants. Nous détaillerons dans cet exposé les fluctuations dans ce TLC presque sûr. La méthode de preuve que nous avons développée permet d’importer dans un contexte général des techniques jusqu’alors réservées au seule monde gaussien (calcul de Malliavin, méthode de Stein, etc.), et s’applique non seulement aux polynômes trigonométriques, mais plus généralement à de nombreuses sommes de variables aléatoires. Il s’agit de travaux en commun avec G. Poly.

22 novembre : Chifaa Dahik
(LmB)

Optimisation discrète robuste en présence d’incertitude ellipsoïdale

Résumé :
On s’intéresse à la version robuste des problèmes linéaires à variables binaires avec un ensemble d’incertitude ellipsoïdal corrélé. Puisque ce problème est NP-difficile, une approche heuristique intitulée DFW et basée sur l’algorithme de Frank-Wolfe est proposée. Dans cette approche, nous examinons la puissance d’exploration des itérations internes binaires de la méthode. Pour les problèmes de petites tailles, la méthode est capable de fournir la solution optimale fournie par CPLEX, après quelques centaines d’itérations. De plus, contrairement à la méthode exacte, notre approche s’applique à des problèmes de grandes tailles également. Les résultats numériques ont été appliqués au plus court chemin robuste. Un autre objectif est de proposer une relaxation semi-définie positive (SDP) pour le plus court chemin robuste qui fournit une borne inférieure pour valider des approches telles que l’algorithme DFW. Le problème relaxé est le résultant d’une bidualisation du problème. Puis le problème relaxé est résolu en utilisant une version creuse d’une méthode de décomposition dans un espace produit. Cette méthode de validation est adaptée aux problèmes de grande taille. Finalement, une autre adaptation de l’algorithme de Frank-Wolfe a été réalisé pour le problème du k-médiane, accompagnée d’un algorithme d’arrondissement qui satisfait les contraintes.

8 novembre : Cécile Spychala et Romain Pic
(LmB)

(Cécile Spychala) Modélisation spatiale des accidents de la route à Besançon avec les processus de Cox log-Gaussien

Résumé : Dans un objectif de prévention et/ou d’anticipation des accidents routiers, la modélisation statistique de la dépendance spatiale et des facteurs de risque potentiels représente un atout majeur. L’intérêt de cette étude se porte plus particulièrement sur la localisation géoréférencée des accidents. Nous avons croisé ces événements avec des co-variables caractérisant la zone géographique d’étude (socio-démographiques et infrastructures par exemple). Après une sélection de variables (méthodes de pénalisation, random forest, ...), la survenue des accidents a été modélisée par un processus de Cox log-Gaussien spatial. Les résultats de cette analyse permettent l’identification des principaux facteurs de risques d’accident et l’identification des zones critiques. Les données mises en application sont les accidents routiers s’étant produits entre 2017 et 2019 dans la CAGB (communauté urbaine de Besançon).

(Romain Pic) Cadre Théorique de l’Apprentissage Statistique pour la Régression Distributionnelle utilisant le Continuous Ranked Probability Score

Résumé :
La régression distributionnelle répond à un besoin fondamental de l’analyse statistique : permettre de faire des prévisions tout en quantifiant leur incertitude. Cette approche surmonte les limites de la régression classique qui estime uniquement l’espérance conditionnellement aux covariables en fournissant un estimateur de l’intégralité de la loi conditionnelle. Cette approche, dite de prédiction probabiliste, est largement adoptée dans de nombreux domaines tels que la météorologie et la production d’énergie, mais ses aspects théoriques restent peu développés. Par analogie avec la théorie classique de l’apprentissage statistique, nous définissons un cadre où le prédicteur est une loi de probabilité, dite loi prédictive, et où la fonction de perte est donnée par un score strictement propre au sens de Gneiting et Raftery (2005). Le prédicteur de Bayes coïncide alors avec la loi conditionnelle. Dans le cas du CRPS, nous étudions ensuite la vitesse minimax de convergence et montrons en particulier qu’en dimension supérieure ou égale à 2, l’algorithme des k plus proches voisins pour la régression distributionnelle atteint un taux minimax optimal.

25 octobre : Michaël Allouche
(École Polytechnique)

EV-GAN : Simulation of extreme events with ReLU neural networks

Abstract :
Feedforward neural networks based on Rectified linear units (ReLU) cannot efficiently approximate quantile functions which are not bounded, especially in the case of heavy-tailed distributions. We thus propose a new parametrization for the generator of a Generative adversarial network (GAN) adapted to this framework, basing on extreme-value theory. We provide an analysis of the uniform error between the extreme quantile and its GAN approximation. It appears that the rate of convergence of the error is mainly driven by the second-order parameter of the data distribution. The above results are illustrated on simulated data and real financial data.

4 octobre : Rémi Léandre
(UFC)

Vers une approximation de Wong-Zakai des opérateurs de grand ordre.

Résumé : Je donne une approche de l’approximation de Wong-Zakai, mettant en relation une équation différentielle ordinaire et la solution d’une équation différentielle de Stratonovitch, pour des opérateurs de grand ordre. L’approximation obtenue est différente de l’approximation de la paramétrix qui est habituellement utilisée pour les semi-groupes.

20 septembre : Amaury Lambert
(Sorbonne Université)

Modèles stochastiques pour l’évolution conjointe des gènes et des espèces

Résumé : Du fait de la recombinaison et de l’hybridation entre espèces, les généalogies de gènes, même lorsque les individus portant ces gènes sont échantillonnés dans des espèces éloignées, sont ordinairement différentes pour différents gènes et (donc) différentes de l’arbre des espèces. En partant du paradigme standard en phylogénétique du coalescent multi-espèces, nous passons en revue plusieurs modèles nouveaux couplant arbres de gènes et arbre d’espèces et en exposons les principales propriétés.

Agenda

iCal