UFC
CNRS


Accueil > Activités > Séminaires > Probabilités et Statistique

Planning des séminaires 2022-2023

par Duchamps Jean-Jil - publié le , mis à jour le

Le séminaire a lieu le lundi, à 11h, a priori en salle 316 du bâtiment de Métrologie B (variable cette année pour cause de travaux). Vous trouverez ci-dessous le planning du séminaire de Probabilités-Statistique pour l’année universitaire en cours.

Contacts : jean-jil.duchamps univ-fcomte.fr ou yacouba.boubacar_mainassara univ-fcomte.fr

Exposés passés :

27 mars : Gloria Buriticá Borda
(Université de Genève)

On blocks estimators for cluster inference of heavy-tailed time series

Abstract :
In the framework of heavy-tailed time series, extremal observations cluster : an extreme value triggers a short period with numerous large observations. This behaviour is known to perturb classical inference procedures tailored for independent observations like high quantile inference. We aim to infer properties of the clustering effect by applying functions to consecutive observations with extremal behaviour. We recover classical statistics like the extremal index and cluster size probabilities with cluster inference. In this talk, we discuss the asymptotics of block estimators for cluster inference based on consecutive observations with large lα-norm, where α>0 is the tail index of the series. Interestingly, in the case of ARMA models, our computations show that many cluster statistics have null asymptotic variance, as first conjectured in Hsing T. (1996).

6 mars : Camille Frévent
(Lille)

Statistiques de scan spatiales pour données de survie

Abstract :
Les statistiques de scan spatiales sont des méthodes bien connues et très utilisées dans le cadre de la détection de clusters d’événements. Dans le domaine de l’analyse spatiale des données de survie, plusieurs modèles de statistiques de scan spatiales ont été proposés. Cependant ces modèles ne permettent pas de prendre en compte la potentielle corrélation entre les temps de survie des individus d’une même unité spatiale, ni la potentielle dépendance spatiale entre les localisations géographiques. Après avoir présenté les approches existantes, nous proposerons une statistique de scan spatiale basée sur un modèle de Cox à fragilité partagée permettant de prendre en compte la potentielle dépendance spatiale des observations. Dans des études de simulation, nous avons montré que (i) les approches classiques de statistiques de scan spatiales pour les données de survie ne permettent pas de maintenir l’erreur de type I en présence d’une corrélation entre les temps de survie des individus d’une même unité spatiale, et (ii) notre approche présente de bonnes performances en présence d’une corrélation entre les temps de survie des individus d’une même unité spatiale et d’une dépendance entre les unités spatiales. Nous avons ensuite appliqué cette approche à des données épidémiologiques correspondant à la durée de survie de patients souffrant d’insuffisance rénale chronique terminale dans le nord de la France.

27 février : Zaineb Smida
(Toulouse)

Nonparametric two-sample tests and spatial scan statistics for functional data

Abstract :
Cluster detection has become a vast field of statistics in the last decades. Among the known methods for detecting clusters, we can use the spatial scan statistics which are based on a collection of statistical tests. In this talk, we focus on the statistical tests of two sample comparison based on ranks on the one hand, and on the cluster detection method based on spatial scan statistics on the other hand. In both cases, we work with functional data.

In the first part, we study the median test based on ranks for real data and we propose its extension for functional data. Then, we study the asymptotic behavior of its statistic. This extension is compared to other existing parametric and nonparametric statistics using simulated and real data to assess its performance.

In the second part, we introduce a nonparametric spatial scan statistic for functional data. It is derived from the Wilcoxon-Mann-Whitney statistic defined in infinite dimensional space. The proposed scan method is applied on simulated data for performance assessment, then on real data to extract characteristics of the demographic evolution of the Spanish population.

20 février : Ana Maria Crețu
(Imperial College London)

Methods to evaluate the privacy of modern technologies

Abstract :
Our online and offline activities leave behind digital traces that are monitored and collected on a large scale by businesses and organizations to comply with the law, operate services, and power new applications. Data processing technologies have become ubiquitous in the digital age, yet may contain unknown privacy and security vulnerabilities. Assessing the robustness of a technology involves an adversarial approach, by evaluating its resistance to attacks.

In the first part of this talk, I will first argue how the adversarial approach is grounded in laws such as the General Data Protection Regulation (GDPR). Then I will present results of a study published in Nature Communications, where we develop an attack based on geometric deep learning and triplet loss optimization to learn a time-stable profile of an individual. Our results demonstrate how people’s interaction behavior is stable over long periods of time and can be used to identify individuals in anonymous datasets. They provide strong evidence that disconnected and even re-pseudonymized interaction data can be linked together making them personal data under the European Union’s General Data Protection Regulation.

In the second part I will describe how we can reason about the privacy of machine learning (ML) models. I will describe shadow modeling, the main building block of inference attacks against machine learning models. Although ML models are often trained on sensitive and proprietary datasets, what — and under which conditions — a model leaks about its dataset, is not well understood. I will describe the first exploration of whether a model leaks information about the correlations between the input variables of its training dataset, something we name correlation inference attack. Our attacks exploit the spherical parametrization of correlation matrices. Our results show that models leak information about the correlations. Finally, we show how attacks can use correlations extracted using our attack to infer sensitive attributes of individual records.

6 février : Clément Bénesse
(Toulouse)

Entre Analyse de Sensibilité Globale et Équité Algorithmique, deux faces d’un audit algorithmique

Abstract :
L’année dernière, le Parlement Européen a signé le Digital Service Act et le Digital Market Act. Ces deux lois sont le résultat de plusieurs travaux menés par le monde judiciaire et visent, entre autres, à définir des outils de régulation des récents développements liés au Machine Learning et son utilisation dans le paysage digital.

Parmi les normes et demandes imposées par ces lois, une emphase est mise sur le besoin d’outils statistiques quantifiant l’influence d’une variable d’intérêt sur une sortie algorithmique. De plus, une attention particulière doit être portée sur les problèmes de discrimination algorithmique que l’on peut rencontrer, comme le prouvent de nombreux exemples récents.

Dans cette présentation, nous explorerons quelques outils existants dans la littérature : d’un côté par l’Analyse de Sensibilité Globale — qui répond à la problématique de l’influence d’une variable — et de l’autre l’Équité Algorithmique — qui permet la détection de discriminations par un algorithme. Nous montrerons que ces deux domaines partagent de nombreuses idées et résultats. Enfin, nous verrons quelques pistes de développement potentielles, et terminerons avec une réponse partielle à une problématique émergente qu’est l’audit d’algorithmes.

31 janvier : Estelle Medous
(Toulouse School of Economics, Univ.Toulouse 1 Capitole, LmB & La Poste)

Optimality of the double Generalized Weight Share Method and alternatives

Abstract :
In probabilistic surveys, when it is not possible to draw a sample from the target population, sampling can be done indirectly through a frame population related to the target population. Estimation of the parameters of interest is achieved using the Generalized Weight Share Method (GWSM). Under some conditions, this method can be used to minimize the variance of the resulting estimator. However, it may require to observe a large number of links. To reduce observation time and cost, an intermediate population and double indirect sampling can be introduced. Estimation is then performed by using a double GWSM. This method is easier to apply than the GWSM but deteriorates the precision of the resulting estimator. In this presentation, we will show that, under conditions, the variance of the double GWSM estimator can be minimized such that no precision is lost compared to the GWSM while maintaining the easier implementation of the double GWSM. Moreover, when the minimum cannot be reached, it is possible to limit the loss of precision of the double GWSM estimator compared to the GWSM.

23 janvier : Yann Cabanes
(Université Carleton, Ottawa)

Apprentissage dans les disques de Poincaré et de Siegel de séries temporelles multidimensionnelles complexes suivant un modèle autorégressif gaussien stationnaire centré : application à la classification de données audio et de fouillis radar

Abstract :
L’objectif de cette thèse est la classification de séries temporelles à valeurs complexes suivant un modèle autorégressif gaussien stationnaire centré.
Nous étudions le cas des séries temporelles unidimensionnelles ainsi que le cas plus général des séries temporelles multidimensionnelles.
L’apport de cette thèse est à la fois méthodologique et technique.
La méthodologie présentée permet de représenter les lois des séries temporelles observées dans une variété riemannienne dans laquelle la classification sera effectuée.
Les étapes majeures de notre méthode sont : la définition de l’espace des coefficients du modèle paramétrique permettant de représenter les séries temporelles considérées, l’estimation des coefficients du modèle paramétrique à partir de séries temporelles observées, munir l’espace des coefficients du modèle paramétrique d’une métrique riemannienne inspirée de la géométrie de l’information et enfin l’adaptation d’algorithmes de machine learning classiques aux variétés riemanniennes obtenues.
Dans le cas des séries temporelles multidimensionnelles, nous travaillerons dans un espace produit qui fait intervenir le disque de Siegel (ensemble des matrices complexes de valeurs singulières strictement inférieures à 1) muni d’une métrique riemannienne produit.
En plus de l’apport méthodologique évoqué précédemment, nous apportons des outils théoriques nouveaux pour classifier des données dans la variété de Siegel : nous donnons les formules explicites du logarithme riemannien, de l’exponentielle riemannienne et de la courbure sectionnelle de la variété obtenue sur l’espace de Siegel.
Notre modèle de représentation des séries temporelles complexes suivant un modèle autorégressif gaussien stationnaire centré sera appliqué à la classification de séries temporelles simulées, au clustering de fouillis radar et à la classification de séries temporelles audio stéréo stationnaires.

12 décembre : Ben Taylor
(Lancaster)

Inference for aggregated spatiotemporal log-Gaussian Cox processes under changing and uncertain support

Abstract :
Aggregated point processes data are common in epidemiological applications. They arise when the true disease process is continuous in space-time, but only data from aggregation units, e.g. health facilities, or administrative regions, are available. The challenges posed by such data are often ignored, or substantially simplified in practice. In this talk, I will introduce solutions to the pragmatic challenges typically encountered through an example concerning the modelling of case counts of malaria at the health facility level in Zambia. Health facilities in Zambia have fuzzy catchment areas, they report irregularly and change in number and size over time. We treat the underlying data-generation process as a spatio-temporally continuous point process, capturing aggregation through an additional model hierarchy and using a GPU-accelerated data-augmentation scheme for inference. Along the way, I will share my thoughts on the ecological fallacy.

28 novembre : Théo Moins
(INRIA Grenoble)

Reparameterization of extreme value framework for improved Bayesian workflow

Abstract :
Combining extreme value theory with Bayesian methods offers several advantages, such as a quantification of uncertainty on parameter estimation or the ability to study irregular models that cannot be handled by frequentist statistics. However, it comes with many options that are left to the user concerning model building, computational algorithms, and even inference itself. Among them, the parameterization of the model induces a geometry that can alter the efficiency of computational algorithms, in addition to making calculations involved. We focus on the Poisson process characterization of extremes and outline two key benefits of an orthogonal parameterization addressing both issues. First, several diagnostics show that Markov chain Monte Carlo convergence is improved compared with the original parameterization. Second, orthogonalization also helps deriving Jeffreys and penalized complexity priors, and establishing posterior propriety. The analysis is supported by simulations, and our framework is then applied to extreme level estimation on river flow data.