Escola de Regressão

Minicursos


Minicurso 1: Count Data Regression Models: Over- and Under-dispersion

Autores: John Hinde (NUI Galway, Ireland), Clarice G.B. Demétrio (USP/ESALQ, Piracicaba-SP)


Resumo: The basis of regression models for count data is the Poisson log-linear model that can be applied to both raw counts and aggregate rates. In practice, many observed counts exhibit overdispersion (variance greater than the mean) and over the last 30 years or so many models for overdispersed count data have been developed. A less common phenomenon is that of underdispersion where the count variance is less than the mean. In this talk we will consider some recent count regression models that can incorporate both under and over-dispersion, these include extended Poisson–Tweedie models, the COM-Poisson model, and Gamma and Weibull-count models. we will discuss some of the possible causes of over and under-dispersion, the nature and basis of the various models, their estimation, and software implementations (typically in R). We can also extend some of those models in order to accommodate overdispersion and clustering through two separate sets of random effects, of gamma and normal type, respectively. The use of these models will be illustrated with examples from different application areas.

 

Minicurso 2: Redução de viés de pareamento na estimação usando modelos de regressão linear

Autora: Andréa Diniz da Silva (IBGE, Rio de Janeiro, RJ, Brasil)


Resumo: O uso de técnicas de pareamento para integrar dados referentes aos mais diversos temas, envolvendo bases de dados de diferentes origens, se popularizou nos últimos 20 anos. Nesse período, o método de pareamento probabilístico mais utilizado, baseado na “Teoria de Pareamento” proposta por Ivan Fellegi e Alan Sunter (1969), foi aprimorado, especialmente no que diz respeito ao cálculo dos escores de similaridade dos valores das variáveis de pareamento e na estimação dos pesos de comparação. Além disso, ao longo desse período uma variedade de outros métodos, em especial os da área de aprendizado de máquina, se mostrou aplicável ao problema de pareamento. Se por um lado a popularização de tais técnicas permitiu a ampliação do uso de métodos de pareamento, por outro, problemas derivados do uso indevido dos dados pareados se agravaram. Um dos principais problemas é negligenciar os erros de pareamento e seus impactos na qualidade das estimativas baseadas em dados pareados. Apesar de haver vários estudos apontando a presença de viés devido ao pareamento ou ao uso de dados pareados (Bohensky2015), muitas análises baseadas em dados pareados ainda não consideram tais erros e, como consequência, são potencialmente enganosas, em maior ou menor grau. Soluções que levam em consideração alguma medida de erro de pareamento vêm sendo propostas (Chambers, 2009; Kim and Chambers, 2012a, 2012b, 2015; Lahiri e Larsen, 2005; Scheuren e Winkler, 1993). Porém, ainda não foram incorporadas na prática cotidiana de analistas de dados pareados. O curso tem por objetivo situar o problema (presença de viés devido ao pareamento) e apresentar alternativas que ajudem a melhorar a qualidade das estimativas baseadas em dados pareados e, consequentemente, a análise dos dados. Um experimento utilizando dados do Cadastro Central de Empresas do IBGE e da Secretaria Estadual de Fazenda, de quatro Estados brasileiros, é utilizado para ilustrar a presença de viés devido a pareamento utilizando dois métodos não determinísticos e para comparar o desempenho de métodos de estimação com o uso de estimadores de mínimos quadrados, máxima verossimilhança e melhor estimador não viesado.