Bayesian-based optimization of experiments using stochastic gradient methods

DSpace Repository

A- A A+

Bayesian-based optimization of experiments using stochastic gradient methods

Show full item record

Title: Bayesian-based optimization of experiments using stochastic gradient methods
Author: Carlon, André Gustavo
Abstract: Os experimentos desempenham um papel importante na ciência, sendoa maneira como observamos o mundo real. No entanto, em muitoscasos, os experimentos podem ser caros, demorados ou não fornecerinformação o suficiente sobre as quantidades de interesse. Nesses casos,pode ser interessante ajustar o experimento para melhorar sua eficiência.O campo da ciência cujo o objetivo é encontrar a melhor configuraçãopara experimentos é chamado de projeto ótimo de experimento (OED).Utilizamos conceitos de inferência bayesiana para modelar a realizaçãodo experimento e, assim, podemos avaliar o desempenho do experimentoutilizando o ganho esperado de informação de Shannon (EIG). Quantomais informativo um experimento for quanto às quantidades de interesse,maior será seu EIG. Assim, o EIG é nossa função de utilidade no OED;a quantidade que queremos maximizar.Para o caso geral, estimar o EIG pode ser caro. A abordagem diretaé aproximar as integrais do EIG usando integração de Monte Carlo(MCI). O estimador resultante é o Monte Carlo de laço duplo (DLMC).O DLMC é caro e é conhecido por ter problemas numéricos, assim,buscamos outro estimador de EIG que possa ter melhor desempenhoque o DLMC. Uma alternativa é aproximar a informação posterior aoexperimento por uma função gaussiana, resultando no estimador deMonte Carlo com Laplace (MCLA). Este estimador tem um viés daaproximação de Laplace e é, portanto, inconsistente. Como alternativapara estimar o EIG, apresentamos o Monte Carlo de laço duplo comamostragem por importância. A amostragem por importância usa umaestimativa Gaussiana da posterior para obter amostras mais informativasquanto às quantidades de interesse.Sendo o custo uma questão principal em OED, é importante tornara otimização o mais eficiente possível. Para otimizar o projeto de experimentos,usamos o gradiente estocástico de descida, reduzindo ocusto de cada iteração ao evitar o custo de um MCI. A diminuição notamanho do passo para o SGD torna a convergência sensível ao tamanhodo passo escolhido. Usamos técnicas no estado-da-arte em otimizaçãoestocástica para obter uma otimização robusta e rápida. Uma técnicaé a média de Polyak?Ruppert, consistindo de uma média móvel docaminho de otimização. Como a média é mais suave do que o caminho,a diminuição do tamanho do passo necessário para o SGD pode serrelaxada, fornecendo, assim, um algoritmo mais robusto. Para acelerar aconvergência, combinamos o SGD com um método de momento, a aceleraçãodo Nesterov. O algoritmo resultante, o ASGD-restart, é robustoe mantém a convergência acelerada em algumas situações.Para usar os métodos do gradiente estocástico, são necessários estimadoresnão-enviesados do gradiente verdadeiro. Assim, deduzimosos gradientes dos estimadores DLMC, MCLA e DLMCIS em funçãodo modelo direto e suas derivadas. Além disso, as complexidades dosestimadores de gradiente são apresentadas e o pseudocódigo de seusalgoritmos é mostrado para permitir a reprodução.Para testar o desempenho dos métodos, nós os usamos para resolverquatro exemplos numéricos. O primeiro é um problema de otimizaçãoestocástica pura com vinte dimensões tanto para o projeto quanto paraas quantidades de interesse. O segundo exemplo é um problema deOED sem um significado físico que criamos para testar as combinaçõesentre os estimadores EIG e os métodos de otimização. Na média decem execuções, o ASGD-restart com o MCLA resolveu este exemplocom menos de 300 avaliações de modelo, enquanto o DLMC usando adescida de gradiente deterministico precisou de 2.99 × 107 avaliações.O terceiro exemplo é o posicionamento ideal de um extensômetro emuma viga para inferir propriedades mecânicas do material do qual aviga é feita. Este exemplo é usado para mostrar que o ótimo encontradoé consistente com a intuição de engenharia. O quarto e último exemploé a otimização das correntes em um experimento de tomografia porimpedância elétrica (EIT) para inferir os ângulos nas camadas de ummaterial laminado composto. A simulação do EIT requer o uso dométodo de elementos finitos, sendo, portanto, um modelo avançado caropara avaliar. O ASGD-restart usando o gradiente do estimador MCLAconvergiu para soluções ótimas nos quatro casos testados. Até onde vaio conhecimento dos autores, esta é a primeira pesquisa para resolverefetivamente um problema OED com um modelo baseado na análise deelementos finitos.Nos testes numéricos, usando o gradiente do estimador MCLA paraotimização estocástica resultou em convergência rápida em relação aocusto. Além disso, o reinício do ASGD acoplado ao MCLA provou seruma opção viável para a otimização de experimentos com modelos caros.Abstract : Experiments play an important role in science, being the way we observethe real world. However, in many cases experiments can be expensive,time-consuming or not provide enough information about the quantitiesof interest. In such cases, it might be interesting to tune the experimentup as to improve its efficiency. The field of science concerned with findingthe best set-up for experiments is called optimal experiment design(OED). We use Bayesian inference concepts to model the experimentevaluation and, thus, are able to evaluate the experiment performanceusing the Shannon?s expected information gain (EIG). The more informativean experiment is about the quantities of interest, the larger isits EIG. Thus, the EIG is our utility function in OED; the quantity wewant to maximize.Estimating the EIG can be expensive. The straightforward approach is toapproximate the integrals in the EIG by Monte Carlo Integration (MCI).The resulting estimator is the double-loop Monte Carlo (DLMC). TheDLMC is expensive and is known to have numerical issues, thus, we seekother EIG that can have better performance than DLMC. One estimatorarises from approximating the posterior by a Gaussian function, theMonte Carlo with Laplace approximation (MCLA). This estimator hasa bias from the Laplace approximation, thus, it is inconsistent. As analternative to estimate the EIG, we present the double-loop Monte Carlowith importance sampling. The importance sampling uses a Gaussianestimate of the posterior to draw more informative samples about thequantities of interest.Being the cost a main issue in OED, it is important to make the optimizationas efficient as possible. To optimize the design of experiments,we use the stochastic gradient descent, reducing the cost of each iterationby the cost of a MCI at the cost of a decreasing step-size. Thedecrease in step-size for SGD makes the convergence sensible to thestep-size chosen. We use state-of-the-art techniques in stochastic optimizationto get a robust and fast framework. One technique is thePolyak?Ruppert averaging, consisting of a moving average of the optimizationpath. Since the average is smoother than the path, the decreaseof the step-size required for SGD can be relaxed, thus, furnishing a morerobust algorithm. To accelerate the convergence, we combine the SGDwith a momentum method, the Nesterov?s acceleration. The resultingalgorithm, the ASGD-restart is robust and maintains the acceleratedconvergence under some situations.To use the stochastic gradient methods, unbiased estimators of thetrue gradient are needed. Thus, we devise the gradients of the DLMC,MCLA, and DLMCIS estimators as a function of the forward model andits derivatives. Moreover, the complexities of the gradient estimatorsare presented and pseudocode of their algorithms is shown to allowreproduction.To test the performance of the methods, we use them to solve fournumerical examples. The first is a pure stochastic optimization problemwith twenty dimensions for both the design and quantities of interestspaces. The second example is an OED problem without a physicalmeaning that we created to test the combinations between the EIGestimators and the optimization methods. In the average of a hundredruns, the ASGD-restart with MCLA solved this example with less than300 model evaluations, whereas DLMC using full-gradient descent took2.99 × 107 evaluations. The third example is the optimal positioning ofstrain-gauges on a beam to infer mechanical properties of the materialthe beam is made. This example is used to show that the optimumfound is consistent with engineering intuition. The fourth and lastexample is the optimization of the currents in an electrical impedancetomography experiment to infer the angles in the plies of a compositelaminate material. The EIT simulation requires the use of finite elementsmethod, thus, being an expensive forward model to evaluate. The ASGDrestartusing the gradient of the MCLA estimator converged to optimumsolutions in the four cases tested. To best of the author?s knowledge,this is the first research to effectively solve an OED problem with amodel based on finite elements analysis.In the numerical tests, using the gradient of the MCLA estimator forstochastic optimization resulted in fast convergence with respect tocost. Moreover, the ASGD-restart coupled with MCLA has proven tobe a viable option for the optimization of experiments with expensiveforward models.
Description: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Civil, Florianópolis, 2019.
URI: https://repositorio.ufsc.br/handle/123456789/215266
Date: 2019


Files in this item

Files Size Format View
PECV1176-T.pdf 3.988Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar