Interconnection architecture for dependable multi-core systems

DSpace Repository

A- A A+

Interconnection architecture for dependable multi-core systems

Show full item record

Title: Interconnection architecture for dependable multi-core systems
Author: Melo, Douglas Rossi de
Abstract: Reduzir o tamanho dos componentes e aumentar a frequência de operação dos circuitos torna os sistemas integrados mais suscetíveis a falhas. Falhas podem causar erros, os quais podem se propagar e levar a um defeito. Os sistemas integrados que empregam muitos núcleos dependem de uma rede-em-chip como arquitetura de interconexão, essa estrutura também é suscetível a falhas e requer soluções de confiabilidade. O provimento de confiabilidade em sistemas com vários núcleos deve ser realizado não apenas pelos elementos de processamento, mas também pela rede de comunicação. Esta tese investiga arquiteturas de interconexão de núcleos em um sistema integrado confiável e apresenta o desenvolvimento de uma rede-em-chip que atende aos requisitos impostos por esses sistemas. Este trabalho explora alternativas para implementar os controladores de regulação de fluxo, de roteamento e de arbitragem de um roteador, visando minimizar a propagação de erros. Para isso, esta pesquisa propõe um roteador com controladores baseados em máquinas de estado finito, com foco na baixa utilização de recursos lógicos e na flexibilidade de projeto para implementação em dispositivos de lógica programável. O roteador proposto implementa técnicas de proteção por meio do uso de redundância modular tripla nos controladores e do código de Hamming nos buffers. Este trabalho avalia o desempenho e a resiliência da arquitetura proposta, apresentando a escolha de compromisso entre o uso de recursos de hardware e a suscetibilidade à propagação de erros. Resultados experimentais mostram que o controlador de roteamento tem o maior impacto nas métricas avaliadas, e que a migração de um controlador Moore para Mealy reduz a propagação de erros e oferece uma taxa de transferência maior do que a proteção dos controladores. Esse comportamento ocorre em nível de roteador e em nível de rede. A principal contribuição desta tese não diz respeito à aplicação de técnicas específicas de proteção para uma determinada arquitetura, mas à avaliação do impacto de diferentes implementações, na resiliência interna do próprio roteador, em termos de propagação de erros. A arquitetura proposta visa desempenhar a integração de componentes em sistemas tolerantes a falhas com múltiplos núcleos, os quais executam o processamento de dados em aplicações implantadas em ambientes agressivos, como no espaço.Abstract: Reducing component size and increasing the operating frequency of integrated circuits makes the Systems-on-Chip (SoCs) more susceptible to faults. Faults can cause errors, and errors can propagate and lead to a system failure. SoCs employing many cores rely on a Network-on-Chip (NoC) as the interconnection architecture, and this structure is also susceptible to faults and requires reliability solutions. The provision of reliability in multi-core systems should be accomplished not only by the processing elements but also by the communication network. This thesis investigates interconnection architectures for core integration in a dependable SoC and presents the development of an NoC that meets the requirements imposed on these systems. This work explores alternatives to implement the flow regulation, the routing, and the arbitration controllers of a router to minimize the propagation of errors. For this purpose, this research proposes a router with controllers based on Finite-State Machines (FSMs), aiming at the low usage of logic resources and the design flexibility for implementation in programmable logic devices. The proposed router implements hardening techniques through the use of Triple Modular Redundancy (TMR) on controllers and the Hamming code on buffers. This work evaluates the performance and resilience of the proposed architecture, presenting the trade-off between the use of hardware resources and the susceptibility to the propagation of errors. Experimental results show that the routing controller has the most impact on the metrics evaluated and that the migration from a Moore to a Mealy controller reduces the error propagation and offers a higher throughput than hardening the controllers. This behavior occurs at the router level and at the network level. The main contribution of this thesis does not concern the application of specific hardening techniques for a given architecture, but the assessment of the impact of different implementations on the inner resilience of the router itself in terms of error propagation. The proposed architecture intends to perform the integration of cores in fault-tolerant multi-core systems, which perform data processing in applications deployed in harsh environments, such as in space.
Description: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2020.
URI: https://repositorio.ufsc.br/handle/123456789/216019
Date: 2020


Files in this item

Files Size Format View
PEEL1948-T.pdf 1.957Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar