Computação Paralela (MEI, 2021/22)

Logotipo e link para a Universidade do Minho

Computação Paralela
Mestrado Eng.ª Informática
2021/2022
Docente responsável: A. Proença

Vista da Rua do Souto no Séc. XVI

2020/2021

Ultima Modificação: 03 Jan 2022

departamento de informática

Avisos:
Os avisos serão colocados aqui por ordem anti-cronológica, i.e., os mais recentes ficarão por cima.

Aulas T da 1ª semana de janeiro: Já atualizadas, ver sumários. (03-jan-22)
URG: Planeamento das aulas e avaliação em janeiro (aviso divulgado no BB antes do Natal):
No último aviso sobre a data do teste foi colocada a opção de o mesmo ser adiado para quarta 19-jan-22. Como não houve nenhuma objeção a esta nova data, fica confirmado o adiamento para esse dia, mantendo-se a mesma hora (início às 15h30), apenas dependendo agora da confirmação da disponibilização de espaços (cantina mais 2 salas).
Este adiamento do teste tem as seguintes consequências relativamente ao funcionamento das aulas:
- a aula teórica da 1ª semana de janeiro será lecionada em modo online através de um vídeo, com o conteúdo previsto já como material complementar
ao da última semana de dezembro; o vídeo será divulgado logo no início da semana, bem como uma versão atualizada dos slides;
- as aulas PL da 1ª semana serão dedicadas a esclarecimento de dúvidas relativas ao trabalho de grupo para avaliação, e serão realizadas virtualmente via Zoom, no horário definido para cada turno;
- as aulas T e PL da 2ª semana serão para esclarecimento de dúvidas sobre qualquer assunto lecionado durante o semestre, incluindo o trabalho de grupo nas aulas PL;
- a 3ª semana será inteiramente dedicada à avaliação: o teste na quarta e a partir de quinta de manhã as defesas dos trabalhos, em calendário a definir, sendo previsível que as avaliações se prolonguem para além de sexta. (03-jan-22)
URG: Novo adiamento da data do teste (aviso divulgado no BB antes do Natal):
De acordo com a informação que recebi, os alunos de MEI/MIEI têm teste na
2ª, 4ª e 6ª da 2ª semana e preferem correr o risco viral a adiar o teste. Idêntica situação foi reportada pelos alunos de LEF/MIEF. Contudo, há abertura para fazerem o teste na semana seguinte. Assim venho reformular a proposta anterior e sugerir uma nova data: quarta, 19-jan-22, mesma hora.
De notar ainda que:
- na segunda 17-jan-22 ao fim da tarde vai haver uma palestra convidada sobre o MACC pelo Mestre João Barbosa, um aluno de doutoramento dual das Universidades do Minho e do Texas em Austin, ex-membro do TACC e atualmente investigador no MACC.
- as defesas dos trabalhos práticos têm também de ser adiados e terão início logo na quinta 20-jan-22, durante todo o dia, a terminar quando todos os grupos tiverem feito a sua defesa.
Calendário das defesas a divulgar em breve. (03-jan-22)
Apoio à preparação para o teste: com a mudança de MIEI para LEI+MEI, esta UC passou a ser obrigatória para todos e o seu conteúdo foi ligeiramente alterado. A equipa docente decidiu montar um teste exemplificativo de como será a sua tipologia, baseado exclusivamente em questões de anos anteriores em UCs com conteúdo similar. (22-dez-21)
Adiamento da data do teste: O teste está marcado para quarta 5-jan-22.
Atendendo a que:
- as incidências do covid-19 estão a subir drasticamente e é de prever que as festas familiares da época possam ainda contribuir mais para esta subida;
- por indicação do nosso ministro as provas de avaliação têm de ser presenciais;
- por indicação do governo a 1ª semana de janeiro deveria ser de contenção e de redução dos contactos pessoais;
- por indicação dos órgãos de gestão da UM não haverá contactos alunos-docentes na 1ª semana de janeiro, com exceção das provas de avaliação;
- o teste de CP/PP iria juntar nessa semana de contenção em poucos espaços da UM cerca de 250 alunos, colocando em risco a sua saúde e dos seus familiares;
venho por este meio sugerir o adiamento do teste por uma semana, para 12-jan-22 (mesmo dia e hora).
Caso haja algum impedimento/justificação forte para não a aceitar esta alteração, agradeço que contactem o vosso representante de ano/curso, para que este informe a equipa docente dos motivos para uma possível alteração de data até quarta 22-dez-21 e, se tal acontecer, com uma sugestão de nova data na 2ª semana de janeiro.
Caso não receba qualquer indicação até quarta 22-dez-21, o adiamento do teste fica confirmado para quarta 12-jan-22, e darei notícia dessa decisão no mesmo local deste aviso. (20-dez-21)
Enunciado do trabalho prático para avaliação: encontra-se disponibilizado aqui. (6-dez-21)
Planeamento até ao fim do semestre: Há 2 feriados em dezembro que afectam algumas turmas de MEI.
Para garantir que todos os turnos de LEF e MEI têm o mesmo nº de aulas PL e não penalizar em excesso esses turnos (que têm direito a ter feriado) a equipa docente decidiu o seguinte:
- arranjar salas para lecionar 2 aulas extras para esses turnos em sextas da mesma semana que os feriados;
- reduzir uma semana de aulas práticas laboratoriais para todos os turnos (de LEF e MEI), que seria a semana antes das férias do Natal; nesta semana apenas haverá aulas teóricas.
Assim, o planeamento das atividades para o resto do semestre é o seguinte:
- semana de 29-nov: GPU+CUDA na aula teórica, multiprocessamento paralelo com MPI na aula PL;
- semana de 6-dez: evolução tecnológicas dos processadores multicore na aula teórica; programação com CUDA na aula PL;
- semana de 13-dez: análise dos sistemas HPC na lista Top500 na aula teórica; aula PL opcional para esclarecimento de dúvidas e apoio à realização do trabalho de grupo para avaliação;
- semana de 3-jan: estava planeado haver apenas o teste, na quarta 5-jan de tarde; vamos aguardar decisão superior sobre o funcionamento da UM nessa semana devido às restrições do Covid;
- semana de 10-jan: se o teste não for adiado, palestra convidada na aula teórica para falar do MACC (Minho Advanced Computer Center, o centro nacional de supercomputação); no horário das PL apoio à realização do trabalho de grupo para avaliação;
- semana de 17-jan: avaliação dos trabalhos no horário das PL. (26-nov-21)
Conteúdos das aulas teóricas: os conteúdos considerados como efectivamente cobertos numa aula teórica são os que estão indicados nos sumários das aulas e nos slides associados a cada uma das aulas e aqui divulgados, mesmo que durante o período de contacto aluno-docente (aka aula) os slides não tenham sido todos apresentados ou debatidos. (14-out-21)
Criação de contas para acesso ao cluster: estão a ser criadas contas individuais para acesso ao cluster e essa informação será enviada para as contas de email dos alunos; estejam atentos! (08-out-21)
Slides adicionais: a Univ. Oregon disponibiliza slides associados ao livro SPP (bibliografia em baixo) em htpps://ipcc.cs.uoregon.edu/curriculum.html. Sempre que for relevante a indicação para os slides específicos serão incluídos no sumário. (08-out-21)
Defesa de trabalhos: nas aulas PL das 2ª e 3ª semanas de janeiro. (30-set-21)
Datas das provas de avaliação: metodologia de avaliação apresentada em baixo; datas das provas escritas definidas em reunião com a direção de curso: teste final na quarta 5-jan de tarde (cantina?) e exame na quinta 27-jan de tarde (cantina?); defesa e avaliação do trabalho global na 2ª e 3ª semana de janeiro. (30-set-21)
Material de apoio: Os slides das aulas teóricas serão disponibilizadas neste website logo após as aulas e alguns vídeos de aulas lecionadas em anos anteriores poderão ainda ser divulgados no website de MEI no BB. Os guiões para as aulas práticas serão disponibilizados atempadamente neste website. (30-set-21)
Metodologia de funcionamento da UC: as UCs de Computação Paralela de ambos Mestrados em Engª Informática (do plano novo e do plano antigo) são lecionadas em simultâneo, com o mesmo programa e conteúdo, mesmo horário semana a semana, e com a mesma metodologia e calendário de avaliação. Nestas condições apenas o website de MEI no BB será periodicamente atualizado e os alunos de MIEI poderão aceder a este website através de uma chave de pré-inscrição: cp2122 (30-set-21)
Inscrição nos turnos práticos: a direção de curso está a analisar a hipótese de colocar os alunos em pacotes de turnos com todas as PLs do mesmo ano; espera-se que esta situação fique esclarecida em breve. (30-set-21)
Website alternativo: o website oficial desta UC é a que se encontra no Blackboard (BB); contudo, a UC está ainda disponível num website aberto, o qual será atualizado
com mais frequência (que é onde se encontram estes avisos): http://gec.di.uminho.pt/mei/cp/. (30-set-21)
Arranque do semestre: teóricas na quinta 7-out pelas 13h00, no CP2, sala 0.08 (antigo Anf 4); práticas laboratoriais (PL) na semana seguinte em laboratórios no DI; recomenda-se que tragam os vossos portáteis para as sessões PL. (30-set-21)

Topo...

Equipa docente

Docentes responsáveis pela lecionação da UC

Teóricas
Alberto José Proença
email: aproenca<at>di.uminho.pt

Práticas Laboratoriais
André Martins Pereira
email: ampereira<at>di.uminho.pt
Rui Silva
email: ruisilva<at>di.uminho.pt

Topo...

Objectivos e Organização

A computação paralela (CP) é hoje uma técnica de desenvolvimento de software e respetivo suporte à sua execução, indispensável para quem tem preocupações de eficiência, quer em termos de desempenho computacional, quer na pegada ecológica quer ainda na gestão eficiente de recursos. Qualquer sistema de processamento de informação baseia-se hoje em componentes de computação constituídos por múltiplas unidades de processamento (tradicionalmente designados por CPUs) integradas num único circuito eletrónico, quer sejam os denominados supercomputadores (clusters computacionais construídos com milhares de servidores semelhantes aos laptops), quer os sistemas embebidos noutros equipamentos (incluindo smartphones).

A UC de CP usa os atuais clusters computacionais para desenvolver competências para os sistemas de hoje e os que virão depois, concentrando-se no desenvolvimento de competências (conhecimentos, e aptidões intelectuais e práticas) nos seguintes temas:

a estrutura do sistema físico computacional com a dupla finalidade de execução eficiente de aplicações e da gestão de recursos na execução de instruções;
a caracterização e utilização de algoritmos, modelos, linguagens, bibliotecas e ferramentas de apoio à programação paralela e sua execução eficiente.

Topo...

Resultados de Aprendizagem

Um estudante que complete com sucesso a UC de CP deverá ser capaz de demonstrar que adquiriu as seguintes competências:

caracterizar e avaliar qualitativamente a arquitetura de sistemas de computação paralelos/distribuídos e respectivo desempenho na execução de aplicações, bem como desenvolver e/ou modificar aplicações computacionais com vista a otimizar o seu desempenho e escalabilidade;
projetar, desenvolver, implementar e otimizar aplicações paralelas e distribuídas, utilizando paradigmas de computação paralela;
caracterizar e desenvolver implementações sequenciais e paralelas de algoritmos, com algum destaque para os métodos numéricos;

Topo...

Programa

Conteúdos para cada um dos módulos temáticos:

Estrutura do sistema físico:

evolução do paralelismo na arquitetura das PUs (Processing Units, single-core): no paralelismo ao nível da execução de instruções, ILP (pipeline, multiple-issue, multi-threading), no paralelismo de dados (computação vetorial e extensões SIMD a PUs escalares) e nos acessos à memória (hierarquia de memória)
métricas de avaliação de desempenho e técnicas de optimização da execução de código em PUs single-core
introdução aos PUs many-core da Intel e aos gpGPUs da NVidia, incluindo o ambiente CUDA
análise da evolução dos sistemas no TOP500.

Algoritmos e programação paralela:

programação baseada no paradigma de memória partilhada: com fios de execução (threads) e usando OpenMP
medição de otimização de desempenho em memória partilhada
programação baseada no paradigma de memória distribuída com processos comunicantes, usando MPI
desenho de aplicações paralelas e padrões comuns de computação
medição e otimização de desempenho em memória distribuída
algoritmos paralelos com ênfase nos métodos numéricos.

Topo...

Bibliografia

Computer Organization and Design, 5th Ed., David Patterson & John Hennessy, Morgan Kaufmann, 2013
***** nos sumários com a sigla COD *****
Computer Architecture. A Quantitative Approach, 6th Ed., David Patterson & John Hennessy, Morgan Kaufmann, 2017
***** nos sumários com a sigla CAQA *****
Parallel Computing Architectures and APIs, Vivek Kale, Chapman and Hall/CRC, 2019
***** nos sumários com a sigla PCA *****
Designing and Programming Parallel Programs: Concepts and Tools for Parallel Software Engineering, Ian Foster, Addison-Wesley, 1995
(free online at http://www.mcs.anl.gov/~itf/dbpp/text/book.html, or here)
***** nos sumários com a sigla DPPP *****
Parallel Programming in C with MPI and OpenMP, Michael J. Quinn, McGraw-Hill Education, 2003
***** nos sumários com a sigla PPC *****
Structured Parallel Programming, Michael McCool, Arch Robison & James Reinders, 2018
***** nos sumários com a sigla SPP *****
Programming Massively Parallel Processors, A Hands-on Approach, 3rd Ed., David Kirk & Wen-mei Hwu, Morgan Kaufmann, 2016
***** nos sumários com a sigla PMPP *****

Topo...

Sumários e Notas de Apoio
Os textos a cor clara são um mero indicador do planeamento das aulas da UC.

06-out-21 (PL4, PL5)
Não houve aula ainda.

07-out-21 (T)
Caracterização do ambiente de trabalho para 2021/22: a estrutura e objetivos dos temas principais da UC, a metodologia de trabalho e proposta sobre a metodologia de avaliação a adoptar.
Breve revisão das questões pertinentes que ligam o desempenho à arquitetura e organização do par processador-memória, com destaque para as diversas abordagens na introdução de paralelismo na evolução das arquitecturas dos processadores, nomeadamente ao nível do ILP (pipeline, multiple issue), do paralelismo de dados (SIMD/vetorial), do paralelismo na execução de fios de execução (multi-threading) e de processos, e breve introdução à organização da memória.
Apresentação do cluster SeARCH a ser usado em ambiente laboratorial.

Sugestão de leituras: Slides desta sessão aqui, os quais incluem material de revisão de conceitos básicos de sistemas de computação.
Material adicional de revisão da licenciatura: página da unidade curricular (UC) de Sistemas de Computação de MIEI (em http://gec.di.uminho.pt/miei/sc/), e em especial a leitura dos 3 primeiros capítulos do livro de Bryant & O'Hallaron (Computer Systems: A Programmer's Perspective), cuja versão beta se encontra em PDF aqui.
Slides de introdução ao cluster SeARCH.
Material para aprofundar: PCA: secção 3.1; COD (4^th ed.): secção 4.10; CAQA: secção 1.8 e 1.9; SPP: secção 1.3 (consultar também os slides do capítulo 2).

07-out-21 (PL1, PL2, PL3, PL6)
Não houve aula ainda.

13-out-21 (PL4, PL5)
Introdução a um dos casos de estudo a serem abordados durante o semestre: multiplicação de matrizes. Revisão do modelo de desempenho e análise de complexidade do caso de estudo. Caracterização computacional do algoritmo recorrendo à estimativa e medição de vários contadores de desempenho.

Notas de estudo: o guião laboratorial PL01, um conjunto de ficheiros com código, e slides de introdução ao PAPI.

14-out-21 (T)
Hierarquia de memoria (revisão de conceitos adquiridos numa licenciatura): questões chave no projecto de memórias cache com análise do impacto da hierarquia no desempenho da execução de código ao nível de CPI; estimativa do impacto no desempenho das caches multinível em termos de hit time, miss rate e miss penalty, devido aos seguintes fatores chave: tamanho da cache/bloco, colocação/substituição de blocos (linhas), técnicas de escrita, latência/bandwidth. Apresentação de exercícios práticos.
Breve introdução à organização das caches em ambiente multi-core, nomeadamente nos protocolos de coerência de cache (snooping e directory-based) e na consistência de caches.
Análise de 6 técnicas de otimização básicas na organização das caches, para um melhor desempenho na execução de instruções.

Sugestão de leituras: Slides da aula sobre hierarquia de memória, complementada com o texto que lhe deu origem, o Anexo B e o Cap. 2 de CAQA, onde o anexo é uma revisão do conteúdo do livro mais básico dos mesmos autores (COD) e o Cap 2 é dedicado às questões mais avançadas de hierarquia de memória, sendo o tópico de coerência de caches em ambientes multicore abordado em 5.2 de CAQA.

14-out-21 (PL1, PL2, PL3, PL6)
Introdução a um dos casos de estudo a serem abordados durante o semestre: multiplicação de matrizes. Revisão do modelo de desempenho e análise de complexidade do caso de estudo. Caracterização computacional do algoritmo recorrendo à estimativa e medição de vários contadores de desempenho.

Notas de estudo: o guião laboratorial PL01, um conjunto de ficheiros com código, e slides de introdução ao PAPI.

20-out-21 (PL4, PL5)
Otimização de programas: loop-unrolling e instruções vetoriais. Análise do impacto do desdobramento do ciclo. Introdução ao paralelismo de dados (SIMD) através das instruções vetoriais.

Notas de estudo: o guião laboratorial PL02 e um conjunto de ficheiros com código.

21-out-21 (T)
Optimização de programas sequenciais. Bloqueadores de optimizações: "memory aliasing" e efeitos colaterais. Técnicas de otimização independentes da máquina: movimentação de código, simplificação de expressões, partilha de sub-expressões. Otimizações dependentes da máquina: desdobramento de ciclos, desdobramento em paralelo e divisão de registos.

Sugestão de leituras: Slides sobre ILP.
Recomendamos ainda o capítulo 5 do livro de Bryant (Optimizing Program Performance), em especial na parte sobre sobre execução paralela de instruções., nomeadamente um exemplo detalhado de várias implementações ILP na microarquitetura do Intel P6 (enquanto percursor das atuais microarquiteturas Intel x86), com visualização da iteração de ciclos num fragmento de código vetorial, e uma análise comparativa do desempenhos estimados e medidos (em CPE)
Revisão da análise de desempenho lecionada na UC de Sistemas de Computação de ano anterior: seleção de slides e vídeos.

21-out-21 (PL1, PL2, PL3, PL6)
Otimização de programas: loop-unrolling e instruções vetoriais. Análise do impacto do desdobramento do ciclo. Introdução ao paralelismo de dados (SIMD) através das instruções vetoriais.

Notas de estudo: o guião laboratorial PL02 e um conjunto de ficheiros com código.

27-out-21 (PL4, PL5)
Otimização de programas: loop-unrolling e instruções vetoriais. Análise do impacto do desdobramento do ciclo. Introdução ao paralelismo de dados (SIMD) através das instruções vetoriais.

Notas de estudo: o guião laboratorial PL03 e um conjunto de ficheiros com código.

28-out-21 (T)
A evolução das arquiteturas para além do paralelismo ao nível da instrução (ILP): exploração de paralelismo ao nível dos fios de execução (Thread-Level Parallelism, TLP): noção de multithreading de grão fino / multiplexado no tempo, grão grosso e simultâneo (SMT), com referência ao Hyper-Threading da Intel (HT).
Paralelismo ao nível dos dados: desafios e características das arquiteturas vetoriais; extensões SIMD em arquitecturas SISD da Intel (MMX, SSE, AVX/AVX2, AVX-512); extensões SIMD na arquitetura ARM (Neon, SVE).

Sugestão de leituras: Slides sobre multithreading e paralelismo de dados.
O tema de multithreading é devidamente explorado em CAQA, nomeadamente na secção 3.11, enquanto as 3 primeiras secções do capítulo 4 tratam com alguma profundidade o tema do paralelismo de dados.

28-out-21 (PL1, PL2, PL3, PL6)
Otimização de programas: loop-unrolling e instruções vetoriais. Análise do impacto do desdobramento do ciclo. Introdução ao paralelismo de dados (SIMD) através das instruções vetoriais.

Notas de estudo: o guião laboratorial PL03 e um conjunto de ficheiros com código.

03-nov-21 (PL4, PL5)
Introdução a programação paralela em memória partilhada (OpenMP).

Notas de estudo: o guião laboratorial PL04.

04-nov-21 (T)
Programação paralela explícita: o conceito de threads e de processos, metodologia de desenvolvimento de aplicações paralelas e caracterização das arquiteturas paralelas homogéneas e heterogéneas para programação paralela explícita, com ênfase na programação paralela em sistemas de memória partilhada.
Introdução ao OpenMP: directivas, modelo de execução, paralelismo centrado em loops, desafios à programação (race conditions, mutexes, load balancing, ...).

Sugestão de leituras: Slides sobre programação paralela com memória partilhada.
As arquiteturas de sistemas multi-core são também analisadas na secção 5.1 de CAQA, quer em ambientes de memória partilhada quer em ambientes mistos de memória partilhada e de memória distribuída, típico dos atuais clusters computacionais.
O capítulo 6 de PCA apresenta também uma visão complementar aos sistemas paralelos, com o capítulo 10 a detalhar a arquitetura de sistemas de memória partilhada, a primeira secção do capítulo 13 a contextualizar a programação com memória partilhada e o capítulo 14 dedicado à programação com OpenMP.

05-nov-21 (PL1, PL2, PL3, PL6)
Introdução a programação paralela em memória partilhada (OpenMP).

Notas de estudo: o guião laboratorial PL04.

10-nov-21 (PL4, PL5)
Gestão de acessos concorrentes a memória partilhada em ambientes multithread com OpenMP. Paralelização e análise da escalabilidade de um código exemplo.

Notas de estudo: o guião laboratorial PL05.

11-nov-21 (T)
Otimização de aplicações em memória partilhada: análise das principais limitações à escalabilidade das aplicações, nomeadamente a aplicação das Leis de Amdahl e de Gustafson, o limite de largura de banda de acesso à memória, a sobrecarga de paralelismo com excesso de sincronização, a falta de balanceamento da carga computacional.

Sugestão de leituras: slides sobre optimizing performance with OpenMP.
Recomenda-se vivamente a leitura das secções 2.5 e 2.6 do livro SPP.

12-nov-21 (PL1, PL2, PL3, PL6)
Gestão de acessos concorrentes a memória partilhada em ambientes multithread com OpenMP. Paralelização e análise da escalabilidade de um código exemplo.

Notas de estudo: o guião laboratorial PL05 .

17-nov-21 (PL4, PL5)
Medição de performance de programas paralelos para otimização da sua execução. Introdução das primitivas atomic e task.

Notas de estudo: o guião laboratorial PL06.

18-nov-21 (T)
Programação baseada em passagem de mensagens. Introdução ao standard MPI (Message Passing Interface). Medição e optimização do desempenho das aplicações paralelas.

Sugestão de leituras: Slides sobre programação paralela com passagem de mensagens.
Recomenda-se ainda a leitura das 3 primeiras secções do Cap 15 do livro PCA.

19-nov-21 (PL1, PL2, PL3, PL6)
Medição de performance de programas paralelos para otimização da sua execução. Introdução das primitivas atomic e task.

Notas de estudo: o guião laboratorial PL06.

24-nov-21 (PL4, PL5)
Introdução ao paralelismo multiprocesso em memória distribuída com MPI. Estudo e implementação dos padrões de paralelismo em pipeline e
master-worker com MPI.

Notas de estudo: o guião laboratorial PL07.

25-nov-21 (T)
Introdução aos algoritmos paralelos: projeto e análise de algoritmos paralelos.
Análise dos algoritmos de ordenação mais comuns em termos de localidade no acesso aos dados e exploração de paralelismo. Projeto de algoritmos paralelos para ordenação em memória distribuída e apresentação do algoritmo de parallel sorting by regular sampling.

Sugestão de leituras: Slides sobre algoritmos paralelos.
Recomenda-se ainda a leitura dos Cap 13 e 14 do livro SPP.

26-nov-21 (PL1, PL2, PL3, PL6)
Introdução ao paralelismo multiprocesso em memória distribuída com MPI. Estudo e implementação dos padrões de paralelismo em pipeline e
master-worker com MPI.

Notas de estudo: o guião laboratorial PL07.

02-dez-21 (T)
Coprocessadores para aceleração da computação: GPU, DSP, TPU, FPGA.
Arquitetura e modelo de programação dos GPUs da Nvidia em contexto HPC: análise da evolução dos Tesla com destaque para as arquiteturas Fermi, Kepler, Pascal, Volta e Ampere. Terminologia da Nvidia vs. dos arquitetos de CPUs.
Introdução ao ambiente CUDA como modelo de programação orientado para os dispositivos GPU: terminologia, modelos de memória e de organização de threads. Breve comparação com OpenCL.

Sugestão de leituras: Slides sobre GPUs e CUDA.
Recomenda-se a leitura das secções 4.4 e 4.5 do livro CAQA_6th_Ed. com os conceitos-chave apresentados nesta aula; recomenda-se ainda a leitura dos 3 primeiros capítulos do livro PMPP, um dos livros mais divulgados e populares sobre os GPUs da NVidia e da programação em CUDA.
Breve descrição da arquitetura do GPU Ampere da NVidia.

03-dez-21 (PL1, PL2, PL3, PL4, PL5, PL6)
Paralelização do Crivo de Erastótenes em ambientes de memória distribuída com MPI.
Estudo das topologias pipeline e master-worker para a distribuição de carga do caso de estudo.

Notas de estudo: o guião laboratorial PL08.

09-dez-21 (T)
Caracterização da transição das arquiteturas multicore para as manycore, incluindo os fundamentos da interligação entre cores e caches num chip (NoC).
Uma visão geral da evolução tecnológica da arquitetura dos processadores de servidores topo de gama: as famílias Xeon Phi e Xeon Scalable Processor da Intel e Epyc Zen da AMD, o Shen Way SW26010, as famílias concorrentes baseadas no ARM V.8 (Marvell ThunderX, Fujitsu A64FX, ARM Neoverse, Ampere Altra, AWS Graviton, Huawei Kunpeng 920) e o Cerebras Wafer Scale Engine.
Uma apresentação sucinta da arquitetura dos novos SOC M1, M1 Pro e M1 Max da Apple.

Sugestão de leituras: Slides sobre a evolução para manycores.
Uma descrição mais detalhada das arquiteturas Xeon Phi encontra-se nos 3 primeiros capítulos do livro "Intel Xeon Phi Processor High Performance Programming. Knights Landing Edition" de Jim Jeffers, James Reinders e Avinash Sodani (divulgado no início do semestre).
Recomenda-se ainda a leitura dos diversos websites sugeridos nos slides, incluindo o paper referido no último slide.

10-dez-21 (PL1, PL2, PL3, PL4, PL5, PL6)
Introdução à programação de GPUs com CUDA. Análise do perfil de execução e otimização de um stencil 1D em GPU.

Notas de estudo: o guião laboratorial PL09.

15-dez-21 (PL4, PL5)
Apoio à realização do projeto experimental para avaliação da componente prática da UC.

Notas de estudo: o enunciado do projeto experimental está nos Avisos.

16-dez-21 (T)
A lista de supercomputadores TOP500: métricas para a construção das listas publicadas 2 vezes por ano, (i) HPL performance benchmark, (ii) HPL performance por unidade de energia consumida (FLOPS/Watt), (iii) HPCG benchmark e (iv) a nova lista HPL-AI.
Análise crítica das arquiteturas que se destacaram nos últimos anos nessas listas do TOP500.
Tópicos complementares: análise da estratégia europeia para obter um melhor posicionamento nas listas do TOP500; análise da arquitetura do Decalion, o novo supercomputador no MACC.

Sugestão de leituras: slides com o historial de supercomputadores de topo (TopHPC)..
Recomenda-se a leitura dos websites referidos nos slides.

17-dez-21 (PL1, PL2, PL3, PL6)
Apoio à realização do projeto experimental para avaliação da componente prática da UC.

Notas de estudo: o enunciado do projeto experimental.

Férias de Natal

05-jan-22 (PL4, PL5)
Apoio à realização do projeto experimental para avaliação da componente prática da UC.

06-jan-22 (T)
Análise interpretativa e crítica de diversas estatísticas do TOP500.
Análise da estratégia integrada Europeia nas infraestruturais de HPC e sua consequente aplicação ao caso Português. Introdução ao centro nacional de supercomputação em Portugal, o MACC, e respetiva arquitetura do novo sistema em instalação, o Decalion.

Sugestão de leituras: o video com a aula em modo não presencial (gravado o ano passado); slides atualizados com análise de estatísticas do TOP5500 e introdução ao MACC (TOP500&MACC).
Recomenda-se a leitura dos websites referidos nos slides.

07-jan-22 (PL1, PL2, PL3, PL6)
Apoio à realização do projeto experimental para avaliação da componente prática da UC.

Topo...

Avaliação

É constituída por 3 elementos:

Prova escrita individual (teste final, exame): 30%
Participação nas práticas laboratoriais: 20%
Trabalho em grupo com apresentação de relatório e defesa oral: 50%

Topo...

Direitos de Autor & Copyright

Esta publicação - incluindo a sua faculdade de impressão - e respetivos conteúdos - que poderão incluir reproduções parciais de obra(s) alheia(s) devidamente citadas, com a indicação do autor, título da obra, editor ou outra fonte - destinam-se exclusivamente aos alunos do Mestrado de Eng.ª Informática, da Universidade do Minho, para uso pessoal e fins de aprendizagem eletrónica (e-learning) e não revestem qualquer finalidade lucrativa ou comercial.
Qualquer outra reprodução, total ou parcial, desta obra, por qualquer suporte, modo ou processo, nomeadamente processo eletrónico, mecânico ou fotográfico, incluindo fotocópia, a modificação da obra, a sua comunicação pública, a sua distribuição através de aluguer ou comodato, sem qualquer autorização escrita do autor, é ilícita e passível de procedimento judicial contra o infrator.

Topo...

Página mantida por aproenca<at>di.uminho.pt
Ultima Modificação: 03 Jan 2022

Avisos: Os avisos serão colocados aqui por ordem anti-cronológica, i.e., os mais recentes ficarão por cima.

Equipa docente

Docentes responsáveis pela lecionação da UC

Objectivos e Organização

Resultados de Aprendizagem

Programa

Bibliografia

Sumários e Notas de Apoio Os textos a cor clara são um mero indicador do planeamento das aulas da UC.

Avaliação

Direitos de Autor & Copyright

Avisos:
Os avisos serão colocados aqui por ordem anti-cronológica, i.e., os mais recentes ficarão por cima.

Sumários e Notas de Apoio
Os textos a cor clara são um mero indicador do planeamento das aulas da UC.