As cargas de trabalho de aprendizagem profundas estão cada vez mais ligadas à memória, com núcleos GPU parados enquanto aguardam transferências de dados. A precisão do FP8 resolve isso em hardware mais recente, mas e os milhões de GPUs da série RTX 30 e 20 já implantados? Feather demonstra que a emulação FP8 baseada em software através da embalagem bitwise pode alcançar melhorias quase teóricas de largura de banda 4x (3,3x medidas), tornando acessível uma aprendizagem profunda eficiente sem atualizações de hardware caras
O post Quebrando a barreira de hardware: Software FP8 para GPUs mais velhas apareceu primeiro em Rumo Ciência dos Dados.



