Início NOTÍCIAS Eficiência do treinamento de IA: do rendimento ao bom rendimento

Eficiência do treinamento de IA: do rendimento ao bom rendimento

11
0

A preparação de um grande modelo de linguagem moderna (LLM), geralmente com parâmetros de aproximadamente 100B ou mais, envolve milhares de aceleradores e sobrecarga física, em execução por dias a meses. Nessa escala, o sucesso geralmente se resume a dois resultados principais:

  • Velocidade: quão rápido o sistema de treinamento consome dados, geralmente medidos em benchmarks.
  • Aprendizado: quanto progresso é alcançado por unidade de tempo, normalmente rastreado por perda versus relógio de parede.

Este artigo coloca intencionalmente entre colchetes o eixo aprendizagem/qualidade. Ele se concentra em questões sistêmicas: o que significa “rápido” em uma grande prescrição e como podemos medi-lo de forma ini-agnóstica?

A taxa de transferência bruta (sinais/seg) é necessária. No entanto, também é sensível ao contexto: com renderização de GPU, topologia de rede, local de armazenamento, modalidade de dados, comprimento de sequência, modelo arquitetônico e hiperparâmetros como tamanho de massa global.

Em outras palavras, o rendimento é um resultado, não uma medida normalizada de eficiência. Como a métrica restante orienta comparações entre pilhas e disciplinas de priorização, precisamos de uma lente de eficiência que expresse o progresso como uma fração da capacidade concluída, em vez de uma quantidade absoluta.

Espaço TNW City Coworking – onde o melhor trabalho é feito

Um espaço de trabalho para crescimento, colaboração e oportunidades infinitas de networking no coração da tecnologia.

Qual é a motivação por trás do bem: passar de “quantos sinais observamos por segundo?” tais como “que fração do potencial do sistema foi convertida no uso do progresso do treinamento?” O Google apresentou formalmente o ML Productivity Goodput como uma métrica de eficiência para sistemas de treinamento ponta a ponta e forneceu uma abordagem orientada por API para calcular fontes boas e ruins (perda de produtividade) em toda a pilha.

Do rendimento ao bom rendimento: por que a organização das coisas

É muito fácil postar e compartilhar, mas funde múltiplos fenômenos independentes;

  • ConfiabilidadeO trabalho pode permanecer ativo ou é reiniciado com frequência?
  • Recuperação e resiliência: quando ocorrem erros, quanto progresso é feito e com que rapidez ele se repete?
  • Computação eficiente: Quando o trabalho está “em execução”, as GPUs estão realmente executando o modelo matemático com eficiência ou estão com pouca potência devido a travamentos e sobrecarga?

Uma predefinição pode parecer “rápida” (sinais altos/s enquanto estiver saudável) e ainda ser “lenta” na conclusão do relógio de parede se for interrompida com frequência, restaurada lentamente ou executada com baixa eficiência de computação.

É o valor da propriedade do corvo que obriga o estoque a contabilizar o tempo perdido e a tornar a perda atribuível a ele.

O que é um bom treinamento?

Treinamento é a fração da capacidade teórica de treinamento que é convertida em progresso útil de treinamento. Na verdade, o número está aqui (0,1)onde:

  • 1,0 para ser para funcionar continuamente de forma frutíferasem que sejam contabilizadas quebras significativas de tempo perdido, recuperação, sobrecarga de pontos ou subutilização.
  • 0,5 para ser cerca de metade do potencial é desperdiçadomuitas vezes de forma invisível, por um tempo, reinício, ou estábulos, ou sobrecarga.

O Google enfatiza que deve haver uma ação genuína: não apenas uma métrica de título, mas um detalhamento que explique onde o tempo é desperdiçado (má produção) e por quê.

Para contrair essa composição concreta para o LLM, é útil descrever uma pilha de treinamento em três frentes:

  • Abaixo da camada (cluster, orquestração, tempos de execução, tratamento de falhas)
  • Camada de estrutura (configuração de tempo de execução distribuída, pontos de verificação, gerenciamento de estado, inicialização)
  • Camada de programa/modelo (paralelismo estratégico, núcleos, precisão, controle de lote/sequência; ou seja, como mapear eficientemente a matemática para o hardware)

Isto é semelhante à forma como as grandes organizações operam: diferentes partes têm diferentes camadas e os ganhos de eficiência exigem uma atribuição clara.

Camada 1: Abaixo do Goodput – “Com que frequência estamos realmente treinando?”

Abaixo está a disponibilidade do goodput: uma fração do tempo em que o trabalho está realmente em um estado de disciplina saudável, em vez de cair devido a falhas de infraestrutura ou atrasos de orquestração.

Uma definição operacional simples da janela de medição (W) é:

fórmula

Onde:

  • TDTeu* = Tempo de inatividade da carga de trabalho do cliente no i-ésimo distúrbio
  • W = janela de tempo de medição Goodput (por exemplo, 24 horas)
  • n = Número de pausas de treinamento na janela W *

Isso cuida das equipes abaixo: detecção de falhas, isolamento, remediação e latência de reinicialização. Clusters reais falham em escala de maneiras não triviais. A literatura sobre fiabilidade mostra que à medida que a dimensão do trabalho aumenta, o nível de vulnerabilidade do trabalho aumenta, e a recomendação deve ser concebida numa preocupação transversal e não “apenas armada”.

Camada 2: Framework goodput – “Quando falhamos, quanto lucro perdemos?”

A disponibilidade abaixo não é a história completa. Mesmo com uma reinicialização ao vivo, o progresso do treinamento pode ser perdido dependendo do estado e ser salvo e restaurado. É aqui que entra o quadro das coisas boas: mede a fração de tempo não perdida para verificar o capital e a recuperação de resíduos.

Acima da janela (W);

Sobre a janela (W)Sobre a janela (W)

Esta equação salienta um ponto crítico que o rendimento apenas esconde: a repressão é um imposto contínuo, enquanto as falhas impõem penalidades discretas que muitas vezes incluem despesas gerais de reinício e desperdício de retorno.

Checkpointing não é “invencível e gratuito”.

Em uma grande prática distribuída, pode ser caracterizada por “E/S” e sobrecarga de coordenação. Raramente, porém, surge a ideia de aumentar o retorno da perda. A cláusula de marco “correto” é, portanto, um sistema de compensação clássico: grande (SST) sem inflação esperada (LST).

Camada 3: Modelo goodput – “Você está convertendo silício em matemática de forma eficaz?”

Mesmo o treinamento perfeitamente confiável e recuperável pode ser ineficaz se as GPUs forem usadas incorretamente. A métrica padrão aqui é a utilização de FLOPs do modelo (MFU), uma medida da eficiência com que o programa converte sua capacidade em FLOPs à medida que o modelo vai e volta.

Fórmula prática MFU:

    Fórmula MFU    Fórmula MFU

onde:

  • MFS = FLOP do modelo calculado por parâmetro por índice por etapa
  • m = número de parâmetros do modelo de aprendizagem
  • n = Número de sinais de entrada
  • SPS = passo observado por segundo
  • PFSeu* = Pico teórico de FLOP por segundo na i-ésima GPU
  • k = Número de GPUs participantes

MFU é amplamente utilizado para se referir à eficiência do treinamento e é frequentemente definido como “o pico observado no modelo calculado dividido pelo pico teórico do computador”. O MFU baixo geralmente não é um único “bug”, mas um efeito emergente:

  • Cabeça de comunicação (redução total / coleta total) dominando as etapas de tempo
  • Configuração de paralelismo ruim (incompatibilidades de TP/PP/DP/EP)
  • Microlotes muito pequenos (preenchimento insuficiente do núcleo) ou gerenciamento inadequado de lotes/lotes
  • Mas o otimizador de estado de memória e ativação/pressão
  • Comunicação LINO suficiente com o computador

É aqui que as escolhas da “camada do programa” importam: DDP vs FSDP, escolhas TP/PP, paralelismo especializado para MoE, precisão (BF16/FP8), tamanho global do lote vs tamanho do microlote e programação detalhada de Recursos Coletivos.

Goodput de treinamento composto: uma métrica de eficiência em nível de pilha

Como temos três níveis de bens, podemos fazer uma meta para definir o objetivo do treinamento:

Treinamento Goodput (Gt) =Geu* Gmerda Geu

Onde:

  • Geu* = Abaixo do Goodput
  • Gmerda = Estrutura Goodput
  • Geu = Modelo Goodput

Este número exclusivo (0,1)) é obviamente útil porque reconhece a pilha.

Como medir o bom investimento na prática

A Goodput é tão credível quanto a sua instrumentação. Uma pilha prática de medições geralmente inclui:

Medição 1. Defina a janela.

Use uma janela fixa (24h é comum para relatórios operacionais) e calcule (Geu*, Gmerda, Geu) na mesma janela para manter a atribuição constante.

2. Registre um “período de treinamento frutífero” expresso em palavras.

Limites de nível de log e transições de estado “ativas em formação”. As estruturas Goodput normalmente separam fértil horário de * durão categorias como quebras, reinicializações, sobrecarga e outros intervalos não produtivos. (Nuvens do Google)

3. Amarre o evento de cada falta de distração.

O trabalho de confiabilidade sugere medir as falhas com uma taxonomia e associá-las ao tempo de perda efetivo, o que é útil tanto para a contabilidade quanto para prever como as taxas de perda aumentam com o tamanho do trabalho.

4. Calcule o MFU do treinamento em estado estacionário.

Exclua aquecimento, avaliação, atrasos pontuais de longo prazo e tempo de recuperação ao avaliar o MFU, a menos que seu objetivo seja explicitamente “MFU misto”. O MFU é mais útil como cálculo de lente em estado estacionário.

conclusão

A prescrição do LLM para dimensionar problemas de sistemas fundamentalmente distribuídos gira em torno do grande problema matemático paralelo.

A taxa de transferência (sinais/seg) é o título necessário, mas a medida de eficiência não é estável entre pilhas ou ao longo do tempo.

Goodput fornece uma alternativa normalizada e decomponível: quantifica a fração da capacidade potencial de instalação que é transferida para o progresso real da instalação e atribui perdas a camadas que podem repará-las.

Assim como as academias de pesquisa e produção da empresa ou sublinhado, ambas as disciplinas de escalonamento têm tanto a ver com a redução do mal quanto com o aumento do rendimento máximo, e os ganhos da empresa vêm do tratamento da eficiência como uma pilha de propriedades, e não como uma única métrica.

Se você estiver construindo ou operando sistemas de ML em grande escala e começando a pensar em termos de qualidade no nível da pilha, em vez de apenas padrões por segundo, há um nível mais profundo de trabalho envolvido no local onde a infraestrutura, as estruturas e os modelos de design interagem.

Para debates contínuos sobre a eficiência do treinamento em larga escala, consi-ML de plataforma e infraestrutura de produtos impulsionada por IA, conecte-se com Anirban Roy sobre LinkedIn. Você também pode explorar o modelo de negociação de IA em LLMProxy.ai

Notas:

  1. Google Cloud: métricas Goodput como medida de produtividade de ML (Google Cloud)
  2. AWS: Treinamento sem checkpoint no Amazon SageMaker HyperPod (Amazon Web Services, Inc.)
  3. Kokolis et al.: Revisitando a confiabilidade em um cluster de pesquisa de aprendizado de máquina em grande escala (arXiv)

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui