Início NOTÍCIAS Ninguém está falando sobre o problema de infraestrutura de IA de US$...

Ninguém está falando sobre o problema de infraestrutura de IA de US$ 2 trilhões, e os engenheiros têm que pagar

18
0

As cobranças de taxas de infraestrutura de IA das últimas oito partes deram ao público um vocabulário definido que eles incorporarão nos custos de capital. Gerenciamento de GPU hiperescalador. Poder de compra contratual. Ele ficou satisfeito com o pé. Não forneceram o vocabulário público, para o qual se concorda que os clusters são saudáveis ​​na base mais frequente, depois de o capital ter sido tomado. Essa linha, em retrospectiva, tornou-se um dos centros ocultos mais importantes de todo o modelo de construção. Ela cresce mais rápido que a cabeça acima dela.

Os números visíveis na infraestrutura de IA descrevem a história da conversa na capital. O gerenciamento de GPU Hyperscaler está a caminho de ultrapassar vários trilhões de dólares cumulativamente no ciclo atual. Os acordos de compra de energia entraram num frenesim que a indústria tem descrito historicamente. Seguiram-se os serviços imobiliários. A história da capital é relatada em detalhes durante dois anos de atualizações de investimentos.

A narrativa operacional é menos visível. Ele descreve o que é necessário para manter um cluster íntegro. O trabalho é desagradável e em grande parte manual. As falhas dos nós da GPU são detectadas, rastreadas e corrigidas. Os pods reprogramados foram degradados em torno do ódio. A utilização de recursos em toda a frota de aceleradores é monitorada, equilibrada e relatada. Cada uma dessas funções é desempenhada em um ambiente de produção, o tipo de engenheiro cujo salário é o mais alto do setor.

A escala da conta é ótima. Analistas do setor que pesquisam o uso de GPU em classes de hiperescala relataram taxas de inatividade de mais de trinta por cento para aceleradores de produção durante vários anos. ecossistema para manter as operações agrupadas funcionando em tamanho, para que a proporção em vez da subproporção transcenda, em ambientes onde o objetivo explícito de qualquer equipe de infraestrutura é quebrar a proporcionalidade. A meta operacional, em conjunto, é um dos elementos lineares que transforma a tese da infraestrutura de IA de um investimento historicamente protegido em um problema estrutural de ponta.

Tecnologia da UE

As últimas notícias sobre o cenário tecnológico da UE, uma história sobre os sábios do autor Boris e alguma arte questionável de IA. É grátis, toda semana, na sua caixa de entrada. Cadastre-se agora!

Tem uma função endereçável até hoje, estando dentro das ferramentas de automação dos maiores operadores, acessível apenas aos engenheiros de construção. esse é o começo da mudança. Shashidhar Bhat, engenheiro de software da organização de infraestrutura de big data ByteDance, passou dois anos desenvolvendo um trabalho que mapeia diretamente a camada operacional do resto da indústria, descrevendo o problema.

Cada parte é vista como uma infraestrutura comum. Plug-ins de dispositivos personalizados para o acelerador de agendamento de granulação mais fina. Ferramentas de observabilidade desenvolvidas no NVIDIA Data Center GPU Manager. Um contêiner de reescalonamento lógico autônomo que reflete a degradação do hardware sem propagação humana. Cada tipo trabalha silenciosamente na infraestrutura interna do grupo. Tomados em conjunto, eles nos dizem que o piso operacional é a forma que a indústria encontra para garantir que os engenheiros estejam estáveis, integrados no software e endurecidos contra o fardo da produção.

A escala a que atinge o trabalho de Bhat é parte do que o torna credível como referência arquitetónica. ByteDance, controladora do TikTok, está executando um dos maiores projetos Kubernetes do mundo. Seus clusters em centenas de nós de GPU executam cerca de um petabyte de dados por mês. A tecnologia interna, um sistema de automação de agentes chamado OpenSkill, reduziu o tempo ocioso da GPU em trinta e cinco por cento nesse ambiente, em relação a uma linha de base que inclui o uso de chaves para autodisciplinar um grande recomendador e distribuição de conteúdo.

Trinta e cinco por cento é um número amplo para os padrões operacionais de campo. As operadoras da classe hiperescalar alcançaram melhorias ano após ano nas taxas de inatividade de 100%, com melhorias de um dígito nos volumes hiperescalares rendendo oito dígitos. A redução à escala Bhat refere-se ao tipo de efeito que, quando a produção surge numa sociedade igualitária, é mantido de perto. Isso está inteiramente relacionado ao motivo pelo qual a comunidade começou a prestar atenção à operadora maior.

A segunda metade do trabalho recente de Bhat apareceu abertamente. Kubewharf contribuiu para o Katalyst, uma estrutura de gerenciamento de recursos mantida em conjunto pela ByteDance e pela comunidade mais ampla do Kubernetes. O design do Katalyst é um dos poucos no ecossistema nativo da nuvem que aborda o agendamento de recursos relacionados à CPU e GPU sob carga. O conselho apresentou as propostas de Bhatt contra o conselho, argumentando que o debate tinha evoluído em direções estreitamente paralelas ao seu trabalho interno. A convergência entre o trabalho de produção de engenharia interna e as contribuições externas abertas é uma forma rara de conservação que reconhece o modelo comunitário substantivo em vez de promocional.

A terceira etapa do trabalho do corpo é Carbon-Kube, um agendador Kubernetes de código aberto que Bhat lançou em dezembro passado junto com um artigo do IEEE em coautoria com Sathwik Rao Sirikonda, também na ByteDance. O cronograma é um projeto separado do trabalho interno da ByteDance e aborda a dimensão das emissões de carbono das operações do cluster, em vez da dimensão das emissões. Os projetos são enviados com citações de documentos, métodos de revisão e scripts reproduzíveis. A contribuição metodológica é mais rigorosa no sentido de que a infraestrutura interna do instrumento nunca deve ser perturbada.

É uma imagem composta que faz valer a pena defender o caso. A circulação operacional da infraestrutura de IA é a espinha dorsal de uma economia de médio porte. O esforço para resolver isso foi feito silenciosamente nas maiores empresas, acessível apenas às equipes internas. Isso está mudando em parte devido a esforços como o de Bhat, cujas contribuições incluíram produção interna, suporte externo de código aberto e publicações em nível de pesquisa em seu nome.

O argumento de que a camada operacional é a próxima grande fronteira na infra-estrutura de IA é difícil de rejeitar devido à quantidade de trabalho que libertou durante o ano passado. O operador do bot terá que decidir nos próximos dois a três anos se construirá a sua própria resposta ou uma a partir do código aberto que está agora disponível. A combinação dessa resposta dará a margem de trabalho de qualquer projeto de IA da equipe de produção.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui