Notícias em alta
Categorias
Fique conectado
Notícias em alta
Ao utilizar nosso site, você concorda com o uso de nossos cookies.

Notícias

Flexolmo Outras organizações de Owables para colaborates treinam LLMs Wita Sharig
Tecnologia

Flexolmo Outras organizações de Owables para colaborates treinam LLMs Wita Sharig 



Resumo
Resumo

O Flexolmo, desenvolvido pelo Instituto Allen para a IA, dispara que não pode colossar os modelos laabosos que desejam sensíveis.

Indústrias em reedição, os destaques geralmente não têm dados de valor para o treinamento de modelos de IA, mas canham as paredes de ar. A abordagem do Flexolmo adota, usando uma configuração de especialistas de mixtire-offer, cada especialista é treinado independentes. Em vez de trocar dados brutos, o Orenoks treinando seu próprio excesso localmente e compartilham apenas os pesos resultante com o grupo.

O principal problema com especialistas independentes de trainy é a coordenação. O Flexolmo aborda isso usando o modelo público congelado como referência fixa. O especialista público reita o treinamento inalterado, enquanto novos especialistas são treinados em dados locais. Dessa forma, todos os especialistas agnn com o mesmo modelo de referência e cance, porque mais tarde o retrointismo.

https://www.youintube.com/watch?v=DSTRUPPAPA7FVQ

Flexibilidade para dados sensíveis

O Flexolmo é bem-siML para casos em que o acesso a dados precisa ser controlado fortemente. As fontes de dados podem ser ativadas ou desativadas dependentes do aplicativo. Para facilitar, o Toxic Conttet pode ser incluído para Remagch, mas excluído do Grom General Tome.

Anúncio

A pesquisa demonstrou isso com o especialista em notícias em teste. Conforme o desempenho, a execução de tarefas relacionadas às notícias caiu, mas resulta em outras áreas estáveis em razomia.

Gráfico de barras: Desempenho (%) Somente Newsg, MC9, Code e Math2 no Modelo Especialista Full 8 VS. Especialista em notícias.
Quando o especialista em notícias é ampliado pelo Flexolmo, o desempenho nas tarefas de notícias cai, mas resulta em outras áreas quase as mesmas. | Imagem: Shi et al.

Mesmo que as licenças mudem ou os direitos de uso expirem, as fontes de dados podem ser os chicotes latais da morte reciclando todo o modelo. O modelo final possui 37 bilhões de parâmetros, com 20 projetos de lei bilhões ativos.

Ganhos de desempenho em testes do mundo real

A equipe avaliou o Flexolmo usando o mix de dados públicos e sete conjuntos de dados especializados: notícias, escrita criativa, código e Reddit Contet.

Você testou em 31 tarefas, Flexolmo Showage Um implemento Audine de 41 % dos escritórios de modelo treinados apenas em dados públicos. Em benchmarks gerais, o Flexolmo superou acuticamente o modelo hipotecal, tipos de superformas para todos os dados com o mesmo esforço duque. Somente sobre o modelo de trem do modelo em todo o conjunto de dados se afasta do DOD Sightly Beter.

Gráfico de barras: o FlexolmO supera o modelo Wizout Flexolmo em quatro testes, logo abaixo do limite superior 2 × flops.
O Arkertracture da Flexolmo leva a apenas pequenas quedas de desempenho em benchmarks mais gerais. | Imagem: AI2

Como os dados de dados compartilham apenas pesos do modelo treinado, o risco de vazamento de dados é mínimo. Nos testes, os ataques para recuperar dados de treinamento afundaram apenas 0,7 % das vezes. Para organizações de que os dados especialmente sentivos, o Flexolmo suporta treinamento diferencial de primaverantes, o que oferece garantias formais de privacidade. Opção de orientação do ECHCH participante do participante de ECHCH independentemente. O Instituto Allen alleou OlmotraceFerramenta para rastrear o modelo de linguagem, volta a suas fontes de treinamento.

Recomenda -se

Notícia Original

Postagens relacionadas

Deixe um comentário