A menos que você se dedique a acompanhar as últimas novidades em inteligência artificial, talvez nunca tenha ouvido o termo “aprendizado federado” antes. Embora possa não ser tão proeminente quanto outras tendências tecnológicas, como impressão 3D ou drones, suas implicações para a privacidade e o aprendizado de máquina podem levar a um uso muito maior nos próximos anos.
A versão curta e simples é que o aprendizado federado é um modelo alternativo para melhorar os algoritmos que agora dominam muitos aspectos de nossa vida, sejam eles o Feed de notícias do Facebook ou o Google Maps. Sob o sistema mais tradicional, nossos dados são enviados para um servidor central onde são analisados e as informações relevantes são usadas para alterar o algoritmo.
O aprendizado federado oferece uma solução que aprimora a privacidade do usuário porque a maioria dos dados pessoais permanece no dispositivo de uma pessoa. Os algoritmos se treinam diretamente nos dispositivos do usuário e apenas enviam de volta os resumos de dados relevantes, em vez dos dados como um todo. Isso permite que as empresas aprimorem seus algoritmos sem precisar coletar todos os dados de um usuário, fornecendo uma solução mais focada na privacidade.
O que é aprendizado federado?
Não vamos mentir, para a maioria das pessoas, as profundezas do aprendizado federado podem parecer complexas e difíceis de entender. O campo da IA está muito fora do domínio do conhecimento de muitas pessoas e envolve muito mais matemática e lógica do que a maioria de nós se sente confortável..
Apesar dessas dificuldades, o aprendizado federado é um desenvolvimento tecnológico interessante e importante, por isso vale a pena tentar entender isso. Para facilitar as coisas, detalharemos os conceitos e os explicaremos de maneira simplificada, para que você possa entender o cenário geral.
Aprendizado de máquina e algoritmos
A menos que você gaste seus dias fazendo cosplay nos anos 30, sua vida está cheia de algoritmos. Nesse contexto, quando nos referimos a algoritmos, queremos dizer essencialmente fórmulas ou conjuntos de instruções que são usados para descobrir um problema ou calcular o resultado desejado.
O Facebook, Instagram e Twitter os utilizam para fornecer conteúdo personalizado com maior probabilidade de interesse, além de ganhar mais dinheiro com as plataformas. O mecanismo de pesquisa do Google usa algoritmos sofisticados para transformar seus termos de pesquisa em páginas do que ele pensa que está procurando. Seu email filtra spam com algoritmos, enquanto o Waze utiliza algoritmos para descobrir a maneira mais eficaz de ir do ponto A ao ponto B.
Existem inúmeros outros algoritmos que nos ajudam a concluir tarefas, nos mantêm ocupados ou nos escondemos sob o capô dos processos diários.
As empresas são constantemente tentando melhorar esses algoritmos para fornecer os resultados mais efetivos, precisos e eficientes, contanto que isso esteja alinhado com os objetivos da empresa – geralmente ganhando dinheiro.
Muitos de nossos algoritmos mais usados percorreram um longo caminho desde a sua implantação inicial. Lembre-se de pesquisar no Google no final dos anos 90 ou início dos anos 2000 – você tinha que ser incrivelmente específico e os resultados eram terríveis em comparação aos dias atuais.
Então, como esses algoritmos melhoram?
A maior parte de como os algoritmos melhoram suas tarefas envolve aprendizado de máquina, que é um subcampo da inteligência artificial. Os algoritmos de aprendizado de máquina começam pegando uma amostra de dados, analisando-os e depois usando o que aprenderam para realizar tarefas com mais eficiência. Eles podem melhorar sem precisar que essas mudanças sejam programadas por uma força externa, como um desenvolvedor humano.
O aprendizado de máquina vem crescendo nas últimas décadas, melhorando nossos algoritmos, ajudando-nos a obter melhores resultados e movendo-se para novos campos. Por causa de sua utilidade, também tem sido um enorme gerador de dinheiro para empresas como Facebook, Google e muitos outros.
Tudo começa com os dados – quanto maior o pool de dados e maior o número de pontos de dados de alta qualidade, quanto mais precisos esses algoritmos de aprendizado de máquina podem ser. Quanto mais eficaz é um algoritmo, mais dinheiro ele pode ganhar, o que transformou essencialmente os dados em uma mercadoria.
Essas condições causaram uma expansão maciça na quantidade de dados coletados sobre as pessoas. Na maioria dos casos, esses dados são coletados dos telefones, computadores e outras áreas dos usuários e enviados para um servidor em que são analisados para melhorar o algoritmo. Embora isso tenha muitas vezes levaram a melhores serviços e maior comodidade, também houve um retrocesso significativo daqueles que estão preocupados com sua privacidade.
Há algo sinistro nessas empresas que conhecem sua localização o tempo todo, sabem quem você é amigo, conhecem todo o histórico de pesquisas e muito, muito mais. Claro, existem maneiras de evitar esses tipos de coleta de dados, mas as técnicas geralmente são impraticáveis demais para a maioria das pessoas se incomodar..
Em meio a uma série de escândalos de privacidade de dados, como o fiasco Cambridge Analytica do Facebook e a enorme violação de dados do Google +, as empresas começaram a tomar conhecimento. Não querendo ser usurpados, eles parecem procurar caminhos para continuar avançando em seus objetivos sem aumentar a ira de seus usuários ou legisladores. Talvez o momento decisivo tenha sido quando Mark Zuckerberg anunciou que “O futuro é privado”, na conferência F8 deste ano.
Embora seja provavelmente melhor olhar para esse movimento com ceticismo, houve alguns desenvolvimentos positivos em relação à privacidade do usuário, um dos quais é o aprendizado federado.
Aprendizado Federado
Em vez de levar os dados dos dispositivos do usuário para o servidor, por que não enviamos o algoritmo aos dados?
Esse é o conceito principal por trás do aprendizado federado. O termo foi cunhado em um artigo de 2016 publicado por funcionários do Google, e a empresa permaneceu na vanguarda do campo.
O processo de treinamento de aprendizado federado.
O aprendizado federado aprimora os algoritmos enviando a versão atual de um algoritmo para dispositivos qualificados. Esse modelo do algoritmo aprende com os dados privados nos telefones de um grupo selecionado de usuários. Quando termina, um resumo do novo conhecimento é enviado de volta ao servidor da empresa – os dados em si nunca saem do telefone.
Por segurança, esse conhecimento geralmente é criptografado no caminho de volta ao servidor. Para impedir o servidor de descobrir dados individuais com base no resumo recebido, o Google desenvolveu o Agregação segura protocolo.
Este protocolo usa criptografia para impedir que o servidor acesse os resumos de informações individuais. Sob esse esquema, o servidor só pode acessar o resumo após ter sido adicionado e calculado a média com os resultados de centenas ou milhares de outros usuários..
alternativamente, privacidade diferencial pode ser usada para adicionar ruído aleatório nos dados ao resumo de um indivíduo, obscurecendo os resultados. Esses dados aleatórios são adicionados antes que o resumo seja enviado ao servidor, fornecendo ao servidor um resultado suficientemente preciso para o treinamento algorítmico, sem que os dados de resumo reais sejam revelados a ele. Isso preserva a privacidade do indivíduo.
Técnicas como o protocolo Secure Aggregation e privacidade diferencial são cruciais para proteger as informações do usuário da organização e dos hackers. Sem eles, o aprendizado federado não poderia garantir a privacidade dos usuários.
Depois que os resumos das informações são enviados com segurança ao servidor, eles são usados para atualizar o algoritmo. O processo é repetido milhares de vezes, e as versões de teste do algoritmo também são enviadas para vários dispositivos do usuário. Isso permite que as organizações avaliem novas versões de algoritmos em dados reais do usuário. Como a análise é realizada dentro dos limites dos dispositivos do usuário, os algoritmos podem ser testados sem a necessidade de agrupar dados do usuário em um servidor central.
Quando os testes são concluídos, o modelo de algoritmo atualizado é enviado aos dispositivos do usuário para substituir o antigo. O algoritmo aprimorado é então usado em suas tarefas normais. Se tudo correr conforme o planejado, será mais eficaz e preciso para alcançar seus resultados.
Todo o ciclo se repete uma e outra vez:
- O novo algoritmo estuda os dados em dispositivos de usuário selecionados.
- Ele envia com segurança resumos desses dados do usuário para o servidor.
- Esses dados são então calculados com os resultados de outros usuários.
- O algoritmo aprende com essas informações, produz atualizações e as testa.
- Uma versão mais avançada do algoritmo é enviada aos usuários.
Com o tempo, o algoritmo aprende com os dados do usuário e melhora continuamente, sem precisar armazenar os dados nos servidores da empresa. Se você ainda está tentando entender o que é o aprendizado federado e como ele funciona, o Google publicou este desenho animado que explica e ajuda você a visualizar a abordagem do aprendizado federado de uma maneira simples.
Outras vantagens do aprendizado federado
O modelo de aprendizado federado oferece aos usuários vários outros benefícios além da privacidade. Em vez de compartilhar dados continuamente com o servidor, o processo de aprendizado pode ser realizado quando um dispositivo está carregando, conectado ao wifi e não sendo usado, minimizando os inconvenientes enfrentados pelos usuários.
Isso significa que os usuários não desperdiçam seus preciosos dados ou bateria quando estão fora de casa. Como o aprendizado federado transfere apenas um resumo dos dados relevantes, e não os dados em si, o processo acaba transferindo menos dados no geral do que nos modelos de aprendizado tradicionais.
O aprendizado federado também pode oferecer modelos algorítmicos globais e personalizados. Ele pode coletar informações de um grupo mais amplo de usuários e combiná-las com informações de usuários individuais para fornecer um modelo mais eficaz que atenda às suas necessidades exclusivas.
Aplicativos de aprendizagem federada
O aprendizado federado possui uma ampla variedade de casos de uso em potencial, especialmente em situações em que questões de privacidade se cruzam com a necessidade de melhorar algoritmos. No momento, os projetos de aprendizagem federada mais importantes foram conduzidos em smartphones, mas as mesmas técnicas podem ser aplicadas a computadores e dispositivos de IoT, como veículos autônomos..
Alguns dos usos existentes e potenciais incluem:
Google Gboard
A primeira implantação em larga escala de aprendizado federado no mundo real foi parte do Aplicativo de teclado do Google, Gboard. A empresa pretendia usar a técnica para melhorar as sugestões de palavras sem comprometer a privacidade do usuário.
Sob a antiga abordagem de aprendizado de máquina, desenvolver melhores previsões de teclado teria sido tremendamente invasivo – tudo o que digitamos, todas as nossas mensagens privadas e pesquisas estranhas no Google teriam que ser enviadas a um servidor central para análise e quem sabe o que mais os dados poderia ter sido usado para.
Felizmente, o Google optou por usar sua abordagem de aprendizado federado. Como o modelo algorítmico é colocado nos dispositivos do usuário, ele pode aprender com as palavras que os usuários digitam, resumir as informações principais e enviá-las de volta ao servidor.. Esses resumos são usados para aprimorar o recurso de previsão de texto do Google, que é testado e enviado aos usuários.
A nova versão do algoritmo oferecerá uma experiência aprimorada graças ao que aprendeu com o processo, e o ciclo se repete. Isso permite que os usuários aprimorem continuamente as sugestões de teclado, sem comprometer sua privacidade.
Cuidados de saúde
A privacidade e a segurança dos dados são incrivelmente complexas no setor de saúde. Muitas organizações abrigam quantidades significativas de dados sensíveis e valiosos dos pacientes, que também são muito procurados pelos hackers.
Ninguém quer um diagnóstico embaraçoso vazado para o público. A riqueza de dados contidos nesses repositórios é tremendamente útil para golpes como roubo de identidade e fraude de seguros. Devido à grande quantidade de dados e aos enormes riscos enfrentados pelo setor de saúde, a maioria dos países implementou leis estritas sobre como os dados de saúde devem ser gerenciados, como os regulamentos HIPAA dos EUA.
Essas leis são bastante restritivas e têm penalidades significativas se uma organização as violar. Isso geralmente é bom para os pacientes preocupados com o manuseio incorreto dos dados. Contudo, esses tipos de legislação também dificultam o uso de algumas formas de dados em estudos que poderiam ajudar com novas descobertas médicas.
Devido a essa complexa situação legal, organizações como Owkin e Intel estão pesquisando como o aprendizado federado pode ser aproveitado para proteger a privacidade dos pacientes e ao mesmo tempo colocar os dados em uso.
Owkin está trabalhando em uma plataforma que usa aprendizado federado para proteger os dados do paciente em experimentos que determinam a toxicidade de medicamentos, predizem a evolução da doença e também estimam as taxas de sobrevivência de tipos raros de câncer.
Em 2023, a Intel fez parceria com o Centro de Computação e Análise de Imagem Biomédica da Universidade da Pensilvânia para demonstrar como o aprendizado federado pode ser aplicado à imagem médica como prova de conceito.
A colaboração revelou que, sob uma abordagem de aprendizado federado, seu modelo particular de aprendizado profundo poderia ser treinado para ser 99% mais preciso do que o mesmo modelo treinado por métodos tradicionais.
Veículos autônomos
O aprendizado federado pode ser útil para veículos autônomos de duas maneiras principais. A primeira é que ele poderia proteger a privacidade dos dados do usuário – muitas pessoas não gostam da ideia de seus registros de viagem e outras informações de direção serem carregadas e analisadas em um servidor central. O aprendizado federado pode melhorar a privacidade do usuário, atualizando apenas os algoritmos com resumos desses dados, em vez de todas as informações do usuário.
A outra razão principal para a adoção de uma abordagem de aprendizado federado é que ela pode reduzir potencialmente a latência. Em um provável cenário futuro em que haja um grande número de carros autônomos em nossas estradas, eles deverão poder responder rapidamente um ao outro durante incidentes de segurança.
O aprendizado na nuvem tradicional envolve grandes transferências de dados e um ritmo de aprendizado mais lento, para que haja o potencial de o aprendizado federado pode permitir que veículos autônomos atuem com mais rapidez e precisão, reduzindo acidentes e aumentando a segurança.
Cumprimento da regulamentação
O aprendizado federado também pode ajudar as organizações a melhorar seus modelos algorítmicos sem expor os dados do paciente ou acabar no lado errado das regulamentações. Leis, como o Regulamento Geral de Proteção de Dados da Europa (GDPR) e a Lei de Portabilidade de Seguro Saúde dos EUA de 1996, têm regulamentos estritos sobre os dados de indivíduos e como eles podem ser usados..
Essas leis geralmente existem para proteger a privacidade dos indivíduos, o que significa que o aprendizado federado pode potencialmente abrir novas oportunidades ao ser capaz de aprenda com os dados, mantendo-os seguros e dentro das diretrizes regulatórias.
A segurança e a privacidade do aprendizado federado
O aprendizado federado abre um mundo de novas oportunidades para o treinamento de modelos de aprendizado de máquina sem comprometer a privacidade dos dados. No entanto, ele precisa ser implementado com cuidado para mitigar problemas de segurança e a possibilidade de expor dados do usuário.
Alguns dos principais problemas, bem como suas possíveis soluções, incluem:
Interceptação de resumos de dados do usuário
O fornecimento de privacidade e segurança adequadas geralmente envolve uma combinação de diferentes tecnologias e políticas. Embora o aprendizado federado nos dê novas maneiras de proteger os dados, ele ainda precisa ser implementado juntamente com mecanismos complementares.
Um exemplo de um ponto fraco em potencial é que, quando resumos de dados de usuários são enviados do dispositivo para o servidor central, eles podem ser interceptados por hackers que podem usá-los para descobrir os dados originais.
Felizmente, esse problema tem uma solução relativamente direta que já implementamos em muitas áreas de segurança da informação – simplesmente precisamos criptografar os dados com o algoritmo apropriado, conforme ele se desloca entre os dois pontos.
Descobrir os dados originais dos resumos dos usuários
Em certos cenários, os resumos de dados do usuário podem ser usados para determinar as informações originais. Se uma parte mal-intencionada enviar consultas ao modelo por meio da API, poderá ser possível reconstruir os dados, embora isso não seja um problema exclusivo do aprendizado federado.
Se os invasores ou as organizações proprietárias dos servidores pudessem descobrir os dados originais do usuário dessa maneira, seria completamente derrotar o objetivo de implementar o aprendizado federado. Existem dois mecanismos principais que podem ser implantados juntamente com o aprendizado federado para impedir que isso ocorra: protocolo de agregação segura do Google e privacidade diferencial.
o Protocolo de agregação segura usa computação de várias partes para calcular a média de um grupo de resumos de dados do usuário, sem revelar os resumos de dados de qualquer indivíduo para o servidor ou qualquer outra parte.
Sob esse sistema, cada um dos resumos do usuário é criptografado antes de deixar o dispositivo do usuário e não pode ser descriptografado pelo servidor até que tenha sido adicionado e calculado a média com um número definido de outros resumos do usuário. Isso permite que o servidor treine seu modelo na média do usuário, sem expor resumos individuais que possam ser usados para descobrir dados particulares de um indivíduo.
A Agregação Segura não apenas impede que o servidor acesse os resumos do usuário, mas também faz homem no meio ataca muito mais difícil.
A outra opção é privacidade diferencial, que inclui uma variedade de técnicas relacionadas que envolvem uma quantidade específica de ruído sendo adicionada aos dados. A principal premissa da privacidade diferencial é que, para que os dados de um usuário permaneçam privados, as consultas ao banco de dados não devem revelar se um indivíduo foi incluído nos dados nem quais eram suas informações..
Para impedir que as consultas revelem essas informações, várias opções diferentes podem ser usadas para adicionar ruído aos dados. Esse ruído de dados é adicionado antes de sair do dispositivo do usuário, impedindo que o servidor e os invasores acessem as atualizações em sua forma original.
Envenenamento por modelo
O aprendizado federado abre a oportunidade para os adversários “envenenarem” o modelo algorítmico. Essencialmente, isso significa que um ator malicioso pode corromper o modelo através de seu próprio dispositivo ou assumindo o controle de dispositivos de outras partes envolvidas no treinamento do modelo algorítmico.
Esses ataques foram explorados em detalhes por Bagdasaryan et al. na sua Como backdoor de aprendizagem federada papel. Sob um modelo de aprendizado federado, o atacante tem o potencial de assumir um ou mais participantes.
Em certos cenários, é possível que eles controlem os dados de cada participante que assumiram, alterar como esses dados são treinados localmente, alterar os hiperparâmetros, como a taxa de aprendizado e a ponderação do modelo individual (antes de serem enviados ao servidor para agregação). Também é possível alterar a abordagem de cada participante no treinamento local de uma rodada para outra.
Com essas habilidades, os atacantes podem injetar backdoors que podem modificar algoritmos em direção a seus próprios objetivos. Segundo dados do estudo, envenenar o modelo foi muito mais eficaz do que outros ataques de envenenamento por dados.
Em uma tarefa de previsão de palavras envolvendo 80.000 participantes, os pesquisadores poderiam atingir 50% de precisão da porta dos fundos comprometendo apenas oito dos participantes. Para obter o mesmo efeito envenenando os dados, os pesquisadores teriam que comprometer 400 participantes.
Um dos maiores problemas advém do fato de o aprendizado federado e o protocolo de agregação segura visarem manter os dados do usuário privados. Quando implementado corretamente, isso torna impossível para o servidor detectar anomalias nos resumos de um usuário individual.
Como mencionamos acima, o protocolo de agregação segura somente permite acesso a resumos de usuários depois de adicionados a outros dados do usuário. Como os resumos não podem ser rastreados individualmente, isso torna impossível a visualização de anomalias que possam estar neles, dando aos ataques de envenenamento de modelos a maneira perfeita de se infiltrar..
Nesse estágio, esses ataques e suas possíveis defesas precisam ser pesquisados mais detalhadamente.
Mantendo o modelo privado
Modelos algorítmicos sofisticados podem valer milhões, o que os torna alvo de ladrões. Eles podem usá-los para ganhar dinheiro da mesma maneira que as empresas por trás dos algoritmos, ou até aproveitá-los para fins ilícitos. Não apenas evitaria que os ladrões investissem enormes quantias de financiamento na construção do modelo, mas também poderia desvalorizar o original.
As empresas precisam proteger sua propriedade intelectual e parece enviar o modelo diretamente para os dispositivos dos usuários pode facilmente resultar na exposição desses modelos a quem quiser levá-los. No entanto, existem soluções que as empresas podem usar para proteger seus modelos algorítmicos.
Uma delas é alavancar o compartilhamento secreto da computação de várias partes. Isso permite que as organizações ocultem a ponderação do modelo, distribuindo fragmentos dele entre os dispositivos. Sob esse sistema, nenhuma das partes secretas pode conhecer todo o modelo.
Isso permite que as organizações enviem seus modelos de treinamento algorítmico para dispositivos sem ter que se preocupar em ter sua propriedade intelectual roubada.
Limitações do aprendizado federado
Além dos possíveis problemas de segurança, o aprendizado federado tem várias outras limitações que impedem que ele seja uma pílula mágica para resolver todos os nossos problemas de privacidade de dados.
Uma consideração é que, quando comparado aos métodos tradicionais de aprendizado de máquina, o aprendizado federado requer significativamente mais energia e memória do dispositivo local para treinar o modelo. No entanto, muitos dispositivos novos têm amplo poder para essas funções, e essa abordagem também resulta em uma quantidade muito menor de dados sendo transferidos para os servidores centrais, reduzindo o uso de dados. Muitos usuários podem achar essa troca benéfica, desde que o dispositivo seja poderoso o suficiente.
Outra questão técnica envolve largura de banda. O aprendizado federado é conduzido por wifi ou 4G, enquanto o aprendizado de máquina tradicional ocorre em data centers. As taxas de largura de banda de wifi ou 4G são magnitudes inferiores às usadas entre os nós e servidores em funcionamento nesses centros.
A largura de banda dos dispositivos não cresceu tão rapidamente quanto o poder de computação ao longo dos anos; portanto, a largura de banda insuficiente pode causar um gargalo que aumenta a latência e torna o processo de aprendizado mais lento quando comparado com a abordagem tradicional.
Se o treinamento em algoritmos for realizado enquanto um dispositivo estiver em uso, isso reduzirá o desempenho de um dispositivo. O Google contornou esse problema apenas treinando dispositivos quando eles estavam ociosos, ligados e conectados a uma tomada. Enquanto isso resolve o problema, ele retarda o ciclo de aprendizado, porque o treinamento só pode ser realizado nos horários de menor movimento.
Um outro desafio é que os dispositivos desistem durante o processo de treinamento – eles podem ser usados por seus proprietários, desligados ou sofrer outras interrupções. Os dados dos dispositivos que abandonam talvez não possam ser usados corretamente, o que pode levar a um modelo algorítmico menos preciso.
A aprendizagem federada é o novo caminho a seguir para o aprendizado de máquina?
O aprendizado federado é um modelo de treinamento relativamente novo e mostra potencial em várias aplicações diferentes. Porque ainda está nos estágios relativamente iniciais do estudo, o processo precisa de muito mais pesquisa antes que todos os seus possíveis usos possam ser determinados, bem como os riscos potenciais de segurança e privacidade que enfrenta.
Até então, é difícil dizer com certeza o quão amplamente a abordagem será implementada no futuro. A boa notícia é que já vimos implementá-lo efetivamente no mundo real com o Gboard do Google.
No entanto, devido a algumas das limitações discutidas anteriormente, é improvável que o aprendizado federado substitua os modelos tradicionais de aprendizado em todos os cenários. O futuro também dependerá de quão comprometidos com a privacidade realmente são nossas principais empresas de tecnologia. Nesta fase, temos boas razões para sermos céticos.
Veja também: Estatísticas de violação de dados de 2023
Aprendizado federado é uma tendência tecnológica interessante e importante que pode ter implicações significativas para a privacidade e o aprendizado de máquina. É um modelo alternativo para melhorar os algoritmos que dominam muitos aspectos de nossas vidas, como o Feed de notícias do Facebook ou o Google Maps. Sob o sistema mais tradicional, nossos dados são enviados para um servidor central onde são analisados e as informações relevantes são usadas para alterar o algoritmo. O aprendizado federado oferece uma solução que aprimora a privacidade do usuário porque a maioria dos dados pessoais permanece no dispositivo de uma pessoa. Os algoritmos se treinam diretamente nos dispositivos do usuário e apenas enviam de volta os resumos de dados relevantes, em vez dos dados como um todo. Isso permite que as empresas aprimorem seus algoritmos sem precisar coletar todos os dados de um usuário, fornecendo uma solução mais focada na privacidade. Embora possa parecer complexo, é importante entender o aprendizado federado e suas implicações para o futuro da tecnologia.