Aprenentatge Federat (FL)

Ens centrem a estudiar tres problemes diferents als esquemes de FL:

Verificabilitat en el pipeline d'aprenentatge federat

En molts fluxos de treball d'aprenentatge automàtic contemporanis, especialment els que impliquen la computació perimetral, la formació externalitzada o l'aprenentatge federat, l'entitat que desenvolupa o implementa un model sovint no té control directe sobre l'entorn de formació. Això crea una bretxa de seguretat, ja que el procés de formació pot tenir lloc en una infraestructura no fiable o amb dades proporcionades per tercers. Una preocupació creixent en aquests escenaris implica els atacs d'enverinament de models i d'enverinament de dades, on els adversaris manipulen el procés de formació o injecten dades malicioses per corrompre el model resultant. Aquestes amenaces no només minen la precisió del model, sinó que també poden introduir portes del darrere o comportaments ocults, cosa que planteja riscos greus en aplicacions crítiques per a la seguretat i sensibles a la privadesa.

Per abordar aquestes preocupacions, fem ús de primitives criptogràfiques per dissenyar esquemes d'aprenentatge col·laboratiu verificables que protegeixen la integritat de l'entrenament de models externalitzats contra la contaminació de dades i de models. Aquests esquemes utilitzen una combinació de hashes criptogràfics, signatures digitals i proves de coneixement zero per reforçar la confiança i la responsabilitat al llarg del procés d'entrenament. Els hashes proporcionen continuïtat i traçabilitat de les dades recollides de fonts autenticades, garantint que no estiguin manipulades. Les signatures digitals autentiquen l'origen i la integritat de les entrades d'entrenament, mentre que les proves de coneixement zero permeten una garantia verificable que l'entitat d'entrenament ha executat correctament el procés d'actualització del model sense revelar informació sensible. Aquest disseny permet delegar de manera segura tasques d'entrenament a parts potencialment no fiables, mantenint alhora la verificabilitat de principi a fi.

Aprenentatge federat descentralitzat

L'aprenentatge federat permet l'entrenament de models col·laboratius a través de dispositius finals distribuïts, garantint que les dades brutes dels usuaris romanguin locals i mai no s'hagin de carregar a un repositori central. Aquesta descentralització millora la privadesa des del disseny; tanmateix, la majoria de les implementacions pràctiques de l'aprenentatge federat encara depenen en gran mesura d'un servidor central per orquestrar el procés d'entrenament. Aquesta centralització reintrodueix vulnerabilitats, inclosos els punts únics de fallada, les suposicions de confiança en el coordinador i els riscos de fuita o manipulació d'informació. Aquestes limitacions minen tot el potencial de l'aprenentatge federat com a paradigma resilient i que preserva la privadesa per a l'aprenentatge automàtic distribuït.

Per abordar aquests reptes, dissenyem un marc d'aprenentatge federat completament descentralitzat basat en la tecnologia blockchain. Eliminem la necessitat d'un coordinador central aprofitant una blockchain pública per gestionar l'orquestració, el manteniment de registres i la incentivació. El marc incorpora xifratge homomòrfic per garantir la confidencialitat tant de les dades d'entrenament com de les actualitzacions del model local, evitant l'accés no autoritzat fins i tot durant l'agregació. Per garantir la correcció i la integritat sense revelar informació privada, s'utilitzen zkSNARKs (arguments de coneixement succints no interactius de coneixement zero) per fer que els paràmetres i les actualitzacions del model siguin públicament verificables. Aquesta combinació d'eines criptogràfiques proporciona fortes garanties de privadesa, seguretat i transparència durant tot el cicle de vida de l'aprenentatge. Hem implementat un prototip de prova de concepte i l'avaluem en una blockchain pública, demostrant la seva viabilitat pràctica en termes de sobrecàrrega computacional i costos en cadena, especialment quan es desplega en plataformes àmpliament utilitzades com Ethereum.

Reptes de privadesa en l'aprenentatge federat

L'aprenentatge federat (FL) representa un enfocament prometedor per a l'aprenentatge automàtic que preserva la privadesa, ja que permet l'entrenament descentralitzat de models directament als dispositius dels usuaris, garantint així que les dades en brut romanguin locals i mai es comparteixin amb un servidor central. Si bé aquest disseny mitiga molts dels riscos tradicionals de privadesa associats a la recopilació centralitzada de dades, no elimina totes les vulnerabilitats.

En particular, FL continua sent susceptible als atacs d'inferència de propietats, una classe d'amenaces en què un adversari pot inferir si una propietat o atribut específic és present a les dades d'entrenament, fins i tot quan aquesta propietat no està relacionada amb la tasca principal del model global. Aquest tipus de fuita planteja riscos significatius en dominis sensibles com l'atenció mèdica, les finances o els serveis personalitzats, on els atributs secundaris poden revelar informació privada de l'usuari.

En aquest treball, investiguem la facibilitat i les limitacions dels atacs d'inferència de propietats en entorns de FL replicant i ampliant treballs anteriors utilitzant TensorFlow Federated. La nostra avaluació experimental confirma la reproductibilitat i la credibilitat d'aquests atacs, alhora que posa de manifest la seva robustesa en diferents condicions. En particular, identifiquem dos factors principals que contribueixen a l'èxit de l'atac: l'impacte pronunciat de les actualitzacions primerenques del model durant les rondes d'entrenament inicials i l'augment de l'eficàcia dels atacs quan la propietat objectiu és rara al conjunt de dades, a causa del senyal de gradient més fort que produeixen aquestes mostres. Aquestes troballes suggereixen que, fins i tot en absència de manipulacions o enverinaments maliciosos, els sistemes FL són vulnerables a amenaces subtils però potents a la privadesa. Com a resultat, el nostre estudi subratlla la necessitat urgent de millorar les defenses i les tècniques de millora de la privadesa per protegir la informació sensible en les implementacions d'aprenentatge federat.