
Introducció
La detecció d’activitat maliciosa en xarxes de criptomonedes com Bitcoin es basa en conjunts de dades etiquetats amb transaccions lícites i il·lícites. Tanmateix, aquests conjunts de dades sovint pateixen un desequilibri de classes: el nombre de mostres il·lícites és significativament menor que el de les lícites. A la xarxa Bitcoin, que conté més de mil milions de transaccions, les transaccions il·lícites representen menys del 0,2% del volum total segons diversos informes del sector (per exemple, Chainalysis).
Aquesta escassetat d’activitat il·lícita etiquetada s’agreuja encara més per la dificultat d’etiquetar de manera fiable el comportament maliciós, la qual cosa significa que moltes mostres il·lícites no es detecten o es classifiquen incorrectament. Com a resultat, els models d’aprenentatge automàtic entrenats en aquests conjunts de dades corren el risc d’aprendre només de la classe majoritària.
Per què el desequilibri de classes és important en l’aprenentatge automàtic
La majoria de models d’aprenentatge automàtic fan aquestes suposicions bàsiques:
- Els punts de dades són independents i distribuïts de manera idèntica.
- La distribució per classes és relativament equilibrada.
Quan es violen aquestes suposicions, com en conjunts de dades desequilibrats per classes:
- El model esdevé esbiaixat cap a la classe majoritària (lícit).
- Els casos de classe minoritària (il·lícits) es classifiquen incorrectament, cosa que resulta en una alta taxa de falsos negatius.
Impacte en les mètriques d’avaluació
Definim: TP com a veritables positius, VN com a veritables negatius, FP com a falsos positius i FN com a falsos negatius. Les mètriques estàndard com la precisió es tornen enganyoses:
Amb un desequilibri greu, un classificador que predigui totes les mostres com a negatives (lícites) encara podria obtenir una precisió superior al 99% sense detectar cap activitat il·lícita.
Mètriques alternatives per a la classificació desequilibrada
Per tal d’avaluar el rendiment del model en un conjunt desequilibrat en classes, existeixen mètriques que representen millor la capacitat predictiva real del model. Aquestes mètriques solen equilibrar parells de mètriques de compromís com la sensibilitat i l’especificitat, o la taxa positiva veritable i la taxa negativa veritable:
Estratègies per gestionar el desequilibri
Per mitigar els riscos que comporten les dades desequilibrades, en els darrers anys han aparegut moltes tècniques i la majoria han millorat molt el rendiment dels models. Les tècniques d’aprenentatge de desequilibris generalment es divideixen en quatre categories:
Enfocaments a nivell de dades
Aquests modifiquen directament les dades d’entrenament. Normalment reequilibren la distribució de les classes dins del conjunt d’entrenament:
- Submostreig: reducció d’instàncies de la classe majoritària (per exemple, tecnologia KNN).
- Sobremostreig: Duplicar o generar sintèticament mostres de classes minoritàries (per exemple, SMOTE).
Enfocaments a nivell d’algoritme
Els mètodes basats en algoritmes consisteixen en adaptar o desenvolupar algoritmes d’aprenentatge automàtic per gestionar eficaçment conjunts de dades desequilibrats, prioritzant la millora de la capacitat dels algoritmes per classificar amb precisió instàncies de classes minoritàries.
- Aprenentatge sensible al cost: assignar costos de classificació errònia més alts als errors de classe minoritària.
- Xarxes neuronals superficials ponderades: ús de pèrdues ponderades per classe en xarxes neuronals petites i ràpides (per exemple, ELM, RVFLN, BLS).
Els enfocaments a nivell d’algoritme optimitzen la funció de pèrdues associada al conjunt de dades, centrant-se en les classes minoritàries i optimitzant el cost computacional, per la qual cosa solen ser els preferits.
Enfocaments hibrids
Aquests mètodes incorporen tècniques tant a nivell de dades com a nivell d’algoritme, combinant els avantatges d’ambdues estratègies:
- Mètodes SMOTE + Ensemble
- Sobremostreig adaptatiu amb boosting/bagging
Mètodes d’Aprenentatge Ensemble
És una metodologia que consisteix a ajuntar múltiples classificadors o models per millorar el rendiment de les tasques de classificació. Se centra en els punts forts dels diferents classificadors, millorant la precisió predictiva per a les classes minoritàries. Normalment implica la creació de diferents subconjunts a partir del conjunt de dades desequilibrat mitjançant tècniques de remostreig. Els classificadors individuals s’entrenen en aquests subconjunts i les seves prediccions es combinen mitjançant esquemes de votació o de mitjana ponderada.
Conclusió
El desequilibri de classes és un repte crític en la detecció d’activitats il·lícites a Bitcoin. Ignorar-lo condueix a models esbiaixats que no aconsegueixen detectar allò que és més important. L’ús de tècniques de remostreig, aprenentatge ponderat i mètriques d’avaluació adequades pot millorar significativament les capacitats de detecció.
Lectures addicionals
- Chainalysis Team. 2025 Crypto Crime Trends from Chainalysis (link).
- Weber et al. Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics (link).
- Chen, W., Yang, K., Yu, Z. et al. A survey on imbalanced learning: latest research, applications and future directions. Artif Intell Rev 57, 137, 2024 (link).
- Chawla et al. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 2002 (link).
Espero que us hagi agradat a tots i que aquesta publicació hagi aportat alguna cosa nova a algú, jo sóc el Mario Amador Hurtado 😉