Acasă " Evoluții recente în tehnicile de detectare și combatere a spam-ului social

Evoluții recente în tehnicile de detectare și combatere a spam-ului social

martie 12, 2023 • securitate

Spam-ul se referă la mesaje nedorite sau nesolicitate trimise sau primite electronic prin e-mail, mesagerie instantanee, bloguri, grupuri de discuții, rețele sociale, căutări web și telefoane mobile, cu amenzi publicitare, Phishing, Malware etc. După cum reiese clar din definiție, Spam-ul este destinat răutății și, în general, reprezintă o sursă viabilă, dar frauduloasă de venit pentru unele persoane sau organizații. Atacatorul cibernetic implicat în trimiterea unor astfel de mesaje spam este, în general, denumit “spammer”. Deși inițial țintit și limitat la e-mail, spam-ul a invadat toate platformele electronice din toate mediile.

Ce tipuri de spam există astăzi?

  • Spam prin e-mail: cunoscut și sub numele de junk mail, trimite mesaje nedorite, care conțin frecvent conținut comercial, în cantități mari către un set nediscriminatoriu de destinatari.
  • Spam-ul în mesageria instantanee folosește mesageri instantanee (IM): Deși este mai subtil decât omologul său prin e-mail, tinde să enerveze utilizatorii de mesageri instantanee precum Skype©, Yahoo!® și Messenger cu mesaje nesolicitate de la agenți de publicitate etc.
  • Spam-ul pe grupuri de discuții și forumuri: postările multiple și repetitive în grupurile de discuții Usenet și forumurile de internet irelevante.
  • Spam pe telefoane mobile: Această formă de spam folosește servicii de mesaje scurte (SMS) ca mod de operare. Uneori, clienții sunt taxați pentru servicii premium fiind păcăliți să se aboneze la un abonament fals și escrocherii.
  • Spamdexing: se referă la spam-ul motoarelor de căutare sau la practica de manipulare a algoritmului de clasare și relevanță al motoarelor de căutare pentru a promova un anumit site web sau pagină web.
  • Splogs și Wikis: Spam-ul pe bloguri, cunoscut și sub numele de Splog, se referă la comentarii care nu au legătură cu subiectul discuției. Aceste comentarii sunt de obicei încorporate cu link-uri URL către unele site-uri comerciale. Unele Splogs sunt scrise ca anunțuri detaliate pentru site-urile pe care le promovează; altele nu au conținut original, prezentând nonsensuri sau conținut furat de pe site-uri web legitime. Tipuri similare de atacuri sunt, de asemenea, observate pe Wikis și alte cărți de oaspeți care acceptă comentarii de la utilizatorii generali.
  • Spam pe site-uri video: Site-urile de socializare precum YouTube sunt, de asemenea, infestate cu spam care implică de obicei comentarii și link-uri către un site pornografic sau de întâlniri sau unele videoclipuri fără legătură. Uneori, aceste comentarii sunt generate automat prin Bots.
  • Spam în mesageria jocurilor online: sunt inundații de mesaje, cereri de a se alătura unui anumit grup, încălcări ale termenilor și condițiilor de copyright etc.
  • Spi sau Spam prin telefonie pe Internet: Acesta folosește telefonia vocală prin Internet (VoIP) pentru a trimite Spam. De obicei, un mesaj preînregistrat este redat atunci când destinatarul primește din greșeală un apel spam. Această platformă este o țintă vulnerabilă pentru spammeri, deoarece VoIP este ieftin și ușor de anonimizat.

Tipuri de spam și tehnici de spamming

Tipuri de spam

  • Link-uri malițioase: Link-uri care dăunează, induc în eroare sau afectează în alt mod computerul unui utilizator.
  • Profile false: Spammerii pot crea profile false care altfel ar părea legitime pentru a evita detectarea și a atrage non-spammerii să-i accepte ca prieteni.
  • Trimiteri în masă: sunt cunoscute sub numele de bombe spam; sunt un set de comentarii publicate de mai multe ori cu același text, ceea ce permite etichetelor asociate comentariilor să devină populare rapid pe rețelele sociale.
  • Recenzii false: Aceste recenzii susțin că un produs este original și bun, chiar dacă recenzorul s-ar putea să nu-l fi folosit.

Tehnici de spamming

  • Clickjacking: Cunoscut și sub numele de UI-redressing, spammerii păcălesc utilizatorii să facă clic pe ținte invizibile (de exemplu, butoane) care aparțin unei pagini diferite. Această formă de spam poate fi văzută în principal pe bloguri și forumuri.
  • Extensii de browser malițioase prin descărcări drive-by: Acest tip de atac are loc prin descărcarea de malware de pe Internet fără știrea utilizatorului. Acest tip de spam vine de obicei sub formă de link-uri malițioase și poate fi găsit pe bloguri, marcaje de site-uri web, recenzii etc.
  • Scurtătoare de URL-uri: În acest atac de spam, URL-ul scurtat ascunde URL-ul real și redirecționează către destinațiile sale configurate fără consimțământul utilizatorului. Acest tip de spam este mai frecvent în rețelele sociale, microbloguri, recenzii etc.
  • Injecție de scripturi de inginerie socială: În acest atac, utilizatorii finali sunt păcăliți să execute cod JavaScript malițios ales de spammer în contextul site-ului victimei, atacând astfel încrederea utilizatorilor. Din nou, acest atac este adesea asociat cu link-uri obscure către programe sau site-uri web malițioase. Poate apărea sub formă de formulare pe unele site-uri de recenzii, cum ar fi e-mailuri.

Tehnici de detectare a spam-ului

Există trei strategii principale pentru a face față spam-ului:

  • Tehnici bazate pe detectare: Acestea încearcă să identifice și să elimine spam-ul din sistem.
  • Strategii bazate pe degradare: Acestea încearcă să reducă clasamentul spam-ului într-o listă de mesaje.
  • Strategii bazate pe prevenire: Acestea urmăresc să împiedice capacitatea spammerilor de a contribui la sistem prin modificarea interfețelor sau limitarea acțiunilor utilizatorilor.

Cele mai recente evoluții în tehnicile antispam

Spam prin e-mail

Filtrarea colaborativă este utilizată printr-o rețea socială numită SocialFilter, care este un sistem de filtrare colaborativă a spam-ului care folosește încrederea socială integrată în rețele sociale online (OSN) pentru a evalua fiabilitatea raportorilor de spam. Este o abordare bazată pe graf care se bazează pe graful OSN. SocialFilter își propune să adauge caracteristicile mai multor detectoare de spam, democratizând astfel atenuarea spam-ului. Fiecare nod SocialFilter, care este gestionat de un administrator uman, trimite rapoarte de spammeri către un depozit centralizat.

Spam pe bloguri

Blogurile sunt o platformă unde oamenii își exprimă emoțiile, împărtășesc informații și comunică între ei. Odată cu popularitatea lor în creștere, blogurile sunt acum folosite pentru a genera trafic de căutare pe bloguri sau în scopuri promoționale. Aceste tipuri de bloguri sunt numite Splogs. Cu toate acestea, majoritatea tehnicilor existente de detectare a Splog-urilor sunt bazate pe conținut, ceea ce este mai puțin eficient având în vedere natura dinamică a blogurilor.

În prezent, trei tehnici antispam sunt utilizate pentru a combate Splog-urile:

  1. Tehnici bazate pe detectare care folosesc o abordare deterministă funcționează cu un set de date de interogări Technorati cu o acuratețe de detectare mai mare de 60%.
  2. Tehnici bazate pe clasificare care operează prin comentariile rețelelor sociale cu o acuratețe de detectare mai mare de 60%.
  3. Tehnici bazate pe detectare care folosesc grafuri sociale grupate folosind publicații pe site-uri comerciale de bloguri. Această tehnică este considerată cea mai eficientă în detectarea spammerilor.

Spam pe microbloguri

Spam-ul pe microbloguri se referă la spam-ul pe platformele de microblogging, cum ar fi Twitter, unde există o limitare a dimensiunii tweet-ului. Pentru a detecta spam-ul pe microbloguri, există mai multe tehnici disponibile, inclusiv:

  1. Abordări bazate pe determinism care studiază cazurile pentru a identifica spam-ul.
  2. Abordări bazate pe clasificare care se concentrează pe cadrul Social Honeypot.
  3. Tehnici de degradare care se concentrează pe Collusion Rank și PageRank.

Există, de asemenea, tehnici antispam care combină studii de caz și clasificare, cum ar fi Mr. SPA bazat pe grafuri sociale, precum și tehnici bazate pe clustering-ul campaniilor de spam și etichetarea acestora folosind clasificatorul RF, formularea Lasso integrată cu un termen de regularizare a grafului, clasificarea Random Forest folosind caracteristici ajustate și clasificatorul bazat pe ELM cu caracteristici definite.

Spam prin bookmarking

Bookmarking-ul social a evoluat de la bookmarking-ul tradițional la o platformă unde utilizatorii pot adăuga, edita sau modifica un site web sau o pagină web pentru acces ulterior. Aceste site-uri permit utilizatorilor să marcheze diferite pagini web și să-și împărtășească opiniile despre articole, imagini și videoclipuri. Cu toate acestea, mulți proprietari de site-uri web folosesc site-urile de bookmarking social pentru a naviga articole interesante și a include link-uri. Acest lucru expune site-urile web la spammeri prin backlink-uri, deoarece spammerii creează bookmark-uri spam atractive care sunt alese de utilizatori neavizați.

Pentru a combate spam-ul prin bookmarking, există diverse tehnici antispam disponibile, inclusiv:

  1. Tehnici de clustering și clasificare bazate pe clustering-ul Self-Organizing Maps (SOM) și descoperirea asocierilor.
  2. Extracția și agregarea caracteristicilor probabilistice.
  3. GraphLab Create și Probabilistic Soft Logic pentru extracția caracteristicilor
  4. Clasificatorul Gradient-Boosted Decision Tree pentru clasificare.

Spam pe rețele sociale

Tehnicile antispam actuale au identificat că generatorii de spam pe rețele sociale sunt roboți. Acești roboți sunt cunoscuți sub numele de Displayer, Bragger, Poster și Whisperer. Tehnicile antispam pentru rețele sociale includ:

  • Raportul FF: Raportul dintre cererile de prietenie și numărul existent de prieteni.
  • Raportul URL: Raportul dintre URL-urile dintr-un mesaj și numărul de cuvinte.
  • Alegerea prietenilor: Similaritatea dintre listele de prieteni ale spammerului și ale victimei.
  • Mesaje trimise: Numărul de mesaje pe care un utilizator le trimite într-un interval de timp dat.
  • Numărul de prieteni: Numărul de prieteni pe care îi are un utilizator.

Cu alte cuvinte, acestea sunt tehnici bazate pe clasificare bazate pe spam-bot și profil de spam și clasificare în timp real. Tehnicile de clustering se concentrează pe clustering-ul Markov pe grafuri sociale și pe algoritmul de învățare SOM, în timp ce tehnicile de detectare și eliminare se bazează pe clustering incremental urmat de clasificare. Tehnicile de clasificare și monitorizare se concentrează pe Social Spam Guard bazat pe rețele sociale, iar tehnicile de detectare nesupravegheată se concentrează pe cadrul bazat pe HITS.

Spam în recenzii

Spam-ul în recenzii este un tip de spam care apare ca recenzii pe diverse site-uri de comerț electronic. Recenziile pozitive pot stimula afacerea unei companii, dar recenziile negative o pot afecta. Unii spammeri postează intenționat recenzii pentru a deteriora reputația unui produs sau a unei companii, iar roboții pot genera și aceste recenzii. În 2013, a fost conceput un model pentru a genera recenzii sintetice. A fost propusă o metodă de apărare inovatoare pentru a detecta diferența în fluxurile semantice dintre recenziile false și cele adevărate, care sunt dificil de detectat folosind metodele existente.

În prezent, există mai multe tehnici antispam pentru detectarea spam-ului în recenzii, inclusiv:

  • Tehnici bazate pe clasificare axate pe SVM cu kernel liniar și metode bazate pe n-gram.
  • Tehnici bazate pe reguli.
  • Tehnici bazate pe caracteristici sensibile la timp.
  • Tehnici combinate bazate pe cadre pentru clasificare și clustering.
  • Tehnici bazate pe clasificare axate pe generarea și analiza recenziilor sintetice.
  • Tehnici bazate pe rețele Loopy Belief Propagation (LBP).

Spam în căutarea locațiilor

Potrivit cercetărilor în domeniul securității cibernetice, spammerii pot infiltra și perturba un sistem de căutare valid prin asocierea de etichete irelevante cu documente sau chiar prin infuzarea aleatorie a documentelor cu termeni legați de o anumită locație. A fost dezvoltată o metodologie pentru detectarea spam-ului pe un site de bookmarking social bazat pe locație, Foursquare, pentru a aborda această problemă. Foursquare permite utilizatorilor să lase sfaturi despre diverse locuri și atracții, pe care alți utilizatori le pot accesa. Cu toate acestea, spammerii postează conținut irelevant, cum ar fi sfaturi de afaceri, care induc în eroare utilizatorii interesați să afle despre un anumit loc.

Acest document analizează spammerii de sugestii, având ca scop dezvoltarea de instrumente automate pentru detectarea utilizatorilor care postează sugestii spam. Tehnicile antispam pentru căutarea locațiilor se bazează pe clasificare și clustering axate pe clasificarea Random Forest și Decision Tree, clustering EM pentru categorisire și clasificarea Random Forest.

Spam în comentarii

Spam-ul în comentarii este prevalent pe platformele de social media, în special pe YouTube și site-urile de știri. O abordare de data mining a fost propusă pentru a filtra comentariile spam pe forumurile YouTube pentru a combate acest atac cibernetic. Spre deosebire de analiza conținutului pentru detectarea spam-ului, această abordare exploatează comportamentul comentariilor pentru a identifica spammerii. Metodologia profită de funcția hasSpamHint a YouTube care însoțește comentariile utilizatorilor. Iată pașii implicați:

  1. Recuperați comentariile marcate ca hasSpamHint pentru un anumit videoclip.
  2. Extrageți ID-urile utilizatorilor din spatele comentariilor suspectate de spam pentru a aduna informații despre activitatea de comentarii a utilizatorilor.
  3. Derivați atribute precum textul comentariului, marca temporală, VideoID-ul videoclipului comentat și valoarea variabilei binare hasSpamHint din jurnalul de utilizare în forumurile de discuții.
  4. Calculați valorile variabilelor care indică intenția de spam a utilizatorului.
  5. Atribuiți un scor utilizatorului pentru a-l identifica ca spammer sau nu.
  6. Aplicați o regulă specifică derivată din inspecția manuală a datelor pentru a marca orice utilizator care îndeplinește condițiile regulii (cu cel puțin cinci comentarii) ca spammer.

Această tehnică antispam se numește bazată pe reguli și Similaritate de subiect indusă de NLP în postări și comentarii urmate de clasificare.

Spam cross-media

Spam-ul cross-media este o metodologie unică anti-spam care detectează spam-ul pe diferite platforme. Implică identificarea rapidă a spam-ului în toate rețelele sociale și creșterea acurateței detectării spam-ului cu participarea unui set mare de date. Deși o singură strategie eficientă nu poate fi aplicată tuturor formelor și platformelor de spam, această tehnică este un cadru inovator cross-platform pentru detectarea spam-ului social.

Această tehnică este împărțită în trei componente principale:

  1. Maparea și asamblarea folosesc conversia unui obiect specific al rețelei sociale într-un model standard definit de cadru pentru obiect.
  2. Pre-filtrarea se bazează pe liste negre, hashing și compararea similitudinilor pentru a compara obiectele primite cu obiectele spam cunoscute.
  3. Clasificarea se bazează pe tehnici de învățare automată supravegheată pentru a clasifica obiectele primite și asociate.

În concluzie

Spam-ul este o problemă răspândită pe Internet, iar tehnicile antispam au fost dezvoltate și implementate pe diverse platforme cu grade variate de succes. Aceste tehnici se încadrează în general în algoritmi deterministici, probabilistici sau bazate pe grafuri, dar fiecare categorie are variații semnificative. Abordările probabilistice sunt cele mai frecvent utilizate în tehnicile moderne, deoarece caracteristicile rețelelor sociale diferă semnificativ de cele ale documentelor standard sau paginilor web. Cu toate acestea, lupta împotriva spam-ului este un joc fără sfârșit, deoarece spammerii dezvoltă noi metode pentru a evita detectarea.

Prin urmare, vigilența constantă și dezvoltarea de noi și mai bune tehnici de combatere a spam-ului sunt esențiale pentru a combate spam-ul eficient.

autor avatar

securitate

admin este redactor senior pentru Government Technology. Anterior a scris pentru PYMNTS și The Bay State Banner și deține o diplomă de licență în scriere creativă de la Carnegie Mellon. Ea locuiește în afara Bostonului.

ro_RORomanian