Recenti sviluppi nelle tecniche di rilevamento e lotta al social spam
12 Marzo 2023 • sicurezza
Spam refers to unwanted or unsolicited messages sent or received electronically via email, instant messaging, blogs, newsgroups, social media, web search, and mobile phones, with advertising fines, Phishing, Malware, etc. As is clear from the definition, Spam is intended for malice and generally represents a viable but fraudulent source of income for some individuals or organizations. The cyber attacker involved in sending such spam messages is generally referred to as a “spammer.” Although initially targeted and limited to email, spam has invaded all electronic platforms in all media.
Quali tipi di spam esistono oggi?
- Spam email: noto anche come posta indesiderata, invia messaggi non richiesti, spesso contenenti contenuti commerciali, in grandi quantità a un insieme indiscriminato di destinatari.
- Lo spam nei messaggi istantanei utilizza i messaggeri istantanei (IM): Sebbene sia più sottile rispetto alla sua controparte email, tende a infastidire gli utenti di messaggeri istantanei come Skype©, Yahoo!® e Messenger con messaggi non richiesti da parte di inserzionisti, ecc.
- Spam nei gruppi di discussione e nei forum: le pubblicazioni multiple e ripetitive nei gruppi di discussione Usenet e nei forum Internet irrilevanti.
- Spam sui telefoni cellulari: Questa forma di spam utilizza i servizi di messaggistica breve (SMS) come modus operandi. A volte i clienti vengono addebitati per servizi premium essendo ingannati in qualche abbonamento falso e truffa.
- Spamdexing: si riferisce allo spam sui motori di ricerca o alla pratica di manipolare l'algoritmo di classificazione e rilevanza dei motori di ricerca per promuovere un particolare sito web o pagina web.
- Splogs e Wikis: Lo spam sui blog, noto anche come Splog, si riferisce a commenti non correlati all'argomento di discussione. Questi commenti sono di solito incorporati con link URL a siti commerciali. Alcuni Splog sono scritti come annunci dettagliati per i siti web che promuovono; altri non hanno contenuti originali e presentano sciocchezze o contenuti rubati da siti web legittimi. Tipi simili di attacchi si vedono anche su Wikis e altri guestbook che accettano commenti dagli utenti generali.
- Spam sui siti video: I siti web di social networking come YouTube sono anche infestati da spam che di solito coinvolge commenti e link a qualche sito pornografico o di incontri o a video non correlati. A volte questi commenti sono generati automaticamente tramite Bot.
- Spam nella messaggistica dei giochi online: sono inondazioni di messaggi, richieste di unirsi a un particolare gruppo, violazioni dei termini e condizioni di copyright, ecc.
- Spi o Spam sulla telefonia Internet: Questo utilizza la telefonia vocale su Internet (VoIP) per inviare Spam. Tipicamente, un messaggio preregistrato viene riprodotto quando il destinatario riceve per errore una chiamata spam. Questa piattaforma è un obiettivo vulnerabile per gli spammer poiché VoIP è economico e facilmente anonimizzabile.
Tipi di spam e tecniche di spamming
Tipi di spam
- Link dannosi: Links that harm, mislead, or otherwise harm a user’s computer.
- Profili falsi: Gli spammer possono creare profili falsi che altrimenti sembrerebbero legittimi per evitare il rilevamento e attirare i non-spammer a diventare loro amici.
- Invii di massa: sono conosciuti come bombe di spam; sono un insieme di commenti pubblicati più volte con lo stesso testo, che permette ai tag associati ai commenti di diventare di tendenza rapidamente sui social network.
- Recensioni truffa: Queste recensioni affermano che un prodotto è originale e buono, anche se il recensore potrebbe non averlo utilizzato.
Tecniche di spamming
- Clickjacking: Conosciuto anche come UI-redressing, gli spammer ingannano gli utenti facendoli cliccare su obiettivi invisibili (ad es. pulsanti) appartenenti a una pagina diversa. Questa forma di spam può essere vista principalmente su blog e forum.
- Estensioni del browser dannose tramite download drive-by: This form of attack occurs by downloading malware from the Internet without the user’s notice. This type of spam usually comes as malicious links and can be found on blogs, website bookmarks, reviews, etc.
- Accorciatori di URL: In this spam attack, the shortened URL obfuscates the actual URL and redirects to its configured destinations without the user’s consent. This type of spam is more frequent in social networks, microblogs, reviews, etc.
- Iniezione di script di ingegneria sociale: In this attack, end-users are tricked into executing malicious JavaScript code of the spammer’s choice in the context of the victim’s site, thereby attacking users’ trust. Again, this attack is often associated with obscure links to malicious programs or websites. It may appear as forms on some review websites, such as emails.
Tecniche di rilevamento dello spam
Ci sono tre strategie principali per affrontare lo spam:
- Tecniche basate sul rilevamento: Queste cercano di identificare e rimuovere lo spam dal sistema.
- Strategie basate sul degrado: Queste tentano di abbassare il ranking dello spam in un elenco di messaggi.
- Strategie basate sulla prevenzione: Queste mirano a ostacolare la capacità degli spammer di contribuire al sistema modificando le interfacce o limitando le azioni degli utenti.
Ultimi sviluppi nelle tecniche antispam
Spam e-mail
Il filtraggio collaborativo è utilizzato tramite un social network chiamato SocialFilter, che è un sistema di filtraggio dello spam collaborativo che utilizza la fiducia sociale integrata nei social network online (OSN) per valutare la affidabilità dei segnalatori di spam. È un approccio basato su grafi che si basa sul grafo OSN. SocialFilter mira ad aggiungere le funzionalità di più rilevatori di spam, democratizzando così la mitigazione dello spam. Ogni nodo di SocialFilter, gestito da un amministratore umano, invia rapporti di spammer a un repository centralizzato.
Spam sui blog
I blog sono una piattaforma dove le persone esprimono le loro emozioni, condividono informazioni e comunicano tra loro. Con la loro crescente popolarità, i blog sono ora utilizzati per guidare il traffico dei motori di ricerca dei blog o per scopi promozionali. Questi tipi di blog sono chiamati Splog. Tuttavia, la maggior parte delle tecniche esistenti di rilevamento degli Splog sono basate sui contenuti, il che è meno efficace data la natura dinamica dei blog.
Attualmente, tre tecniche antispam sono utilizzate per combattere gli Splog:
- Tecniche basate sul rilevamento che utilizzano un approccio deterministico lavorano con un set di dati di Technorati Queries con un'accuratezza di rilevamento superiore a 60%.
- Tecniche basate sulla classificazione che operano attraverso i commenti dei social network con un'accuratezza di rilevamento superiore a 60%.
- Tecniche basate sul rilevamento che utilizzano grafi sociali raggruppati utilizzando pubblicazioni su siti di blog commerciali. Questa tecnica è considerata la più efficiente nel rilevare gli spammer.
Spam sui microblog
Lo spam sui microblog si riferisce allo spamming su piattaforme di microblogging, come Twitter, dove c'è una limitazione sulla dimensione del tweet. Per rilevare lo spam sui microblog, ci sono diverse tecniche disponibili, tra cui:
- Approcci basati sul determinismo che studiano casi per identificare lo spam.
- Approcci basati sulla classificazione che si concentrano sul Social Honeypot Framework.
- Tecniche di degradazione che si concentrano su Collusion Rank e PageRank.
Ci sono anche tecniche antispam che combinano studi di caso e classificazione, come Mr. SPA basato su grafi sociali, così come tecniche basate sul clustering di campagne di spam e l'etichettatura utilizzando RF Classifier, formulazione Lasso integrata con un termine di regolarizzazione del grafo, classificazione Random Forest utilizzando funzionalità regolate e classificatore basato su ELM con funzionalità definite.
Spam nei segnalibri
Il social bookmarking si è evoluto dal bookmarking tradizionale a una piattaforma dove gli utenti possono aggiungere, modificare o modificare un sito web o una pagina web per un accesso futuro. Questi siti permettono agli utenti di segnare diverse pagine web e condividere le loro opinioni su articoli, immagini e video. Tuttavia, molti proprietari di siti web utilizzano i siti di social bookmarking per navigare articoli interessanti e includere link. Questo espone i siti web agli spammer tramite backlink, poiché gli spammer creano segnalibri di spam attraenti che vengono scelti dagli utenti ignari.
Per combattere lo spam nei segnalibri, ci sono varie tecniche antispam disponibili, tra cui:
- Tecniche di clustering e classificazione basate su clustering Self-Organizing Maps (SOM) e scoperta di associazioni.
- Estrazione e aggregazione di funzionalità probabilistiche.
- GraphLab Create e Probabilistic Soft Logic per l'estrazione delle funzionalità
- Classificatore Gradient-Boosted Decision Tree per la classificazione.
Spam sui social network
Le attuali tecniche antispam hanno identificato che i generatori di spam sui social network sono robot. Questi robot sono conosciuti come Displayer, Bragger, Poster e Whisperer. Le tecniche antispam per i social network includono:
- Rapporto FF: Il rapporto tra le richieste di amicizia e il numero esistente di amici.
- Rapporto URL: Il rapporto tra gli URL in un messaggio e il numero di parole.
- Friend choice: The similarity between the spammer and the victim’s friend lists.
- Messaggi inviati: Il numero di messaggi che un utente invia in un dato intervallo di tempo.
- Numero di amici: Il numero di amici che un utente ha.
In altre parole, queste sono tecniche basate sulla classificazione basate su spam-bot e profilo spam e classificazione in tempo reale. Le tecniche di clustering si concentrano sul clustering di Markov sui grafi sociali e sull' algoritmo di apprendimento SOM, mentre le tecniche di rilevamento e rimozione si basano sul clustering incrementale seguito dalla classificazione. Le tecniche di classificazione e monitoraggio si concentrano sul Social Spam Guard basato sui social network, e le tecniche di rilevamento non supervisionato si concentrano sul framework basato su HITS.
Spam nelle recensioni
Review Spam is a type of spam that appears as reviews on various e-commerce websites. Positive reviews can boost a company’s business, but negative reviews can harm it. Some spammers intentionally pubblicare recensioni per danneggiare la reputazione di un prodotto o azienda, e anche i robot possono generare queste recensioni. Nel 2013, è stato progettato un modello per generare recensioni sintetiche. È stato proposto un metodo di difesa innovativo per rilevare la differenza nei flussi semantici tra recensioni false e veritiere, che sono difficili da rilevare utilizzando i metodi esistenti.
Attualmente, ci sono diverse tecniche antispam per rilevare lo spam nelle recensioni, tra cui:
- Tecniche basate sulla classificazione focalizzate su SVM con kernel lineare e metodi basati su n-gram.
- Tecniche basate su regole.
- Tecniche basate su funzionalità sensibili al tempo.
- Tecniche combinate basate su framework per classificazione e clustering.
- Tecniche basate sulla classificazione focalizzate sulla generazione e analisi di recensioni sintetiche.
- Tecniche basate su rete di Loopy Belief Propagation (LBP).
Spam nella ricerca di localizzazione
Secondo la ricerca sulla sicurezza informatica, gli spammer possono infiltrarsi e interrompere un sistema di ricerca valido associando tag non correlati ai documenti o anche infondendo casualmente documenti con termini relativi a una particolare località. È stata sviluppata una metodologia per rilevare lo spam su un sito web di social bookmarking basato sulla localizzazione, Foursquare, per affrontare questo problema. Foursquare permette agli utenti di lasciare suggerimenti su vari luoghi e attrazioni, che altri utenti possono accedere. Tuttavia, gli spammer pubblicano contenuti irrilevanti, come suggerimenti commerciali, che fuorviano gli utenti interessati a conoscere un particolare luogo.
Questo documento analizza gli spammer di suggerimenti, con l'obiettivo di sviluppare strumenti automatizzati per rilevare gli utenti che pubblicano suggerimenti spam. Le tecniche antispam per la ricerca di localizzazione si basano sulla classificazione e clustering focalizzati sulla classificazione basata su Random Forest e Decision Tree, clustering EM per la categorizzazione e classificazione Random Forest.
Spam nei commenti
Lo spam nei commenti è prevalente sulle piattaforme di social media, in particolare su YouTube e siti di notizie. È stato proposto un approccio di data mining per filtrare i commenti spam sui forum di YouTube per combattere questo attacco informatico. A differenza dell'analisi dei contenuti per il rilevamento dello spam, questo approccio sfrutta il comportamento dei commenti per identificare gli spammer. La metodologia sfrutta YouTube’s hasSpamHint feature che accompagna i commenti degli utenti. Ecco i passaggi coinvolti:
- Recuperare i commenti contrassegnati come hasSpamHint per un dato video.
- Estrarre gli ID utente dietro i commenti sospetti di spam per raccogliere informazioni sull'attività dei commenti degli utenti.
- Derivare attributi come il testo del commento, il timestamp, il VideoID del video commentato e il valore della variabile binaria hasSpamHint dal registro di utilizzo nei forum di discussione.
- Calcolare i valori delle variabili che indicano l'intento di spam dell'utente.
- Assegnare un punteggio all'utente per identificarlo come spammer o meno.
- Apply a specific rule derived from manual data inspection to mark any user who meets the rule’s conditions (with at least five comments) as a spammer.
Questa tecnica antispam è chiamata basata su regole e Somiglianza di argomento indotta da NLP nei post e nei commenti seguita dalla classificazione.
Spam cross-media
Lo spam cross-media è una metodologia antispam unica che rileva lo spam su diverse piattaforme. Coinvolge l'identificazione rapida dello spam in tutti i social network e un aumento dell'accuratezza del rilevamento dello spam con la partecipazione di un grande set di dati. Sebbene una singola strategia efficace non possa essere applicata a tutte le forme e piattaforme di spam, questa tecnica è un framework innovativo cross-platform per rilevare lo spam sociale.
Questa tecnica è divisa in tre componenti principali:
- Mappatura e assemblaggio utilizzano la conversione di un oggetto di social network specifico in un modello standard definito dal framework per l'oggetto.
- Il pre-filtraggio si basa su blacklist, hashing e confronto di somiglianze per confrontare gli oggetti in arrivo con oggetti di spam conosciuti.
- La classificazione si basa su tecniche di apprendimento automatico supervisionato per classificare gli oggetti in arrivo e associati.
In conclusione
Lo spam è un problema diffuso su Internet e le tecniche antispam sono state sviluppate e implementate su varie piattaforme con diversi gradi di successo. Queste tecniche rientrano ampiamente in algoritmi deterministici, probabilistici o basati su grafi, ma ogni categoria ha una variazione significativa. Gli approcci probabilistici sono i più comunemente usati nelle tecniche moderne, poiché le caratteristiche dei social network differiscono significativamente da quelle dei documenti standard o delle pagine web. Tuttavia, la lotta contro lo spam è un gioco senza fine poiché gli spammer sviluppano nuovi metodi per eludere il rilevamento.
Pertanto, una vigilanza costante e lo sviluppo di nuove e migliori tecniche di lotta allo spam sono essenziali per combattere efficacemente lo spam.
sicurezza
admin è una redattrice senior per Government Technology. In precedenza ha scritto per PYMNTS e The Bay State Banner e ha conseguito una laurea in scrittura creativa alla Carnegie Mellon. Risiede fuori Boston.