소셜 스팸 탐지 및 대응 기술의 최근 발전 동향
2023년 3월 12일 • 보안
Spam refers to unwanted or unsolicited messages sent or received electronically via email, instant messaging, blogs, newsgroups, social media, web search, and mobile phones, with advertising fines, Phishing, Malware, etc. As is clear from the definition, Spam is intended for malice and generally represents a viable but fraudulent source of income for some individuals or organizations. The cyber attacker involved in sending such spam messages is generally referred to as a “spammer.” Although initially targeted and limited to email, spam has invaded all electronic platforms in all media.
오늘날 어떤 종류의 스팸이 존재하나요?
- 이메일 스팸: 정크 메일이라고도 불리며, 상업적 내용을 포함한 원치 않는 메시지를 대량으로 무차별 수신자에게 발송합니다.
- 인스턴트 메시징의 스팸은 인스턴트 메신저(IM)를 사용합니다: 이메일 스팸보다는 미묘하지만, Skype©, Yahoo!®, Messenger와 같은 인스턴트 메신저 사용자에게 광고주 등의 원치 않는 메시지를 보내 귀찮게 합니다.
- 뉴스그룹과 포럼의 스팸: 유즈넷 뉴스그룹과 관련 없는 인터넷 포럼에 다수의 반복적인 게시물을 올리는 것입니다.
- 휴대전화 스팸: 이 형태의 스팸은 단문 메시지 서비스(SMS)를 운영 방식으로 사용합니다. 때때로 고객은 가짜 구독과 사기에 속아 프리미엄 서비스 요금을 부과받기도 합니다.
- 스팸덱싱: 검색 엔진 스팸 또는 특정 웹사이트나 웹 페이지를 홍보하기 위해 검색 엔진 순위 및 관련성 알고리즘을 조작하는 행위를 의미합니다.
- 스플로그와 위키: 블로그의 스팸, 스플로그라고도 불리며, 토론 주제와 관련 없는 댓글을 의미합니다. 이러한 댓글은 보통 상업 사이트로의 URL 링크가 포함되어 있습니다. 일부 스플로그는 홍보하는 웹사이트에 대한 상세한 공지로 작성되며, 다른 스플로그는 정당한 웹사이트에서 도용한 콘텐츠나 무의미한 내용을 특징으로 합니다. 유사한 유형의 공격은 위키 및 일반 사용자의 댓글을 허용하는 다른 방명록에서도 볼 수 있습니다.
- 비디오 사이트의 스팸: YouTube와 같은 소셜 네트워킹 웹사이트도 스팸으로 오염되어 있으며, 이는 보통 포르노 또는 데이팅 사이트나 관련 없는 비디오에 대한 댓글 및 링크를 포함합니다. 때때로 이러한 댓글은 봇을 통해 자동으로 생성됩니다.
- 온라인 게임 메시지의 스팸: 특정 그룹에 가입하라는 요청, 저작권 약관 위반 등의 메시지 홍수입니다.
- 인터넷 전화 스팸(Spi): 인터넷 전화(VoIP)를 사용하여 스팸을 전송합니다. 수신자가 실수로 스팸 전화를 받으면 보통 사전 녹음된 메시지가 재생됩니다. VoIP는 저렴하고 쉽게 익명화할 수 있기 때문에 스팸 발송자에게 취약한 대상입니다.
스팸 유형과 스팸 기술
스팸 유형
- 악성 링크: Links that harm, mislead, or otherwise harm a user’s computer.
- 가짜 프로필: 스팸 발송자는 탐지를 피하고 비스팸 사용자에게 친구가 되도록 유도하기 위해 합법적으로 보이는 가짜 프로필을 만들 수 있습니다.
- 대량 메일 발송: 스팸 폭탄이라고 알려져 있으며, 동일한 텍스트로 여러 번 게시된 댓글 세트로, 댓글과 관련된 태그가 소셜 네트워크에서 빠르게 트렌드가 되도록 합니다.
- 사기 리뷰: 이러한 리뷰는 리뷰어가 사용하지 않았을 수도 있는 제품이 원본이고 좋다고 주장합니다.
스팸 기술
- 클릭재킹: 또한 UI-리드레싱, 으로 알려져 있으며, 스팸 발송자는 사용자를 속여 다른 페이지에 속한 보이지 않는 대상(예: 버튼)을 클릭하게 합니다. 이러한 형태의 스팸은 주로 블로그와 포럼에서 볼 수 있습니다.
- 드라이브 바이 다운로드를 통한 악성 브라우저 확장: This form of attack occurs by downloading malware from the Internet without the user’s notice. This type of spam usually comes as malicious links and can be found on blogs, website bookmarks, reviews, etc.
- URL 단축기: In this spam attack, the shortened URL obfuscates the actual URL and redirects to its configured destinations without the user’s consent. This type of spam is more frequent in social networks, microblogs, reviews, etc.
- 소셜 엔지니어링 스크립트 주입: In this attack, end-users are tricked into executing malicious JavaScript code of the spammer’s choice in the context of the victim’s site, thereby attacking users’ trust. Again, this attack is often associated with obscure links to malicious programs or websites. It may appear as forms on some review websites, such as emails.
스팸 탐지 기술
스팸을 처리하기 위한 세 가지 주요 전략이 있습니다:
- 탐지 기반 기술: 시스템에서 스팸을 식별하고 제거하려고 합니다.
- 저하 기반 전략: 메시지 목록에서 스팸 순위를 낮추려고 시도합니다.
- 예방 기반 전략: 인터페이스를 변경하거나 사용자 행동을 제한하여 스팸 발송자가 시스템에 기여할 수 있는 능력을 방해하려고 합니다.
최신 스팸 방지 기술 개발
이메일 스팸
소셜 네트워크인 SocialFilter를 통해 협업 필터링이 사용되며, 이는 소셜 신뢰를 통합한 협업 스팸 필터링 시스템입니다. 온라인 소셜 네트워크 (OSN)을 사용하여 스팸 리포터의 신뢰성을 평가합니다. 이는 OSN 그래프를 기반으로 한 그래프 기반 접근 방식입니다. SocialFilter는 여러 스팸 탐지기의 기능을 추가하여 스팸 완화를 민주화하는 것을 목표로 합니다. 인간 관리자가 관리하는 각 SocialFilter 노드는 중앙 저장소로 스팸 발송자 보고서를 보냅니다.
블로그 스팸
블로그는 사람들이 감정을 표현하고 정보를 공유하며 서로 소통하는 플랫폼입니다. 인기가 높아짐에 따라 블로그는 이제 블로그 검색 엔진 트래픽을 유도하거나 홍보 목적으로 사용되고 있습니다. 이러한 유형의 블로그를 스플로그라고 합니다. 그러나 대부분의 기존 스플로그 탐지 기술은 콘텐츠 기반으로, 블로그의 동적 특성 때문에 덜 효과적입니다.
현재 스플로그와 싸우기 위해 세 가지 스팸 방지 기술이 사용됩니다:
- 결정론적 접근 방식을 사용하는 탐지 기반 기술은 60% 이상의 탐지 정확도를 가진 Technorati Queries 데이터 세트와 함께 작동합니다.
- 소셜 네트워크의 댓글을 통해 작동하는 분류 기반 기술은 60% 이상의 탐지 정확도를 가집니다.
- 상업 블로그 사이트의 게시물을 사용하여 그룹화된 소셜 그래프를 사용하는 탐지 기반 기술. 이 기술은 스팸 발송자를 탐지하는 데 가장 효율적인 것으로 간주됩니다.
마이크로블로그 스팸
마이크로블로그 스팸은 트위터와 같은 마이크로블로깅 플랫폼에서의 스팸을 의미하며, 트윗 크기에 제한이 있습니다. 마이크로블로그 스팸을 탐지하기 위해 여러 가지 기술이 있으며, 그 중에는:
- 사례를 연구하여 스팸을 식별하는 결정론적 접근 방식이 있습니다.
- 소셜 허니팟 프레임워크에 초점을 맞춘 분류 기반 접근 방식이 있습니다.
- Collusion Rank 및 PageRank에 초점을 맞춘 저하 기술이 있습니다.
사례 연구와 분류를 결합한 스팸 방지 기술도 있으며, 소셜 그래프 기반 Mr. SPA, 스팸 캠페인의 클러스터링 및 RF 분류기를 사용한 라벨링, 그래프 정규화 항을 통합한 라소 공식화, 조정된 기능을 사용한 랜덤 포레스트 분류, 정의된 기능을 사용한 ELM 기반 분류기 등의 기술이 있습니다.
북마킹 스팸
소셜 북마킹은 전통적인 북마킹에서 사용자가 웹사이트나 웹 페이지를 추가, 편집 또는 수정하여 나중에 액세스할 수 있는 플랫폼으로 발전했습니다. 이러한 사이트는 사용자가 다양한 웹 페이지를 북마크하고 기사, 이미지 및 비디오에 대한 의견을 공유할 수 있도록 합니다. 그러나 많은 웹사이트 소유자는 흥미로운 기사를 검색하고 링크를 포함하기 위해 소셜 북마킹 사이트를 사용합니다. 이는 스팸 발송자가 매력적인 스팸 북마크를 만들어 아무것도 모르는 사용자가 선택하게 함으로써 웹사이트를 스팸 발송자에게 노출시킵니다.
북마킹 스팸을 방지하기 위해 다양한 스팸 방지 기술이 있으며, 그 중에는:
- 자기 조직화 지도(SOM) 클러스터링 및 연관 발견을 기반으로 한 클러스터링 및 분류 기술이 있습니다.
- 확률적 특징 추출 및 집계가 있습니다.
- 기능 추출을 위한 GraphLab Create 및 확률적 소프트 로직이 있습니다.
- 분류를 위한 그래디언트 부스티드 결정 트리 분류기가 있습니다.
소셜 네트워크 스팸
현재 스팸 방지 기술은 소셜 네트워크 스팸 생성자가 로봇임을 확인했습니다. 이러한 로봇은 Displayer, Bragger, Poster, Whisperer로 알려져 있습니다. 소셜 네트워크를 위한 스팸 방지 기술에는 다음이 포함됩니다:
- FF 비율: 친구 요청 수와 기존 친구 수의 비율입니다.
- URL 비율: 메시지의 URL 수와 단어 수의 비율입니다.
- Friend choice: The similarity between the spammer and the victim’s friend lists.
- 보낸 메시지 수: 주어진 시간 내에 사용자가 보낸 메시지 수입니다.
- 친구 수: 사용자가 가진 친구 수입니다.
즉, 이러한 기술은 스팸 봇 및 스팸 프로필과 런타임 분류를 기반으로 한 분류 기반 기술입니다. 클러스터링 기술은 소셜 그래프의 마르코프 클러스터링에 초점을 맞추고 있으며, SOM 학습 알고리즘, 탐지 및 제거 기술은 분류 후 증분 클러스터링을 기반으로 합니다. 분류 및 모니터링 기술은 소셜 네트워크 기반의 소셜 스팸 가드에 초점을 맞추고 있으며, 비지도 탐지 기술은 HITS 기반 프레임워크.
리뷰 스팸
Review Spam is a type of spam that appears as reviews on various e-commerce websites. Positive reviews can boost a company’s business, but negative reviews can harm it. Some spammers intentionally 제품이나 회사의 평판을 손상시키기 위해 리뷰를 게시합니다, 로봇도 이러한 리뷰를 생성할 수 있습니다. 2013년에는 합성 리뷰를 생성하는 모델이 설계되었습니다. 기존 방법으로 탐지하기 어려운 가짜 리뷰와 진실한 리뷰 간의 의미 흐름 차이를 탐지하기 위한 새로운 방어 방법이 제안되었습니다.
현재 리뷰 스팸을 탐지하기 위한 여러 스팸 방지 기술이 있으며, 그 중에는:
- 선형 커널 SVM 및 n-그램 기반 방법에 초점을 맞춘 분류 기반 기술이 있습니다.
- 규칙 기반 기술이 있습니다.
- 시간 민감적 기능 기반 기술이 있습니다.
- 분류 및 클러스터링 프레임워크를 기반으로 한 결합 기술이 있습니다.
- 합성 리뷰 생성 및 분석에 초점을 맞춘 분류 기반 기술이 있습니다.
- 루피 신념 전파(LBP) 네트워크 기반 기술이 있습니다.
위치 검색 스팸
사이버 보안 연구에 따르면, 스팸 발송자는 문서와 관련 없는 태그를 연결하거나 특정 위치와 관련된 용어로 문서를 무작위로 주입하여 유효한 검색 시스템에 침투하고 방해할 수 있습니다. 이 문제를 해결하기 위해 위치 기반 소셜 북마킹 웹사이트인 Foursquare에서 스팸을 탐지하기 위한 방법론이 개발되었습니다. Foursquare는 사용자가 다양한 장소와 명소에 대한 팁을 남길 수 있으며, 다른 사용자가 이를 액세스할 수 있습니다. 그러나 스팸 발송자는 특정 장소에 대해 배우고자 하는 사용자를 오도하는 비즈니스 팁과 같은 관련 없는 콘텐츠를 게시합니다.
이 문서는 제안 스팸 발송자를 분석하여 스팸 제안을 게시하는 사용자를 탐지하기 위한 자동화 도구를 개발하는 것을 목표로 합니다. 위치 검색 스팸 방지 기술은 분류 및 클러스터링에 기반하며, 랜덤 포레스트 및 결정 트리 기반 분류에 초점을 맞추고 있습니다, EM 클러스터링 을 사용하여 범주화하고, 랜덤 포레스트 분류를 사용합니다.
댓글 스팸
댓글 스팸은 소셜 미디어 플랫폼, 특히 YouTube 및 뉴스 사이트에서 흔히 볼 수 있습니다. 이 사이버 공격을 방지하기 위해 YouTube 포럼의 스팸 댓글을 필터링하기 위한 데이터 마이닝 접근 방식이 제안되었습니다. 스팸 탐지를 위한 콘텐츠 분석과 달리, 이 접근 방식은 댓글 행동을 활용하여 스팸 발송자를 식별합니다. 이 방법론은 YouTube’s hasSpamHint feature 사용자 댓글에 수반되는 것을 활용합니다. 다음은 관련 단계입니다:
- 주어진 비디오에 대한 hasSpamHint로 표시된 댓글을 검색합니다.
- 의심되는 스팸 댓글 뒤에 있는 사용자 ID를 추출하여 사용자 댓글 활동에 대한 정보를 수집합니다.
- 댓글 텍스트, 타임스탬프, 댓글이 달린 비디오의 VideoID, 토론 포럼의 사용 로그에서 hasSpamHint 이진 변수의 값을 비롯한 속성을 도출합니다.
- 사용자의 스팸 의도를 나타내는 변수의 값을 계산합니다.
- 사용자가 스팸 발송자인지 여부를 식별하기 위해 점수를 할당합니다.
- Apply a specific rule derived from manual data inspection to mark any user who meets the rule’s conditions (with at least five comments) as a spammer.
이 스팸 방지 기술은 규칙 기반이며 NLP 유도 주제 유사성 게시물 및 댓글에서 분류 후에 사용됩니다.
크로스 미디어 스팸
크로스 미디어 스팸은 다양한 플랫폼에서 스팸을 탐지하는 독특한 스팸 방지 방법론입니다. 이는 모든 소셜 네트워크에서 스팸을 빠르게 식별하고 대규모 데이터 세트의 참여로 스팸 탐지 정확성을 높이는 것을 포함합니다. 모든 형태와 플랫폼의 스팸에 단일 효과적인 전략을 적용할 수는 없지만, 이 기술은 소셜 스팸을 탐지하기 위한 혁신적인 크로스 플랫폼 프레임워크입니다.
이 기술은 세 가지 주요 구성 요소로 나뉩니다:
- 매핑 및 조립은 특정 소셜 네트워크 객체를 프레임워크 정의 표준 모델로 변환하는 것을 사용합니다.
- 사전 필터링은 블랙리스트, 해싱 및 유사성 비교를 기반으로 하여 들어오는 객체를 알려진 스팸 객체와 비교합니다.
- 분류는 들어오는 객체 및 관련 객체를 분류하기 위해 지도 기계 학습 기술을 기반으로 합니다.
결론적으로
스팸은 인터넷에서 널리 퍼진 문제이며, 다양한 플랫폼에서 다양한 성공률로 스팸 방지 기술이 개발되고 구현되었습니다. 이러한 기술은 크게 결정론적, 확률론적 또는 그래프 기반 알고리즘으로 나뉘지만, 각 범주에는 상당한 변동이 있습니다. 확률론적 접근 방식은 현대 기술에서 가장 일반적으로 사용되며, 소셜 네트워크의 특성이 표준 문서나 웹 페이지와 크게 다르기 때문입니다. 그러나 스팸과의 싸움은 끝나지 않는 게임이며, 스팸 발송자는 탐지를 피하기 위한 새로운 방법을 개발합니다.
따라서 스팸을 효과적으로 방지하기 위해 지속적인 경계와 새로운 스팸 방지 기술의 개발이 필수적입니다.
보안
admin은 정부 기술의 선임 스태프 작가입니다. 이전에는 PYMNTS와 베이 스테이트 배너에 글을 썼으며 카네기 멜론에서 문예창작 학사 학위를 받았습니다. 현재 보스턴 외곽에 거주하고 있습니다.