Trang chủ » Những phát triển gần đây trong việc phát hiện và chống lại thư rác xã hội

Những phát triển gần đây trong việc phát hiện và chống lại thư rác xã hội

Tháng 3 12, 2023 • an ninh

Thư rác là những tin nhắn không mong muốn hoặc không được yêu cầu được gửi hoặc nhận qua phương tiện điện tử qua email, tin nhắn tức thời, blog, nhóm tin tức, phương tiện truyền thông xã hội, tìm kiếm trên web và điện thoại di động, kèm theo tiền phạt quảng cáo, Lừa đảo, Phần mềm độc hại, v.v. Như đã nêu rõ trong định nghĩa, Thư rác nhằm mục đích xấu và thường là nguồn thu nhập khả thi nhưng gian lận của một số cá nhân hoặc tổ chức. Kẻ tấn công mạng liên quan đến việc gửi những tin nhắn rác như vậy thường được gọi là "kẻ gửi thư rác". Mặc dù ban đầu chỉ nhắm mục tiêu và giới hạn trong email, thư rác đã xâm chiếm tất cả các nền tảng điện tử trên mọi phương tiện truyền thông.

Hiện nay có những loại thư rác nào?

  • Thư rác: còn được gọi là thư rác, gửi các tin nhắn không mong muốn, thường chứa nội dung thương mại, với số lượng lớn đến nhiều người nhận không phân biệt.
  • Thư rác trong tin nhắn tức thời sử dụng trình nhắn tin tức thời (IM): Mặc dù tinh vi hơn so với email, nhưng nó có xu hướng làm phiền người dùng các ứng dụng nhắn tin tức thời như Skype©, Yahoo!® và Messenger bằng các tin nhắn không mong muốn từ các nhà quảng cáo, v.v.
  • Thư rác trên các nhóm tin tức và diễn đàn: các bài đăng lặp đi lặp lại trên các nhóm tin tức Usenet và các diễn đàn Internet không liên quan.
  • Thư rác điện thoại di động: Hình thức thư rác này sử dụng dịch vụ tin nhắn ngắn (SMS) làm phương thức hoạt động. Đôi khi khách hàng bị tính phí cho các dịch vụ cao cấp bằng cách bị lừa vào một số đăng ký giả mạo và lừa đảo.
  • Gửi thư rác: là thư rác của công cụ tìm kiếm hoặc hành vi thao túng thứ hạng và thuật toán liên quan của công cụ tìm kiếm để quảng bá một trang web hoặc trang web cụ thể.
  • Splog và Wiki: Spam trên Blog, còn được gọi là Splog, đề cập đến các bình luận không liên quan đến chủ đề thảo luận. Những bình luận này thường được nhúng với các liên kết URL đến một số trang web thương mại. Một số Splog được viết dưới dạng thông báo chi tiết cho các trang web mà chúng quảng bá; một số khác không có nội dung gốc có nội dung vô nghĩa hoặc nội dung bị đánh cắp từ các trang web hợp pháp. Các loại tấn công tương tự cũng được thấy trên Wiki và các sổ lưu bút khác chấp nhận bình luận từ người dùng chung.
  • Thư rác trên các trang web video: Các trang web mạng xã hội như YouTube cũng bị nhiễm thư rác thường bao gồm các bình luận và liên kết đến một số trang web khiêu dâm hoặc hẹn hò hoặc một số video không liên quan. Đôi khi những bình luận này được tạo tự động thông qua Bot.
  • Thư rác trong tin nhắn của trò chơi trực tuyến: đó là hàng loạt tin nhắn, yêu cầu tham gia một nhóm cụ thể, vi phạm các điều khoản và điều kiện bản quyền, v.v.
  • Spi hoặc Spam qua điện thoại Internet: Điều này sử dụng thoại qua điện thoại Internet (VoIP) để gửi thư rác. Thông thường, một tin nhắn được ghi âm trước sẽ được phát khi người nhận vô tình nhận được một cuộc gọi rác. Nền tảng này là mục tiêu dễ bị tấn công của những kẻ gửi thư rác vì VoIP rẻ và dễ ẩn danh.

Các loại thư rác và kỹ thuật gửi thư rác

Các loại thư rác

  • Liên kết độc hại: Các liên kết gây hại, gây hiểu lầm hoặc gây hại cho máy tính của người dùng.
  • Hồ sơ giả mạo: Người gửi thư rác có thể tạo các hồ sơ giả mạo trông có vẻ hợp pháp để tránh bị phát hiện và dụ những người không phải là người gửi thư rác kết bạn với họ.
  • Gửi thư hàng loạt: chúng được gọi là bom thư rác; chúng là một tập hợp các bình luận được đăng nhiều lần với cùng một văn bản, cho phép các thẻ liên quan đến bình luận trở thành xu hướng trên các mạng xã hội một cách nhanh chóng.
  • Đánh giá lừa đảo:Những đánh giá này khẳng định rằng sản phẩm là chính hãng và tốt, ngay cả khi người đánh giá có thể chưa sử dụng sản phẩm đó.

Kỹ thuật spam

  • Nhấp chuột: Còn được gọi là Chỉnh sửa giao diện người dùng, kẻ gửi thư rác lừa người dùng nhấp vào các mục tiêu vô hình (ví dụ: nút) thuộc về một trang khác. Hình thức thư rác này chủ yếu có thể thấy trên các blog và diễn đàn.
  • Tiện ích mở rộng trình duyệt độc hại thông qua tải xuống tự động: Hình thức tấn công này xảy ra bằng cách tải xuống phần mềm độc hại từ Internet mà người dùng không biết. Loại thư rác này thường xuất hiện dưới dạng liên kết độc hại và có thể tìm thấy trên blog, dấu trang web, đánh giá, v.v.
  • Trình rút gọn URL: Trong cuộc tấn công spam này, URL rút gọn sẽ che giấu URL thực tế và chuyển hướng đến các đích được cấu hình mà không có sự đồng ý của người dùng. Loại spam này thường xuyên xảy ra trên các mạng xã hội, blog nhỏ, bài đánh giá, v.v.
  • Tiêm mã lệnh kỹ thuật xã hội: Trong cuộc tấn công này, người dùng cuối bị lừa thực thi mã JavaScript độc hại theo lựa chọn của spammer trong bối cảnh trang web của nạn nhân, do đó tấn công vào lòng tin của người dùng. Một lần nữa, cuộc tấn công này thường liên quan đến các liên kết khó hiểu đến các chương trình hoặc trang web độc hại. Nó có thể xuất hiện dưới dạng biểu mẫu trên một số trang web đánh giá, chẳng hạn như email.

Kỹ thuật phát hiện thư rác

Có ba chiến lược chính để giải quyết thư rác:

  • Kỹ thuật dựa trên phát hiện: Các kỹ thuật này cố gắng xác định và loại bỏ thư rác khỏi hệ thống.
  • Chiến lược dựa trên sự suy giảm: Những nỗ lực này nhằm hạ thấp thứ hạng thư rác trong danh sách tin nhắn.
  • Chiến lược dựa trên phòng ngừa: Mục đích là ngăn chặn khả năng những kẻ gửi thư rác đóng góp vào hệ thống bằng cách thay đổi giao diện hoặc hạn chế hành động của người dùng.

Những phát triển mới nhất trong kỹ thuật chống thư rác

Thư rác E-mail

Lọc cộng tác được sử dụng thông qua mạng xã hội có tên là SocialFilter, đây là hệ thống lọc thư rác cộng tác sử dụng sự tin cậy xã hội được tích hợp vào mạng xã hội trực tuyến (OSN) để đánh giá độ tin cậy của người báo cáo thư rác. Đây là phương pháp tiếp cận dựa trên đồ thị dựa trên đồ thị OSN. SocialFilter hướng đến việc bổ sung các tính năng của nhiều trình phát hiện thư rác, qua đó dân chủ hóa việc giảm thiểu thư rác. Mỗi nút SocialFilter, được quản lý bởi một quản trị viên con người, sẽ gửi báo cáo về người gửi thư rác đến một kho lưu trữ tập trung.

Thư rác blog

Blog là nền tảng nơi mọi người thể hiện cảm xúc, chia sẻ thông tin và giao tiếp với nhau. Với sự phổ biến ngày càng tăng, blog hiện đang được sử dụng để thúc đẩy lưu lượng truy cập của công cụ tìm kiếm blog hoặc cho mục đích quảng cáo. Các loại blog này được gọi là Splog. Tuy nhiên, hầu hết các kỹ thuật phát hiện Splog hiện có đều dựa trên nội dung, kém hiệu quả hơn do bản chất năng động của blog.

Hiện nay, có ba kỹ thuật chống thư rác được sử dụng để chống lại Splog:

  1. Các kỹ thuật dựa trên phát hiện sử dụng phương pháp xác định hoạt động với một tập hợp dữ liệu Technorati Query với độ chính xác phát hiện lớn hơn 60%.
  2. Kỹ thuật phân loại hoạt động thông qua các bình luận trên mạng xã hội với độ chính xác phát hiện lớn hơn 60%.
  3. Các kỹ thuật dựa trên phát hiện sử dụng biểu đồ xã hội được nhóm lại bằng cách sử dụng các ấn phẩm trên các trang blog thương mại. Kỹ thuật này được coi là hiệu quả nhất trong việc phát hiện những kẻ gửi thư rác.

Thư rác Microblog

Thư rác microblog là thư rác trên các nền tảng microblog, chẳng hạn như Twitter, nơi có giới hạn về kích thước của tweet. Để phát hiện thư rác microblog, có một số kỹ thuật khả dụng, bao gồm:

  1. Các phương pháp dựa trên tính xác định nghiên cứu các trường hợp để xác định thư rác.
  2. Các phương pháp tiếp cận dựa trên phân loại tập trung vào Khung Social Honeypot.
  3. Các kỹ thuật làm suy yếu tập trung vào Xếp hạng thông đồng và Xếp hạng trang.

Ngoài ra còn có các kỹ thuật chống thư rác kết hợp các nghiên cứu tình huống và phân loại, chẳng hạn như biểu đồ xã hội dựa trên Mr. SPA, cũng như các kỹ thuật dựa trên việc phân nhóm các chiến dịch thư rác và dán nhãn chúng bằng RF Classifier, công thức Lasso tích hợp với thuật ngữ chính quy hóa đồ thị, Phân loại rừng ngẫu nhiên bằng các tính năng đã điều chỉnh và bộ phân loại dựa trên ELM với các tính năng đã xác định.

Đánh dấu thư rác

Đánh dấu trang xã hội đã phát triển từ đánh dấu trang truyền thống thành một nền tảng nơi người dùng có thể thêm, chỉnh sửa hoặc sửa đổi trang web hoặc trang web để truy cập trong tương lai. Các trang web này cho phép người dùng đánh dấu các trang web khác nhau và chia sẻ ý kiến của họ về các bài viết, hình ảnh và video. Tuy nhiên, nhiều chủ sở hữu trang web sử dụng các trang đánh dấu trang xã hội để duyệt các bài viết thú vị và bao gồm các liên kết. Điều này khiến các trang web bị những kẻ gửi thư rác tiếp cận thông qua các liên kết ngược, vì những kẻ gửi thư rác tạo ra các dấu trang thư rác hấp dẫn được những người dùng không nghi ngờ lựa chọn.

Để chống lại thư rác đánh dấu trang, có nhiều kỹ thuật chống thư rác khác nhau, bao gồm:

  1. Kỹ thuật phân cụm và phân loại dựa trên phương pháp phân cụm Bản đồ tự tổ chức (SOM) và khám phá liên kết.
  2. Trích xuất và tổng hợp đặc điểm xác suất.
  3. GraphLab Create và Logic mềm xác suất để trích xuất tính năng
  4. Trình phân loại cây quyết định tăng cường độ dốc để phân loại.

Thư rác mạng xã hội

Các kỹ thuật chống thư rác hiện tại đã xác định rằng các máy phát thư rác trên mạng xã hội là robot. Các robot này được gọi là Displayer, Bragger, Poster và Whisperer. Các kỹ thuật chống thư rác cho mạng xã hội bao gồm:

  • Tỷ lệ FF: Tỷ lệ giữa số lời mời kết bạn và số bạn bè hiện có.
  • Tỷ lệ URL: Tỷ lệ URL trong một tin nhắn so với số từ.
  • Lựa chọn bạn bè: Sự tương đồng giữa danh sách bạn bè của người gửi thư rác và nạn nhân.
  • Số tin nhắn đã gửi: Số lượng tin nhắn mà người dùng gửi trong một khung thời gian nhất định.
  • Số lượng bạn bè: Số lượng bạn bè của người dùng.

Nói cách khác, đây là các kỹ thuật phân loại dựa trên spam-bot và hồ sơ spam và phân loại thời gian chạy. Các kỹ thuật phân cụm tập trung vào phân cụm Markov trên đồ thị xã hội và Thuật toán học SOM, trong khi các kỹ thuật phát hiện và loại bỏ dựa trên phân cụm gia tăng theo sau là phân loại. Các kỹ thuật phân loại và giám sát tập trung vào Social Spam Guard dựa trên mạng xã hội và các kỹ thuật phát hiện không giám sát tập trung vào Khung dựa trên HITS.

Đánh giá thư rác

Spam đánh giá là một loại thư rác xuất hiện dưới dạng đánh giá trên nhiều trang web thương mại điện tử khác nhau. Đánh giá tích cực có thể thúc đẩy hoạt động kinh doanh của công ty, nhưng đánh giá tiêu cực có thể gây hại cho công ty. Một số người gửi thư rác cố ý đăng bài đánh giá để làm tổn hại đến danh tiếng của sản phẩm hoặc công tyvà robot cũng có thể tạo ra các đánh giá này. Vào năm 2013, một mô hình đã được thiết kế để tạo ra các đánh giá tổng hợp. Một phương pháp phòng thủ mới đã được đề xuất để phát hiện sự khác biệt trong luồng ngữ nghĩa giữa các đánh giá giả và đánh giá trung thực, vốn khó phát hiện bằng các phương pháp hiện có.

Hiện nay, có một số kỹ thuật chống thư rác để phát hiện thư rác đánh giá, bao gồm:

  • Các kỹ thuật dựa trên phân loại tập trung vào phương pháp SVM hạt nhân tuyến tính và phương pháp dựa trên n-gram.
  • Kỹ thuật dựa trên quy tắc.
  • Kỹ thuật dựa trên tính năng nhạy cảm với thời gian.
  • Các kỹ thuật kết hợp dựa trên khuôn khổ phân loại và nhóm.
  • Các kỹ thuật dựa trên phân loại tập trung vào việc tạo ra và phân tích các bài đánh giá tổng hợp.
  • Kỹ thuật dựa trên mạng lưới truyền bá niềm tin vòng lặp (LBP).

Thư rác tìm kiếm vị trí

Theo nghiên cứu về an ninh mạng, những kẻ gửi thư rác có thể xâm nhập và phá vỡ hệ thống tìm kiếm hợp lệ bằng cách liên kết các thẻ không liên quan với các tài liệu hoặc thậm chí ngẫu nhiên đưa các thuật ngữ liên quan đến một địa điểm cụ thể vào tài liệu. Một phương pháp phát hiện thư rác trên trang web đánh dấu trang xã hội dựa trên vị trí, Foursquare, đã được phát triển để giải quyết vấn đề này. Foursquare cho phép người dùng để lại lời khuyên về nhiều địa điểm và điểm tham quan khác nhau, mà những người dùng khác có thể truy cập. Tuy nhiên, những kẻ gửi thư rác đăng nội dung không liên quan, chẳng hạn như lời khuyên kinh doanh, khiến người dùng quan tâm đến việc tìm hiểu về một địa điểm cụ thể hiểu sai.

Tài liệu này phân tích những kẻ gửi thư rác gợi ý, nhằm mục đích phát triển các công cụ tự động để phát hiện người dùng đăng các gợi ý thư rác. Các kỹ thuật chống thư rác của Location Search dựa trên phân loại và cụm tập trung vào phân loại dựa trên Random Forest và Decision Tree, Phân cụm EM để phân loại và phân loại Rừng ngẫu nhiên.

Bình luận spam

Thư rác bình luận rất phổ biến trên các nền tảng truyền thông xã hội, đặc biệt là trên YouTube và các trang tin tức. Một phương pháp khai thác dữ liệu đã được đề xuất để lọc các bình luận thư rác trên các diễn đàn YouTube để chống lại cuộc tấn công mạng này. Không giống như phân tích nội dung để phát hiện thư rác, phương pháp này khai thác hành vi bình luận để xác định người gửi thư rác. Phương pháp này tận dụng Tính năng hasSpamHint của YouTube đi kèm với bình luận của người dùng. Sau đây là các bước liên quan:

  1. Truy xuất các bình luận được đánh dấu là hasSpamHint cho một video nhất định.
  2. Trích xuất ID người dùng đằng sau các bình luận nghi ngờ là spam để thu thập thông tin về hoạt động bình luận của người dùng.
  3. Lấy các thuộc tính như văn bản bình luận, dấu thời gian, VideoID của video được bình luận và giá trị của biến nhị phân hasSpamHint từ nhật ký sử dụng trong diễn đàn thảo luận.
  4. Tính toán giá trị của các biến biểu thị ý định spam của người dùng.
  5. Gán điểm cho người dùng để xác định họ có phải là người gửi thư rác hay không.
  6. Áp dụng quy tắc cụ thể bắt nguồn từ việc kiểm tra dữ liệu thủ công để đánh dấu bất kỳ người dùng nào đáp ứng các điều kiện của quy tắc (có ít nhất năm bình luận) là người gửi thư rác.

Kỹ thuật chống thư rác này được gọi là dựa trên quy tắc và Sự tương đồng chủ đề do NLP tạo ra trong các bài đăng và bình luận theo sau là phân loại.

Thư rác đa phương tiện

Thư rác đa phương tiện là một phương pháp chống thư rác độc đáo phát hiện thư rác trên nhiều nền tảng khác nhau. Nó bao gồm việc xác định nhanh thư rác trên tất cả các mạng xã hội và tăng độ chính xác phát hiện thư rác với sự tham gia của một tập dữ liệu lớn. Mặc dù không thể áp dụng một chiến lược hiệu quả duy nhất cho tất cả các hình thức và nền tảng thư rác, nhưng kỹ thuật này là một khuôn khổ đa nền tảng sáng tạo để phát hiện thư rác xã hội.

Kỹ thuật này được chia thành ba thành phần chính:

  1. Ánh xạ và lắp ráp sử dụng việc chuyển đổi một đối tượng mạng xã hội cụ thể thành một mô hình chuẩn được xác định trong khuôn khổ cho đối tượng đó.
  2. Lọc trước dựa trên danh sách đen, băm và so sánh độ tương đồng để so sánh các đối tượng đến với các đối tượng thư rác đã biết.
  3. Phân loại dựa trên các kỹ thuật học máy có giám sát để phân loại các đối tượng đến và liên quan.

Kết luận

Thư rác là một vấn đề phổ biến trên Internet và các kỹ thuật chống thư rác đã được phát triển và triển khai trên nhiều nền tảng khác nhau với nhiều mức độ thành công khác nhau. Các kỹ thuật này về cơ bản thuộc về các thuật toán xác định, xác suất hoặc dựa trên đồ thị, nhưng mỗi loại đều có sự khác biệt đáng kể. Các phương pháp tiếp cận xác suất thường được sử dụng nhất trong các kỹ thuật hiện đại, vì các đặc điểm của mạng xã hội khác biệt đáng kể so với các đặc điểm của tài liệu hoặc trang web tiêu chuẩn. Tuy nhiên, cuộc chiến chống thư rác là một trò chơi không bao giờ kết thúc khi những kẻ gửi thư rác phát triển các phương pháp mới để tránh bị phát hiện.

Do đó, việc liên tục cảnh giác và phát triển các kỹ thuật chống thư rác mới và tốt hơn là điều cần thiết để chống thư rác hiệu quả.

tác giả avatar

bảo vệ

admin là một biên tập viên cấp cao của Government Technology. Trước đây cô đã viết cho PYMNTS và The Bay State Banner, và có bằng Cử nhân Nghệ thuật sáng tác của trường Carnegie Mellon. Cô sống ở ngoại ô Boston.

viVietnamese