Phát hành NukeViet 22.03.2024

reCAPTCHA - Công cụ chống Spam 2 trong 1

Chủ nhật - 27/06/2010 02:40

reCAPTCHA - Công cụ chống Spam 2 trong 1

Nếu bạn từng sử dụng các dịch vụ website, mạng xã hội chắc hẳn bạn từng tiếp xúc với CAPTCHA. Còn nếu bạn yêu thích tạo web, từng sở hữu hoặc quản lý một website động thì chắc hẳn bạn từng chịu vấn nạn Spam, cái bạn phải cần đến CAPTCHA để bảo vệ website của mình. Bài viết này sẽ giới thiệu với bạn một công cụ chống Spam cực kỳ hiệu quả, đó là reCAPTCHA.

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) là công cụ phân biệt người (với công cụ tự động của máy tính) nhằm tránh việc nó có thể tự động thực hiện các thao tác tới hệ thống như: gửi dữ liệu hoặc đăng nhập... có thể gây hại cho hệ thống. reCAPTCHA cũng là một hệ thống tạo CAPTCHA nhưng thú vị ở chỗ bạn không cần phải mất công lập trình các thuật toán mà nó đã được đảm nhiệm bởi server chính, bạn có thể sử dụng hoàn toàn miễn phí mà vẫn cực kỳ hiệu quả trong việc chống Spam.

reCAPTCHA được phát triển bởi trường đại học Carnegie Mellon. Nó hiện đang được sử dụng ở hàng trăm ngàn website. Nó là giải pháp ưu việt hơn CAPTCHA truyền thống và nhiều người ưa chuộng vì các lý do:

  • Được xây dựng sẵn, Hoàn toàn miễn phí.
  • Dễ dàng tích hợp và sử dụng, không mất công lập trình, cải tiến code để đối phó với công nghệ spam.
  • Có thêm âm thanh của CAPTCHA dành cho người khiếm thị.


ReCAPTCHA khác biệt và độc đáo ở chỗ trong khi nó cung cấp cho bạn sử dụng miễn phí thì đồng thời bạn cũng giúp nó số hóa một khối lượng khổng lồ các cuốn sách tại máy chủ của nó. Vậy là một công đôi việc và đó là lý do vì sao reCaptcha phục vụ bạn miễn phí mà nó vẫn tồn tại đến ngày nay như một công cụ chống spam hiệu quả. Vậy họ đã làm như thế nào ?

Như bạn biết, sách báo cũ muốn số hóa và chuyển thành dạng văn bản có thể chỉnh sửa thì phải được Scan từ giấy, sau đó chuyển qua cho phần mềm nhận dạng thành các ký tự trên máy tính. Do hạn chế của việc scan lại từ các trang giấy cũ, các loại font chữ khác nhau... nên việc nhận dạng không hề dễ dàng. Ví dụ về chữ và kết quả đọc được của các phần mềm:

captcha

Do hạn chế của lập trình mà công nghệ nhận dạng chữ tự động OCR (Optical ch@racter Recognition) không thực sự chính xác khi đọc các chữ, trong khi khả năng nhận dạng chữ của con người tốt hơn nhiều (đặc biệt là đối với chữ viết tay). Những người viết reCAPTCHA đã rất thông minh khi đưa ra ý tưởng sử dụng sức mạnh cộng đồng từ "công vô ích" để chuyển đổi thành "công có ích" phục vụ cho chính nó.

Cách hoạt động của reCAPTCHA cực kỳ đơn giản. reCAPTCHA lấy trong cơ sở dữ liệu của nó những từ mà OCR đã bó tay và kết hợp với một từ nó đã biết. Cho hiển thị ra màn hình và yêu cầu người dùng gõ cả 2 từ. Sau đó nó sẽ kiểm tra từ nó đã biết, nếu từ nó biết đúng với từ người dùng gõ vào, nó sẽ kết luận rằng từ kia cũng đúng và đưa vào CSDL số hóa của nó.

Như vậy nó đã thực hiện một công đôi việc: vừa thỏa mãn yêu cầu của Website là chứng thực người sử dụng, vừa giúp bản thân nó số hóa một lượng lớn văn bản. Quả là siêu thông minh.

Nhận ra lợi ích của reCAPTCHA, Tháng 9 năm 2009, Google đã mua công nghệ này phục vụ cho việc thay thế hệ thống CAPTCHA cũ kỹ của mình (đang bị các hacker qua mặt). Đồng thời cái mà Google đang nhắm đến chính là công cụ này sẽ giúp họ đẩy nhanh quá trình số hóa lượng lớn tài liệu trong kho sách điện tử của mình. Thật là một mũi tên trúng 2 đích.

Để sử dụng reCAPTCHA cho website của mình, bạn cần đăng ký một tài khoản tại đây: https://admin.recaptcha.net/recaptcha/crea-tesite/
Hệ thống sẽ đưa bạn đến trang login của Google, bạn hãy login bằng tài khoản Gmail, login xong bạn chỉ cần khai báo đị chỉ website của bạn để nhận mã đăng ký. Mỗi website có một mã đăng ký và chỉ có thể sử dụng sau khi đã đăng ký.

Để sử dụng cho site của mình, bạn sử dụng các mẫu lập trình này: http://recaptcha.net/resources.html


Thông tin tham khảo:

http://recaptcha.net/resources.html
http://en.wikipedia.org/wiki/ReCAPTCHA
http://googleblog.blogspot.com/2009/09/teaching-computers-to-read-google.html

Tác giả: laser

Nguồn tin:

Tổng số điểm của bài viết là: 31 trong 7 đánh giá

Xếp hạng: 4.4 - 7 phiếu bầu
Click để đánh giá bài viết
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây