Sử dụng robots.txt để ngăn chặn website bị rip, clone

httrack website copier

Như các bạn đã biết, ngày nay tình trạng dùng các phần mềm Clone website để bắt chước những website đẹp thường xuyên xảy ra và chúng ta cũng không biết cũng như không cấm được những thành phần này.

Có 1 cách đơn giản là dùng file robots.txt để ngăn chặn các tool clone trên truy cập được các file hệ thống.

Nội dung như bên dưới, ở đây WCT dùng wordpress. Tùy mã nguồn bạn xài mà sửa file lại cho hợp lý ( thay hoặc bỏ luôn 3 dòng đầu tiên )

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: Teleport
Disallow: /
 
User-agent: TeleportPro
Disallow: /
 
User-agent: EmailCollector
Disallow: /
 
User-agent: EmailSiphon
Disallow: /
 
User-agent: WebBandit
Disallow: /
 
User-agent: WebZIP
Disallow: /
 
User-agent: WebReaper
Disallow: /
 
User-agent: WebStripper
Disallow: /
 
User-agent: Web Downloader
Disallow: /
 
User-agent: WebCopier
Disallow: /
 
User-agent: Offline Explorer Pro
Disallow: /
 
User-agent: HTTrack Website Copier
Disallow: /
 
User-agent: Offline Commander
Disallow: /
 
User-agent: Leech
Disallow: /
 
User-agent: WebSnake
Disallow: /
 
User-agent: BlackWidow
Disallow: /
 
User-agent: HTTP Weazel
Disallow: /

0938.54.84.99