Seo
Seo

Đăng ký tư vấn chiến lược marketing

Robot.txt là gì ? Tạo file robots.txt cho Wordpress hiệu quả

By Võ Tuấn Hải - Lượt xem : 21711
Ngày đăng: Thứ hai, 11 Tháng Mười Hai, 2017 / Ngày cập nhật: Thứ năm, 05 Tháng Mười Hai, 2019

Bạn biết tạo sao bot Google có thể vào website của bạn để phân tích và thu thập dữ liệu không ? Tất nhiên, sẽ có thời điểm bạn muốn nội dung được index nhanh, hay cũng có những trang bạn không muốn index. Vậy làm thế nào ? Hãy bắt đầu ngay với việc tìm hiểu cách tạo file robots.txt cho wordpress

Xem Thêm: Seo Google Là Gì ?

robot.txt

Tìm hiểu Robot.txt là gì ? Hướng dẫn cách tạo file Robots.txt cho website

1. ROBOTS.TXT LÀ GÌ ?

File robots.txt là một tệp tin văn bản định dạng .txt. Tệp tin này là một phần của Robots Exclusion Protocol chứa một nhóm những tiêu chuẩn web quy định cách thức mà robot web, robot Google thu thập dữ liệu web, truy cập, lập chỉ mục nội dung và cung cấp những nội dung này cho người dùng

Robots Exclusion Protocol (REP) bao gồm các tập lên như: meta robots, page-subdirectory, site-wide instructions. Chúng đóng vai trò hướng dẫn bot tìm kiếm xử lý các liên kết xuất hiện trên trang. Ví dụ như phân loại giữa link nofollow và dofollow

Khi tạo file robots.txt cho wordpress, bạn có thể chủ động hơn rất nhiều trong việc cho phép hoặc không đối với việc bot tìm kiếm index dữ liệu một phần hay toàn bộ website

tạo file robots.txt

2. CÚ PHÁP XUẤT HIỆN TRONG TỆP ROBOTS.TXT

Những cú pháp này được xem như ngôn ngữ riêng của các tập tin robot.txt. Ở đây chúng ta sẽ có những cú pháp phổ biến thường gặp đối với 1 file robot.txt như sau:

  • • User-agent: Cài đặt tên công cụ tìm kiếm mà các bạn đang muốn điều khiển, ở đây có thể là Google, Yahoo hay Bing hoặc cũng có thể là tất cả các công cụ tìm kiếm
  • • Disallow: Khoanh vùng những khu vực trên website mà các bạn cho phép bot tìm kiếm truy cập và index dữ liệu
  • Robots.txt hiện tại đang hoạt động dựa trên thông tin công cụ tìm kiếm được khai báo và một lên user – agent đi cùng
  • • Crawl-Delay: Thời gian mà các bot tìm kiếm phải đợi để truy cập vào các phần tiếp theo trên trang web, hạn chế được tình trạng các công cụ tìm kiếm này load sever một cách không kiểm soát
  • • Sitemap: Dùng để cung cấp vị trí của các XML Sitemap nào được liên kết với URL. Đặc biệt, lệnh này chỉ được hỗ trợ bởi các công cụ tìm kiếm như Google, ASK hay Bing . . .

robotstxt-la-gi

3. FILE ROBOTS.TXT CHUẨN CHO WORDPRESS

Lấy ví dụ domain website là www.domain.com . Chúng ta sẽ có một cấu trúc Robots.txt chuẩn như sau:

tạo file robots.txt cho wordpress

Với cấu trúc này, được hiểu rằng bạn cho phép tất cả các bot tìm kiếm đi theo đường dẫn www.domain.com/sitemap_index.xml để đi đến tệp tin robots.txt để phân tích và index tất cả dữ liệu trên website. Tất nhiên là ngoài trừ trang admin www.domain.com/wp-admin/

4. CÁCH THỨC HOẠT ĐỘNG CỦA FILE ROBOTS.TXT

Trước tiên, cần xác định 2 nhiệm vụ chính của các công cụ tìm kiếm:

  • • Crawl dữ liệu web để tìm kiếm nội dung mới
  • • Index những nội dung này để yêu cầu

Với quá trình cào / phân tích dữ liệu này thì bot tìm kiếm sẽ di chuyển từ trang này đến trang khác, từ website này đến website khác. Dựa vào đó, bot tìm kiếm sẽ thu thập dữ liệu thông qua hàng tỷ website

Nên nhớ, trước khi tiến hành crawl dữ liệu bot tìm kiếm sẽ bắt đầu với file robots.txt. Khi tìm thấy file robots.txt bot sẽ đọc file này trước trước khi thực hiện các bước tiếp theo

Khi đọc file robots.txt này bot tìm kiếm sẽ biết được cách mà nó nên tìm kiếm và thu thập dữ liệu trên website. Khi bạn không tạo file robots.txt cho website bot tìm kiếm sẽ bắt đầu thu thập dữ liệu khác trên website

robots.txt hoạt động như thế nào

5. TẠI SAO WEBSITE WORDPRESS CẦN TẠO ROBOTS.TXT

Khi tạo file robots.txt cho wordpress điều này giúp bạn hoàn toàn kiểm soát được việc bot tìm kiếm sẽ đi đến những trang nào trên website. Tất nhiên, vẫn sẽ tồn tại rủi ro nên nếu như bạn thực hiện sai cú pháp có thể khiến website không được index

Nhưng rủi ro sẽ không tồn tại nếu bạn có thể kiếm soát tốt tập tin robot.txt này. Và bạn nên tạo file robots.txt cho website vì những lý do sau:

  • • Hạn chế việc xuất hiện nội dung trùng lặp trên website
  • • Có thể Private phần nội dung nào đó trên website, chứ không nhất thiết lúc nào cũng phải là public
  • • Chủ động không hiển thị các liên kết nội bộ trên trang tìm kiếm
  • • Chủ động chỉ định Sitmap
  • • Chặn không cho bot tìm kiếm index một số tệp tin nhất định trên website
  • • Crawl delay để thiết lập thời gian. Việc làm này sẽ hạn chế việc tối đa trình trạng máy chủ bị quá tải khi quá trình thu thập dữ liệu tải nhiều content cùng lúc

Thực ra, nếu không muốn ngăn chặn những web crawler dữ liệu, bạn sẽ không cần tạo file robots.txt cho website

6. HƯỚNG DẪN CÁCH TẠO TỆP ROBOTS.TXT CHO WORDPRESS

6.1 Sử dụng plugin Yoast Seo

  • • Bước 1: Cài đặt plugin Yoast Seo

tạo file robots.txt bằng wordpress

  • • Bước 2: Truy cập Seo => Tool => File Editor

tạo file robots bằng yoast seo

Tại đây bạn sẽ được chuyển đến mục .htaccess file. Kèm nút Create robots.txt. Bạn có thể tạo file robots.txt tại đây

6.2 Sử dụng bộ plugin All In One Seo

  • • Bước 1: Cài đặt plugin All In One Seo Pack

robot.txt wordpress

  • • Bước 2: Truy cập All In One Seo => Features Manager => Active ở mục robots.txt

file robots.txt chuẩn cho wordpress

Bạn sẽ thấy mục robots.txt sẽ hiển thị với 1 tab lớn bên trong thư mục All In One Seo. Bạn có thể vào đây tạo lập và điều chỉnh file robots.txt nếu muốn

6.3 Tạo và tải file Robots.txt lên wordpress

Trường hợp bạn không muốn dùng đến các plugin hỗ trợ tạo robots.txt, bạn có thể sử dụng phương án thủ công là tạo file robots.txt thủ công và upload lên website thông qua FTP. Thực ra quá trình này tương đối đơn giản và không hề phức tạp chút nào đâu

Bạn có thể nhờ bên code hỗ trợ. Hoặc tự tạo file robots.txt rồi tìm hiểu upload thông qua FTP nhé

7. MỘT SỐ LƯU Ý KHI TẠO ROBOTS.TXT WORDPRESS

Kể cả việc các bạn sử dụng lại một file robots.txt từ một ai đó hoặc tự mình tạo ra một file robots.txt riêng cho website của mình thì những vấn đề phát sinh và sai sót chắc chắn là điều không thể tránh khỏi trong quá trình tạo và sử dụng. Thế nên các bạn cần phải lưu ý các vấn đề sau:

  • • Phân biệt kỹ càng giữa chữ hoa và chữ thường
  • • Chỉ sử dụng các câu lệnh cần thiết, hạn chế việc sử dụng bổ sung các ký tự không liên quan, không cần thiết
  • • Đối với câu lệnh các bạn nên sử dụng chúng trên một dòng
  • • Dư và thiếu khoảng trắng cũng là lỗi thường gặp trong quá trình tạo các file robots.txt
  • • Các bạn cần phải cẩn thận trong quá trình sử dụng file robots.txt
  • • Dành thời gian để kiểm tra file để xác định các vấn đề phát sinh kịp thời

KẾT LUẬN

Bây giờ việc bạn cần làm là kiểm tra xem website mình đã có file robots.txt chưa ? Nếu chưa có thì có thể tạo file robots.txt, tùy chỉnh theo mục tiêu nhằm giúp bot tìm kiếm thu thập, index dữ liệu nhanh hơn

CÙNG CHỦ ĐỀ:

VÕ TUẤN HẢI
VÕ TUẤN HẢI
Tôi là Võ Tuấn Hải hiện là CEO & Founder của Quảng Cáo Siêu Tốc. Sau 11 năm gắn bó với Digital Marketing, với kinh nghiệm thực chiến cho hơn 1.000 cá nhân và doanh nghiệp SME ở Việt Nam, tôi hy vọng những kiến thức Marketing tôi chia sẻ có thể giúp mọi người đạt nhiều thành công hơn trong quá trình triển khai kế hoạch digital marketing cho cửa hàng & doanh nghiệp của mình. 
Banner đăng ký tư vấn mobile
Tặng Ngay Website Chuyên Nghiệp Chuẩn SEO

Khóa Học Zalo Marketing Bí Truyền

Khóa Học Bí Quyết Gia Tăng Hiệu Quả Dành Cho Mọi Loại Quảng Cáo

Hotline: 0901 349 349

Dịch Vụ Seo Google Dịch Vụ Seo Google