Quảng cáo Siêu Tốc - Banner

Robots.txt Là Gì? Hướng Dẫn Sử Dụng Robots.txt Hiệu Quả Nhất

  • Đánh giá: (5 ★ trên 1 đánh giá)

Đối với việc xây dựng và phát triển website từ các nền tảng như Wordpress, Drupal, Joomla hay Nukeviet các bạn sẽ thường nhìn thấy một file có tên là robots.txt và vị trí xuất hiện của nó là trong thư mục root của host. Vẫn thường xuyên những file robots.txt này nhưng thực tế là nhiều bạn chưa quan tâm và cũng chưa bao giờ tự đặt câu hỏi rằng file robots.txt này là gì và vai trò thực sự của nó đối với một website là như thế nào?

Để giải đáp những thắc mắc liên quan đến thuật ngữ robots.txt này thì trong bài viết ngày hôm này Quảng Cáo Siêu Tốc sẻ chia sẻ đến các bạn cụ thể các thông tin liên quan đến robots.txt và cùng với đó là những hướng dẫn sử dụng cụ thể để các bạn phát huy tối đa vai trò của file robots.txt này đến tất cả các bạn, cùng tìm hiểu nhé

Robots.txt Là Gì

File robots.txt giúp các bạn quản lý, phát triển website tốt hơn

File robots.txt là gì?

Robots.txt chính là một dạng text đặc biệt, nó cũng không phải là tập tin html, cũng không phải là một tập tin nào khác. Vai trò chính của robots.txt đó chính là giúp các webmaster có thể linh hoạt quản lý các nội dung trên trang của mình mà cụ thể là cho phép hoặc không cho phép bot tìm kiếm truy cập, index dữ liệu trên một trang, một khu vực nào đó trên website

Các bạn có thể tưởng tượng rằng website của các bạn là một cơ quan nào đó và robots.txt chính là bao gồm những nội quy của cơ quan đó. Những nội quy trong robots.txt sẽ quyết định đến việc người khác (bot tìm kiếm) được phép làm những gì, những gì không được phép làm, được phép tham quan những bộ phận nào, những bộ phận nào thì không . . .

Đối với các file robots.txt thì việc cài đặt và cấu hình cho chúng là hết sức cần thiết vì cách là này có thể giúp các bạn bảo vệ được các thông tin mật trên website, không cho phép bot tìm kiếm truy cập, index và hiển thị những nội dung này trên các công cụ tìm kiếm. Thêm vào đó thì file trên các website còn đóng vai trò khá tích cực trong mục tiêu tối ưu seo website, đưa website lên một thứ hạng tìm kiếm tốt

File robots.txt hoạt động như thế nào?

File hoạt động dựa trên những các thông tin mà các webmaster sẽ cài đặt trên file. Bao gồm:

- User-agent: Cài đặt tên công cụ tìm kiếm mà các bạn đang muốn điều khiển, ở đây có thể là Google, Yahoo hay Bing hoặc cũng có thể là tất cả các công cụ tìm kiếm

- Disallow: Khoanh vùng những khu vực trên website mà các bạn cho phép bot tìm kiếm truy cập và index dữ liệu

- Robots.txt hiện tại đang hoạt động dựa trên thông tin công cụ tìm kiếm được khai báo và một lên user – agent đi cùng

- Crawl-Delay: Thời gian mà các bot tìm kiếm phải đợi để truy cập vào các phần tiếp theo trên trang web, hạn chế được tình trạng các công cụ tìm kiếm này load sever một cách không kiểm soát

- Dấu # được đặt trước những dòng có comment

- Cùng với đó là những tham số liên quan khác trong file robots.txt

Hướng dẫn cách tạo file robots.txt là gì?

File robots.txt nằm ở thư mục gốc đối với tất cả các website và các bạn có thể kiểm tra xem website của mình đã có thư mục này hay chưa, nếu chưa các bạn cần tự tạo ra chúng. Để tạo các file này các bạn có thể sử dụng nhiều công cụ khác nhau mà tốt nhất vẫn sẽ là notepad. Đối với trường hợp các bạn xây dựng website với nền tảng là wordpress thì file robots.txt của website sẽ có dạng như sau:

Với cấu hình file robots.txt dạng trên thì chúng ta có ví dụ như sau:

- User-agent: * : cho phép bất kỳ công cụ tìm kiếm nào cũng có thể truy cập, index dữ liệu trên trang

- Disallow: /administrator/ : Không cho phép bot tìm kiếm truy cập vào trang admin của website

- Disallow: /images/anh.JPG : Không cho phép bot tìm kiếm index dữ liệu ảnh có tên anh. Jpg

- Disallow: / : Không cho phép bot tìm kiếm truy cập vào toàn bộ trang web

Các bạn có thể tham khảo thêm về:
-Seo Realtime Là Gì ? Kỹ Thuật Seo Realtime Hiệu Quả Nhất

Hướng dẫn cách sử dụng file robots.txt là gì?

Quảng Cáo Siêu Tốc sẽ hướng dẫn các bạn cài đặt và cấu hình file robots.txt với 6 trường hợp sau:

Trường hợp 1: chặn không cho bot tìm kiếm truy cập vào một thư mục cụ thể

Robots.txt Là Gì

Điều này cũng đồng nghĩa rằng các bạn cho phép bot tìm kiếm truy cập, index dữ liệu trên website nhưng trừ 2 thư mục bao gồm wp – admin và wp – includes

Trường hợp 2: Không cho phép bot tìm kiếm truy cập, index trên bất cứ thư mục nào

Robots.txt Là Gì

Điều này cũng có nghĩa rằng các bạn đang cấm hoàn toàn việc dữ liệu trên trang có thể rò rỉ trên các công cụ tìm kiếm. Như thế là các bạn không chơi với SE và cũng không quan tâm đến cách làm seo

Trường hợp 3: Không có phép bot tìm kiếm index dữ liệu trên một trang cụ thể nào đó

Robots.txt Là Gì

Trường hợp 4: Không cho phép một công cụ tìm kiếm cụ thể nào đó truy cập website

Robots.txt Là Gì

Điều này có nghĩa rằng Spambot sẽ không có quyền truy cập và index dữ liệu trên trang trong khi đó thì những bot tìm kiếm từ các công cụ khác lại có được khả năng này nhưng cũng sẽ bị hạn chế và không có khả năng truy cập trên 2 thư mục đó là wp – admin và wp – includes

Trường hợp 5: Không cho phép index dữ liệu hình ảnh đối với một công cụ tìm kiếm bất kỳ

Robots.txt Là Gì

Ở đây các bạn có thể chặn không index dữ liệu hình ảnh có tên hinh.png và các bạn có thể chặn toàn bộ các công cụ tìm kiếm hoặc một vài công cụ tìm kiế cụ thể

Trường hợp 6: Chỉ cho phép index dữ liệu 1 file trên một thư mục cụ thể

Robots.txt Là Gì

Ở đây các bạn sẽ sử dụng cùng lúc Allow và disallow. Việc sử dụng disallow là câu lệnh không cho phép bot tìm kiếm truy cập vào một thư mục nhưng kèm với Allow là cho phép truy cập vào một tập tin cụ thể trên thư mục này

Những cú pháp được sử dụng phổ biến nhất trong robots.txt là gì?

- Allow: / - Cho phép bot tìm kiếm truy cập, index tất cả dữ liệu trên trang bao gồm các trang, các thư mục

- Disallow: / - Không có phép truy cập và index toàn bộ dữ liệu trên trang

- Disallow : /abc/ - Không cho phép truy cập một thư mục cụ thể và các file, thư mục con bên trong thư mục đó

- Disallow: /abc.html – Chặn truy cập, index trên một trang cụ thể nào đó

- User – agent: Googlebot – Chặn bot tìm kiếm từ một công cụ tìm kiếm cụ thể nào đó

- User – agent: Googlebot – image – Chặn bot tìm kiếm index dữ liệu hình ảnh trên trang

Cũng liên quan đến vấn đề xây dựng và phát triển website thì các bạn đừng quên rằng hay xây dựng, thiết kế website của mình theo chuẩn W3C. Đây là một quy chuẩn chung giúp tăng tốc độ load trang, trải nghiệm của người dùng trên trang và nhiều yếu tố khác nữa, nó cũng rất có lợi cho Seo. Đối với các bạn chưa biết nhiều về chuẩn thiết kế web W3C thì có thể tham khảo thêm thông tin ở bài viết Chuẩn W3C là gì ? Tại sao bạn nên thiết kế web theo chuẩn W3C? ngay nhé

Sai sót trong quá trình tạo và sử dụng các file robots.txt là gì?

Robots.txt Là Gì

Lỗi phát sinh trong quá trình tạo file robots.txt cần được phát hiện

Kể cả việc các bạn sử dụng lại một file robots.txt từ một ai đó hoặc tự mình tạo ra một file robots.txt riêng cho website của mình thì những vấn đề phát sinh và sai sót chắc chắn là điều không thể tránh khỏi trong quá trình tạo và sử dụng. Thế nên các bạn cần phải lưu ý các vấn đề sau:

- Phân biệt kỹ càng giữa chữ hoa và chữ thường

- Chỉ sử dụng các câu lệnh cần thiết, hạn chế việc sử dụng bổ sung các ký tự không liên quan, không cần thiết

- Đối với câu lệnh các bạn nên sử dụng chúng trên một dòng

- Dư và thiếu khoảng trắng cũng là lỗi thường gặp trong quá trình tạo các file robots.txt

- Các bạn cần phải cẩn thận trong quá trình sử dụng file robots.txt

- Dành thời gian để kiểm tra file để xác định các vấn đề phát sinh kịp thời

Kết luận

Với những thông tin liên quan đến robots.txt được chia sẻ kể trên thì hi vọng các bạn sẽ hiểu và sử dụng tốt file robots.txt hơn, hỗ trợ quản lý và phát triển website một cách hiệu quả hơn. Chúc thành công!!!

Tham gia bình luận

Bạn có những thắc mắc về quảng cáo không biết hỏi ai? Bạn có thể Click vào đăng ký dưới đây!
Chúng tôi sẽ liên hệ lại với bạn để giải đáp những thắc mắc, cũng như tư vấn cho bạn về dịch vụ quảng cáo Online trong ngày!

Đăng ký quảng cáo online
Banner tuyển dụng

Đăng ký quảng cáo SEO

loader
Đăng ký tư vấn

Hỏi Đáp Cùng Chuyên Gia

Các cá nhân, doanh nghiệp, marketer đang sử dụng marketing online để bán hàng và có nhiều thắc mắc nhưng không biết hỏi ai ?

CEO VÕ TUẤN HẢI - Chuyên Gia Marketing

Chuyên Gia Marketing Võ Tuấn Hải

Trên Sóng VTV3, THVL1,THVL2,...

Chuyên gia marketing Võ Tuấn  Hải Trên VTV3

Quảng Cáo Siêu Tốc TUYỂN DỤNG

Tuyển dụng quảng cao siêu tốc 2018

DMV Là Đối Tác Chính Thức Của GOOGLE, CỐC CỐC, ZALO,...

Click Để Xem Huy Hiệu Đối Tác Google

Hỗ trợ khách hàng

Tư Vấn Trong Giờ Hành Chính

0904 512 292 (Ms. Quyên)

028.6656 5252 (Ms. Quyên)

028.667 99 326 (Ms. Thư)

028.667 99 324  (Ms. Thư)

Email: doquyen@dmv.com.vn

--<>--

Hotline:

0987 087 034 - 0938 138 160

(Mr.Tuấn Hải)

Email: baogia@dmvgroup.vn

Bài viết mới