Kiến Thức Về SEO GOOGLE
Kiến Thức Về SEO GOOGLE

Robots.txt Là Gì? Hướng Dẫn Sử Dụng Robots.txt Hiệu Quả Nhất

By Võ Tuấn Hải (Thứ hai, 11 Tháng Mười Hai, 2017) - Lượt xem : 808

Đối với việc xây dựng và phát triển website từ các nền tảng như Wordpress, Drupal, Joomla hay Nukeviet các bạn sẽ thường nhìn thấy một file có tên là robots.txt và vị trí xuất hiện của nó là trong thư mục root của host. Vẫn thường xuyên những file robots.txt này nhưng thực tế là nhiều bạn chưa quan tâm và cũng chưa bao giờ tự đặt câu hỏi rằng file robots.txt này là gì và vai trò thực sự của nó đối với một website là như thế nào?

Để giải đáp những thắc mắc liên quan đến thuật ngữ robots.txt này thì trong bài viết ngày hôm này Quảng Cáo Siêu Tốc sẻ chia sẻ đến các bạn cụ thể các thông tin liên quan đến robots.txt và cùng với đó là những hướng dẫn sử dụng cụ thể để các bạn phát huy tối đa vai trò của file robots.txt này đến tất cả các bạn, cùng tìm hiểu nhé

Robots.txt Là Gì

File robots.txt giúp các bạn quản lý, phát triển website tốt hơn

File robots.txt là gì?

Robots.txt chính là một dạng text đặc biệt, nó cũng không phải là tập tin html, cũng không phải là một tập tin nào khác. Vai trò chính của robots.txt đó chính là giúp các webmaster có thể linh hoạt quản lý các nội dung trên trang của mình mà cụ thể là cho phép hoặc không cho phép bot tìm kiếm truy cập, index dữ liệu trên một trang, một khu vực nào đó trên website

Các bạn có thể tưởng tượng rằng website của các bạn là một cơ quan nào đó và robots.txt chính là bao gồm những nội quy của cơ quan đó. Những nội quy trong robots.txt sẽ quyết định đến việc người khác (bot tìm kiếm) được phép làm những gì, những gì không được phép làm, được phép tham quan những bộ phận nào, những bộ phận nào thì không . . .

Đối với các file robots.txt thì việc cài đặt và cấu hình cho chúng là hết sức cần thiết vì cách là này có thể giúp các bạn bảo vệ được các thông tin mật trên website, không cho phép bot tìm kiếm truy cập, index và hiển thị những nội dung này trên các công cụ tìm kiếm. Thêm vào đó thì file trên các website còn đóng vai trò khá tích cực trong mục tiêu tối ưu seo website, đưa website lên một thứ hạng tìm kiếm tốt

File robots.txt hoạt động như thế nào?

File hoạt động dựa trên những các thông tin mà các webmaster sẽ cài đặt trên file. Bao gồm:

- User-agent: Cài đặt tên công cụ tìm kiếm mà các bạn đang muốn điều khiển, ở đây có thể là Google, Yahoo hay Bing hoặc cũng có thể là tất cả các công cụ tìm kiếm

- Disallow: Khoanh vùng những khu vực trên website mà các bạn cho phép bot tìm kiếm truy cập và index dữ liệu

- Robots.txt hiện tại đang hoạt động dựa trên thông tin công cụ tìm kiếm được khai báo và một lên user – agent đi cùng

- Crawl-Delay: Thời gian mà các bot tìm kiếm phải đợi để truy cập vào các phần tiếp theo trên trang web, hạn chế được tình trạng các công cụ tìm kiếm này load sever một cách không kiểm soát

- Dấu # được đặt trước những dòng có comment

- Cùng với đó là những tham số liên quan khác trong file robots.txt

Hướng dẫn cách tạo file robots.txt là gì?

File robots.txt nằm ở thư mục gốc đối với tất cả các website và các bạn có thể kiểm tra xem website của mình đã có thư mục này hay chưa, nếu chưa các bạn cần tự tạo ra chúng. Để tạo các file này các bạn có thể sử dụng nhiều công cụ khác nhau mà tốt nhất vẫn sẽ là notepad. Đối với trường hợp các bạn xây dựng website với nền tảng là wordpress thì file robots.txt của website sẽ có dạng như sau:

Với cấu hình file robots.txt dạng trên thì chúng ta có ví dụ như sau:

- User-agent: * : cho phép bất kỳ công cụ tìm kiếm nào cũng có thể truy cập, index dữ liệu trên trang

- Disallow: /administrator/ : Không cho phép bot tìm kiếm truy cập vào trang admin của website

- Disallow: /images/anh.JPG : Không cho phép bot tìm kiếm index dữ liệu ảnh có tên anh. Jpg

- Disallow: / : Không cho phép bot tìm kiếm truy cập vào toàn bộ trang web

Các bạn có thể tham khảo thêm về:
 
 
Seo Realtime Là Gì ? Kỹ Thuật Seo Realtime Hiệu Quả Nhất

Hướng dẫn cách sử dụng file robots.txt là gì?

Quảng Cáo Siêu Tốc sẽ hướng dẫn các bạn cài đặt và cấu hình file robots.txt với 6 trường hợp sau:

Trường hợp 1: chặn không cho bot tìm kiếm truy cập vào một thư mục cụ thể

Robots.txt Là Gì

Điều này cũng đồng nghĩa rằng các bạn cho phép bot tìm kiếm truy cập, index dữ liệu trên website nhưng trừ 2 thư mục bao gồm wp – admin và wp – includes

Trường hợp 2: Không cho phép bot tìm kiếm truy cập, index trên bất cứ thư mục nào

 Robots.txt Là Gì

Điều này cũng có nghĩa rằng các bạn đang cấm hoàn toàn việc dữ liệu trên trang có thể rò rỉ trên các công cụ tìm kiếm. Như thế là các bạn không chơi với SE và cũng không quan tâm đến cách làm seo

Trường hợp 3: Không có phép bot tìm kiếm index dữ liệu trên một trang cụ thể nào đó

 Robots.txt Là Gì

Trường hợp 4: Không cho phép một công cụ tìm kiếm cụ thể nào đó truy cập website

Robots.txt Là Gì

Điều này có nghĩa rằng Spambot sẽ không có quyền truy cập và index dữ liệu trên trang trong khi đó thì những bot tìm kiếm từ các công cụ khác lại có được khả năng này nhưng cũng sẽ bị hạn chế và không có khả năng truy cập trên 2 thư mục đó là wp – admin và wp – includes

Trường hợp 5: Không cho phép index dữ liệu hình ảnh đối với một công cụ tìm kiếm bất kỳ

 Robots.txt Là Gì

Ở đây các bạn có thể chặn không index dữ liệu hình ảnh có tên hinh.png và các bạn có thể chặn toàn bộ các công cụ tìm kiếm hoặc một vài công cụ tìm kiế cụ thể

Trường hợp 6: Chỉ cho phép index dữ liệu 1 file trên một thư mục cụ thể

 Robots.txt Là Gì

Ở đây các bạn sẽ sử dụng cùng lúc Allow và disallow. Việc sử dụng disallow là câu lệnh không cho phép bot tìm kiếm truy cập vào một thư  mục nhưng kèm với Allow là cho phép truy cập vào một tập tin cụ thể trên thư mục này

Những cú pháp được sử dụng phổ biến nhất trong robots.txt là gì?

- Allow: / - Cho phép bot tìm kiếm truy cập, index tất cả dữ liệu trên trang bao gồm các trang, các thư mục

- Disallow: / - Không có phép truy cập và index toàn bộ dữ liệu trên trang

- Disallow : /abc/ - Không cho phép truy cập một thư mục cụ thể và các file, thư mục con bên trong thư mục đó

- Disallow: /abc.html – Chặn truy cập, index trên một trang cụ thể nào đó

- User – agent: Googlebot – Chặn bot tìm kiếm từ một công cụ tìm kiếm cụ thể nào đó

- User – agent: Googlebot – image – Chặn bot tìm kiếm index dữ liệu hình ảnh trên trang

Cũng liên quan đến vấn đề xây dựng và phát triển website thì các bạn đừng quên rằng hay xây dựng, thiết kế website của mình theo chuẩn W3C. Đây là một quy chuẩn chung giúp tăng tốc độ load trang, trải nghiệm của người dùng trên trang và nhiều yếu tố khác nữa, nó cũng rất có lợi cho Seo. Đối với các bạn chưa biết nhiều về chuẩn thiết kế web W3C thì có thể tham khảo thêm thông tin ở bài viết Chuẩn W3C là gì ? Tại sao bạn nên thiết kế web theo chuẩn W3C? ngay nhé

Sai sót trong quá trình tạo và sử dụng các file robots.txt là gì?

Robots.txt Là Gì

Lỗi phát sinh trong quá trình tạo file robots.txt cần được phát hiện

Kể cả việc các bạn sử dụng lại một file robots.txt từ một ai đó hoặc tự mình tạo ra một file robots.txt riêng cho website của mình thì những vấn đề phát sinh và sai sót chắc chắn là điều không thể tránh khỏi trong quá trình tạo và sử dụng. Thế nên các bạn cần phải lưu ý các vấn đề sau:

- Phân biệt kỹ càng giữa chữ hoa và chữ thường

- Chỉ sử dụng các câu lệnh cần thiết, hạn chế việc sử dụng bổ sung các ký tự không liên quan, không cần thiết

- Đối với câu lệnh các bạn nên sử dụng chúng trên một dòng

- Dư và thiếu khoảng trắng cũng là lỗi thường gặp trong quá trình tạo các file robots.txt

- Các bạn cần phải cẩn thận trong quá trình sử dụng file robots.txt

- Dành thời gian để kiểm tra file để xác định các vấn đề phát sinh kịp thời

 Kết luận

Với những thông tin liên quan đến robots.txt được chia sẻ kể trên thì hi vọng các bạn sẽ hiểu và sử dụng tốt file robots.txt hơn, hỗ trợ quản lý và phát triển website một cách hiệu quả hơn. Chúc thành công!!!

Bạn có những thắc mắc về quảng cáo không biết hỏi ai? Bạn có thể Click vào đăng ký dưới đây!
Quảng Cáo Siêu Tốc sẽ liên hệ lại với bạn để giải đáp những thắc mắc, cũng như tư vấn cho bạn về dịch vụ quảng cáo Online ngay trong ngày!

Đăng ký quảng cáo online
Bài viết liên quan

Niche Site là gì ? Cách tìm Niche Site SEO chất lượng nhất 2018

Niche Site là gì ? Cách tìm Niche Site SEO chất lượng nhất 2018
Trong trường hợp vẫn chưa thực sự hình dung được niche là gì, thì tôi khuyên bạn nên đọc bài post này thật kĩ trước khi nghĩ đến việc kiếm tiền từ niche site hoặc bất kì khái niệm chuyên sâu nào khác trong lĩnh vực marketing (vốn đầy những khái niệm và phương pháp) này. Nỗ lực là yếu tố quyết định một nửa chiến thắng trong trận chiến, và kiến thức là một trong những vũ khí quan trọng nhất mà bạn ...

3 cách Check Backlink Website đối thủ đơn giản nhất

3 cách Check Backlink Website đối thủ đơn giản nhất
Ngay cả khi Google không chính thức thừa nhận, thì bản thân SEOer vẫn có thể chắc chắc điều đó. Link là nền tảng gốc của thuật toán PageRank của Google, và trên thực tế, tất cả những ai từng làm SEO đều thấy được mối quan hệ tỉ lệ thuận giữa liên kết và thứ hạng tốt trên SERP. Nhưng, điều đó đồng nghĩa với việc đối thủ sở hữu hàng chục nghìn backlink là một tin không tốt chút nào, phải không?

AMP HTML Là Gì ? AMP Sẽ Là Chuẩn Sắp Xếp Thứ Hạng Website Trên Di Động Trong Tương Lai

AMP HTML Là Gì ? AMP Sẽ Là Chuẩn Sắp Xếp Thứ Hạng Website Trên Di Động Trong Tương Lai
AMP (viết tắt của Accelerated Mobile Pages), một chương trình HTML mã nguồn mở, được thiết kế siêu nhẹ được tạo ra để xây dựng website có hiệu suất hoạt động cực cao, cải thiện thời gian load trang gấp nhiều lần, được Google hỗ trợ nhằm tạo ra một “better, faster mobile internet” (dịch vụ mạng di động nhanh hơn, hiệu quả hơn). Về cơ bản, có thể hiểu AMP là dạng HTML rút gọn, tinh giản nhất có thể  

Google Mobile First Index Là Gì ? DÙNG NGAY Nếu Muốn Từ Khóa Lên TOP

Google Mobile First Index Là Gì ? DÙNG NGAY Nếu Muốn Từ Khóa Lên TOP
Điều này đồng nghĩa rằng các truy vấn tìm kiếm của người dùng dù trên di động hay máy tính sẽ đều trả về một kết quả duy nhất mà Google đã index và kết quả đó chính là kết quả được index trên phiên bản máy tính. Nhiệm vụ của Google vẫn luôn là tìm kiếm, xác định và trả về các kết quả phù hợp nhất đối với nhu cầu tìm kiếm theo từng từ khóa của người dùng

15 Mẹo Seo Hiệu Quả Để Triển Khai Thành Công Với Các Dự Án Seo

15 Mẹo Seo Hiệu Quả Để Triển Khai Thành Công Với Các Dự Án Seo
 Với sự xuất hiện của Google RankBrain thì việc của các bạn lúc này là cần có sự điều chỉnh về nghiên cứu từ khóa của mình so với trước đây, Google hiện tại thông minh hơn rất nhiều so với trước, nó hoàn toàn có thể hiểu sâu về mặt nội dung, các từ khóa được sử dụng, tối ưu trên các trang thế nên khâu nghiên cứu từ khóa sẽ cần phải được tối ưu hơn nữa. Sau đây sẽ là 15 mẹo ...
Tham gia bình luận
Đánh giá trung bình
0/5

"Lấy Khách Hàng Làm Trọng Tâm, Đặt Lợi Ích Và Mong Muốn Của Khách Hàng Lên Hàng Đầu"

Quảng Cáo Siêu Tốc luôn luôn trân trọng từng ý kiến của bạn. Nếu bạn có thắc mắc cần giải đáp, hãy để lại bình luận bên dưới, chúng tôi sẽ trả lời bạn trong thời gian sớm nhất

Xem bình luận khác
Thu gọn bình luận

DỊCH VỤ SEO - VÕ TUẤN HẢI

Hotline 1: 0904 512 292

 

Hotline 2: 028.66 565 252

 

Các cá nhân, doanh nghiệp, marketer đang sử dụng marketing online để bán hàng và có nhiều thắc mắc nhưng không biết hỏi ai ?

Bài viết liên quan
Giải pháp MA TRẬN MARKETING BAO VÂY
0904 512 292
Gọi Quảng Cáo Siêu TốcGọi Quảng cáo siêu tốc Chát Facebook Với Quảng Cáo Siêu TốcFacebook Messenger Chát Zalo Với Quảng Cáo Siêu TốcChat Zalo Yêu cầu Quảng Cáo Siêu Tốc gọi lạiYêu cầu gọi lại ! Gửi Email Với Quảng Cáo Siêu TốcGửi Email

Xin vui lòng điền số điện thoại của bạn
và chúng tôi gọi lại cho bạn sớm