Cách Tạo Tệp Robots.txt Cho Trang Web

atozsolutions

Thành Viên
Robots.txt là gì? Robots.txt là một tệp tin văn bản nằm bên trong thư mục gốc của website. Nó cung cấp hướng dẫn để các công cụ tìm kiếm thu thập thông tin về trang của bạn nhằm mục đích lập chỉ mục. Trong *** viết này, chúng tôi sẽ chia sẻ đến bạn thông tin chi tiết về file Robots.txt là gì? Cách tạo file Robots.txt.

File robots.txt là gì?​

File robots.txt là một tập tin văn bản đơn giản có dạng file .txt. Đây là một phần của Robots Exclusion Protocol (REP) chứa một nhóm những tiêu chuẩn Web quy định cách Robot Web (hay Robot của các công cụ tìm kiếm) thu thập dữ liệu trên trang, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

File robots.txt là gì?
File robots.txt là gì?
REP còn bao gồm những lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn những công cụ của Google xử lí các liên kết. (ví dụ: Follow hoặc Nofollow link).

Trên thực tế, tạo robots.txt WordPress giúp nhà quản trị trang web có thể linh hoạt, chủ động hơn trong việc cho phép hay không cho những con bot của công cụ Google Index một số phần nào đó trong trang của mình.

Cú pháp của file robots.txt​

Các cú pháp được xem là ngôn ngữ riêng của những tập tin robots.txt. Có 5 thuật ngữ được sử dụng phổ trong một file robots.txt. Bao gồm:

  • User-agent: Phần này là tên của những trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được dùng nhằm mục đích thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng cho 1 dòng Disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hay thư mục con. Mặc dù những trang hay thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng nó cần phải chờ bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot của Google không thừa nhận lệnh này. Bạn cần phải cài đặt tốc độ thu thập dữ liệu trên Google Search Console.
  • Sitemap: Được dùng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi những công cụ như: Google, Ask, Bing và Yahoo.

Tại sao bạn cần phải tạo file robots.txt?​

Việc tạo robots.txt cho trang web giúp quản trị viên có thể kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Điều này vô cùng nguy hiểm nếu các bạn vô tình sai một vài thao tác nào khiến cho Googlebot không thể index nội dung trên trang của bạn. Tuy nhiên, việc tạo tệp robots.txt vẫn thật sự hữu ích bởi một số lí do:

Vai trò của robots.txt
Vai trò của robots.txt
  • Ngăn chặn tình trạng trùng lặp nội dung (Duplicate Content) xuất hiện trong website (lưu ý rằng những Robot Meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số dữ liệu trên trang ở chế độ riêng tư
  • Giữ những trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của Sitemap
  • Ngăn những công cụ tìm kiếm tiến hành Index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
  • Sử dụng lệnh Crawl-delay để tiến hành cài đặt thời gian. Việc này giúp ngăn máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

Một số điểm hạn chế của file robots.txt​

Một số trình duyệt tìm kiếm không hỗ trợ các lệnh trong tệp robots.txt​

Không phải công cụ tìm kiếm nào cũng hỗ trợ các lệnh được đề cập trong file robots.txt. Chính vì vậy, cách tốt nhất để bảo mật dữ liệu đó là cài mật khẩu cho các tệp riêng tư trên máy chủ.

Mỗi trình dữ liệu có cú pháp phân tích dữ liệu hoàn toàn khác nhau​

Thông thường đối với những trình dữ liệu uy tín sẽ tuân theo quy chuẩn của các lệnh trong tệp robots.txt. Tuy nhiên, mỗi trình tìm kiếm sẽ có những cách giải trình dữ liệu hoàn toàn khác nhau. Một số trình sẽ không thể hiểu được câu lệnh được đề cập ở tệp robots.txt. Do đó, các web developers cần phải nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên website.

Một số điểm hạn chế của file robots.txt
Một số điểm hạn chế của file robots.txt

Bị tệp robots.txt chặn nhưng công cụ Google vẫn có thể index​

Cho dù trước đó bạn đã tiến hành chặn một URL trên website nhưng URL đó vẫn còn xuất hiện thì lúc này Google vẫn tiến hành Crawl và index cho URL đó của bạn.

Bạn nên xóa URL đó trên trang web nếu nội dung bên trong không quá quan trọng nhằm bảo mật cao nhất. Bởi vì nội dung trong URL này vẫn có thể xuất hiện khi người dùng tìm kiếm chúng trên Google.

File robots.txt nằm ở đâu trên cùng một trang web?​

Khi bạn tạo trang web bằng nền tảng WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.

Vị trí của file robots.txt
Vị trí của file robots.txt
Ví dụ, nếu site của bạn đặt trong thư mục gốc của địa chỉ là atozsolutions.vn. Bạn có thể truy cập tệp robots.txt ở đường dẫn atozsolutions.vn/robots.txt, kết quả như sau:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Hãy nhớ rằng đây là một tập tin ảo, được WordPress tự động tạo khi cài đặt và không thể chỉnh sửa (mặc dù nó vẫn hoạt động). Thông thường, tập tin robots.txt mặc định của WordPress được đặt trong thư mục gốc, thường là public_html hoặc www (hoặc tên miền website). Để tạo một tập tin robots.txt riêng cho trang web của bạn, bạn cần tạo một tập tin mới để thay thế tập tin cũ trong thư mục gốc đó.

3 cách tạo file robots.txt WordPress đơn giản​

Trên thực tế, việc tạo ra file robots.txt WordPress giúp cho các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hoặc không cho các con bot của công cụ Google index một số phần nào đó trong trang của mình.

Nếu sau khi kiểm tra, bạn cảm thấy website của mình không có tệp robots.txt hoặc đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Bên dưới là 3 cách để bạn có thể tự tạo robots.txt cho WordPress:

Cách 1: Sử dụng Yoast SEO​

  • Bước 1: Đầu tiên, bạn đăng nhập vào trang quản trị web của bạn trên WordPress.
  • Bước 2: Lựa chọn mục SEO > Chọn Tools.
  • Bước 3: Chọn File editor.
Như vậy, bạn sẽ thấy được mục robots.txt.htaccess file. Đây là nơi mà bạn có thể tạo file robots.txt.

Cách 2: Tạo bằng bộ Plugin All in One SEO​

Bạn có thể dùng bộ Plugin All in One SEO để tạo ra một file robots.txt WordPress. Đây cũng là một plugin tiện ích cho WordPress đơn giản và nhanh chóng.

3 cách tạo file robots.txt WordPress đơn giản
3 cách tạo file robots.txt WordPress đơn giản
Để tạo file robots.txt WordPress, bạn tiến hành thực hiện theo một số bước sau:

  • Bước 1: Tiến hành truy cập giao diện chính của Plugin All in One SEO Pack. Nếu các bạn chưa có bộ Plugin, hãy tải về TẠI ĐÂY.
  • Bước 2: Lựa chọn All in One SEO > Chọn Feature Manager > Nhấp vào Activate cho mục Robots.txt.
  • Bước 3: Tạo lập và tiến hành điều chỉnh file robots.txt WordPress cho phù hợp với trang của bạn.

Cách 3: Tạo rồi tải file robots.txt qua FTP​

Nếu các bạn không muốn dùng plugin để tạo file robots.txt WordPress thì có thể tự tạo tệp robots.txt thủ công. Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi tiến hành upload file robots.txt thông qua FTP, bạn có thể thực hiện theo những bước sau đây:

  • Bước 1: Tiến hành Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.
  • Bước 2: Mở FTP > Lựa chọn thư mục public_html > Chọn file robots.txt > Chọn Upload.

Làm thế nào để kiểm tra website đã có file robots.txt không?​

Nếu các bạn vẫn băn khoăn và chưa biết trang web của mình đã có file robots.txt hay chưa thì vẫn có thể kiểm tra. Hãy nhập Root Domain của bạn, sau đó thêm đuôi /robots.txt vào cuối URL. Nếu các bạn không thấy xuất hiện trang .txt thì chắc chắn website của bạn chưa được tạo robots.txt cho WordPress.

Ví dụ: Nhập Root Domain > chèn /robots.txt vào cuối > Nhấn Enter. Và đợi kết quả là biết ngay nhé!

 

Cài Đặt Win Và Phần Mềm Máy Tính Online

Danh sách các Website diễn đàn rao vặt

Top