SEOTeknik SEO

Robots.txt Oluşturma ve Bilmeniz Gerekenler

Robots.txt oluşturmak için verilmek istenen talimata göre satırlarda çeşitlilik oluşturulabilmektedir. Tarayıcılar tarafından web sitelerinin nasıl taranacağının belirlenmesi için robots.txt dosyaları oluşturulmaktadır. Komut dosyası olan robots.txt dosyası; SEO çalışmaları için de önemli olmaktadır. Robots.txt dosyasında hataların olması durumunda; web sitesi SEO açısından zarar görebilmektedir. SEO çalışmalarında eksiklikler olan web sitelerinde arama motoru botlarının web sitesini indekslemesinin engellenebilmesi için robots.txt dosyası oluşturulmaktadır. Robots.txt dosyası olmayan web sitelerinin herkese açık bütün sayfaları taranmakta ve dizine eklenmektedir. Bir web sitesinin arama motoru sonuçlarında gözükmesinin istenilmediği bir sayfası olmasa dahi robots.txt dosyasının olması gerekmektedir.

Robots.txt Sözdizimi Nedir?

Robots.txt terimleri aşağıda verilmiştir:

  • User-agent: Tarama talimatının verileceği web tarayıcılarının ifade edildiği satırdır. Robots.txt dosyasının temel bileşenidir. Bu satıra genellikle arama motorları yazılmaktadır.
  • Disallow: Belirli bir URL’nin belirtilen arama motoru için taranmamasını söylemek için kullanılan satırdır. Taranmaması belirtilecek olan her URL için bir disallow satırının girilmesi gerekmektedir.
  • Allow: Sadece user-agent satırına Googlebot yazıldığında kullanılabilecek komuttur. Googlebot’a izin verilmediği durumlarda da allow satırında belirtilen sayfaya veya alt klasöre erişilebilmesini sağlamaktadır.
  • Crawl-delay: Tarayıcıya sayfa içeriğinin yüklenmesinden ya da taramanın başlamasından önce birkaç milisaniye beklenmesi için girilen komuttur. Googlebot’un onaylamadığı bir komut olduğu için tarama hızını ayarlamak isteyenlerin Google Search Console’u tercih etmeleri gerekmektedir.
  • Sitemap: Google, Ask, Bing ve Yahoo için kullanılabilen bir komuttur. URL kullanarak XML site haritasının çağrılabilmesi için bu komut kullanılmaktadır.
  • Clean-param: Yandex tarafından kullanılan bir komuttur. Web sitesinin sayfa adreslerinin içeriklerini etkilemeyen dinamik parametrelerin kullanılacak olması durumunda; bu komut kullanılmalıdır.

Robots.txt Dosyası Oluştururken Kullanılan Komut Bileşenleri Nelerdir?

Robots.txt komut bileşenleri aşağıda sıralanmıştır:

  • Grup içi komut çeşitleri: 4 farklı grup içi komut bileşenleri bulunmaktadır. Bunlar; dizin engelleme/izin verme komutları, tarama gecikmesi belirtme komutları, arama motoru robotu engelleme/izin verme komutları, sayfa engelleme/izin verme komutlarıdır.
  • Grup dışı komut çeşitleri: Site haritasının oluşturulması bu komut bileşenine dahildir.
  • Notlar ve yorumlar: Dosya içerisine eklenmiş olan not ve yorumları kapsamaktadır.

Grup İçi Komut Çeşitlerinin Özellikleri Nelerdir?

Grup içi komutların yazımında dikkatli olunması ve hata yapılmaması gerekmektedir. Kesin ve net ifadelerden oluşan bu komutların var olmayan sayfada veya dizinde olmaması gerekmektedir. Komut içerisinde büyük ve küçük harf ayrımı olmamaktadır. Ancak hedef gösterilecek olan dizin veya URL adı yazılırken büyük ve küçük harfe dikkat edilmesi gerekmektedir. Grup içi komutların bileşenleri aşağıdaki gibidir:

  • Dizin engelleme/izin verme komutları: Web sitesinde bir dizinin taranması istenmiyor ise; bu dizine göre bir komut satırı oluşturularak robots.txt dosyası hazırlanmaktadır.
  • Tarama gecikmesi belirtme komutları: Belirtilen süre kapsamında web sitesinin en fazla oranda taranması ve bu sürenin haricindeki sayfaların taranmamasını sağlamak için oluşturulan komuttur.
  • Arama motoru robotu engelleme/izin verme komutları: İzin verilen arama motorları tarafından tarama yapılmaktadır. İzin verilmemiş arama motorlarının olması halinde; web sitesini tarayamamaktadırlar.
  • Sayfa engelleme/izin verme komutları: Web sitesinde aranması istenmeyen sayfaların olması durumunda; bu sayfalar için oluşturulan komutlara verilen isimdir. Sayfa engellemek için kullanılmaktadır.

Grup Dışı Komut Çeşitleri Nelerdir?

Grup dışı komutların kullanımı oldukça basittir. Sitemap.xml dosyasının yerinin gösterilmesini sağlayan komutlardır. Dosyanın URL’sinin yazılması kullanım için yeterli olmaktadır. Sitemap.xml dosyasının olması durumunda; web sitesi taranabilmektedir ve arama motoru botlarına gerekli bilgileri aktarabilmektedir. Robots.txt dosyası içerisinde sitemap.xml dosyasının olmaması durumunda; bu ilgili web sitesi için bir eksidir.

Robots.txt Dosyasında Notlar ve Yorumlar Nelerdir?

Notlar ve yorumlar kısmına; arama motorlarının dikkate almayacağı bazı bilgiler eklenebilmektedir. Web sitesinin tasarımcısının ve yöneticisinin bilgileri bu bölümde olabilmektedir. Bu bölümdeki bilgiler kullanıcıya iletilmektedir. Yazılacak olan notların başına # işaretinin eklenmesi gerekmektedir. Bu sayede botlar, yazılan notları dikkate almamaktadır.

Robots.txt Dosyası Nasıl Oluşturulur?

Robots.txt oluşturmak için dosyanın içerisindeki iki bölümü bilmek gerekmektedir. User-agent ve disallow olmak üzere iki satır vardır. Aramam botunun isminin user-agent satırına yazılması ve arama botlarının izin durumlarının da disallow satırına eklenmesi gerekmektedir. Verilmek istenen talimata göre satır çeşitliliklerini arttırabilmek mümkündür.

Bir metin belgesinin açılması ve bu belgenin robots.txt olarak isimlendirilmesi gerekmektedir. Metin dosyası oluşturan her program ile robots.txt dosyası kullanılabilmektedir. Not defteri, TextEdit, vi ya da emacs kullanılabilmektedir. User-agent ve disallow değişkenlerinin kullanılması ve istenen komutların eklenmesi gerekmektedir. Robots.txt dosyasının oluşturulabilmesi için hazır programlar da bulunmaktadır. Web sitesi sahibi gerekli bilgi ve donanıma sahip ise; bu dosyayı kendisi de oluşturabilmektedir. Robots.txt dosyası oluşturulurken verilecek komut örneklerinin bazıları şunlardır:

  • Googlebot’un /cms/ dizinini tarama dışı tutabilmesi için user-agent satırına Googlebot ve disallow satırına da /cms/ yazılmalıdır.
  • Bütün tarayıcılarda /cms/ dizininin devre dışı bırakılması için user-agent satırına * ve disallow satırına da /cms/ dizini yazılmalıdır.
  • Bütün tarayıcılarda tüm alanların dizin dışı kalabilmesi için user-agent satırına * ve disallow satırına da / yazılmalıdır.
  • Googlebot’un bir görseli taramasını engellemek için disallow satırına /images/exampleimage.jpg yazılmalıdır.
  • Bir alt sayfanın Googlebot tarafından taranmaması için disallow satırına /examplefile.html yazılmalıdır.

Robots.txt Şablon Kuralları Nelerdir?

Robots.txt şablonlu komutları oluşturabilmek için tanımlı 2 karakter kullanılarak basit seviyede regular expressions hazırlanabilmektedir. * karakteri kullanılarak herhangi bir karakter için komut verilebilmektedir. $ simgesi ile bir URL’nin sonu belirtilebilmektedir. Şablon kuralları ile ilgili örnekler şöyledir:

  • .gif dosyalarını indekslemek için user-agent satırına Googlebot, disallow satırına ise /*.gif$ yazılmalıdır.
  • Sonu .xls ile biten bütün URLlerin engellenebilmesi için disallow satırına /*xls$ yazılmalıdır.
  • Dinamik web sayfalarını bloklamak isteyenlerin disallow satırına /*? Komutunu girmeleri gerekmektedir.
  • Yukarıdaki komutları bütün tarayıcılar için vermek isteyenlerin user-agent satırına * yazmaları gerekmektedir. Googlebot yazmaları durumunda sadece Google arama motoru için geçerli olmaktadır.

Robots TXT

Robots.txt Biçim ve Konum Kuralları Nelerdir?

Robots.txt biçim ve konumu için bilinmesi gerekenler aşağıda açıklanmıştır:

  • txt dosyasını oluşturmak için kelime işlemcilerin kullanılmaması gerekmektedir. Kelime işlemcilerin dosyaları özel bir biçimde kaydetmesinden dolayı tarayıcılarda sorunlara sebebiyet verebilmektedir. Bunun haricinde neredeyse bütün metin düzenleyicilerinin kullanılmasında herhangi bir sakınca olmamaktadır.
  • Dosyanın robots.txt olarak adlandırılması zorunlu olmaktadır.
  • Bir web sitesinde sadece bir adet robots.txt dosyası yer alabilmektedir.
  • txt dosyasının kök dizininde bulunması gerekmektedir. Ancak eğer kök dizinine erişilemiyor ise; web barındırma hizmeti sağlayıcılarına başvurularak izin alınabilmektedir. Meta etiket kullanımı ile alternatif bir engelleme yöntemi de geliştirilebilmektedir.
  • Alt alan adları ve standart olmayan bağlantı noktaları için geçerli robots.txt dosyası tanımlanabilmektedir.

Robots.txt Hakkında Bilmeniz Gerekenler Nelerdir?

Robots.txt için önemli noktalar şöyledir:

  • Bulunabilmesi için robots.txt dosyasını üst düzey bir dizine yerleştirmek gerekmektedir.
  • Dosyanın büyük ve küçük harfe karşı duyarlı olduğunun bilinmesi gerekmektedir. Bu sebeple dosya adı robots.txt olarak yazılmalıdır.
  • User-agentların robots.txt dosyasını görmezden gelme ihtimali bulunmaktadır. Kötü niyetli robotların ve e-posta hırsızları gibi zararlı tarayıcıların gerçekleştirdikleri bir durumdur.
  • txt dosyasını herkes görebilmektedir. Web sitesinin kök domain adının sonuna /robots.txt eklendiğinde var olan robots.txt dosyaları görülebilmektedir. Özel kullanıcı bilgilerini gizlemek için kullanılmamaktadır. Ancak bu dosyalar yine de taranamamaktadır.
  • Kök domain adının altındaki her subdomainin kullandığı robots.txt dosyası farklı olmaktadır.
  • Domain adı ile ilişkili olan bir sitemap’in yerini açıklarken bunu oluşturulmuş olan robots.txt dosyasının altında yapmak mantıklı olmaktadır.
  • UTF-8 olarak kodlanmış bir metin dosyası robots.txt olarak eklenebilmektedir. Diğer karakter kümelerinin kullanılmasına izin verilmemektedir.
  • txt dosyalarının birden fazla gruptan oluşmasında herhangi bir sakınca yoktur.
  • Satır başına bir yönerge eklenecek şekilde her grubun birden fazla kural ve yönergeden oluşabilmesi mümkündür.
  • Her grup içerisinde kuralın kim için geçerli olduğu, aracının erişebileceği dizin veya dosyalar, aracının erişemeyeceği dizin ya da dosyalar yer almaktadır.
  • Grupların işlenmesi, yukarıdan aşağıda doğru olmaktadır. Bir kural grubu ile eşleşmekte ve kullanıcı aracısıyla eşleşen de ilk ve detaylı kural olarak kabul edilmektedir.

Robots.txt Dosyasının Varlığı Nasıl Kontrol Edilir?

Robots.txt dosyasını kontrol etmek için iki yöntem bulunmaktadır. Google Search Console kullanılabileceği gibi Google aramada kullanılan Google’ın açık kaynak robots.txt kitaplığı da kullanılabilmektedir. Açık kaynak kitaplığı ile kontrol edilmek istenmesi durumunda; kök domain adının yazılması ve sonrasında URL’nin sonuna /robots.txt eklenmesi gerekmektedir. Ekrana .txt dosyası gelmez ise; oluşturulmuş aktif bir robots.txt dosyası bulunmamaktadır. Robots.txt dosyası olup olmadığından emin olmayanlar, bu şekilde kontrol edebilmektedirler.

Robots.txt Dosyasındaki Hatalar Nasıl Düzeltilir?

Robots.txt hatalarını düzeltmek için öncelikle Google Search Console’daki test aracının çalıştırılması gerekmektedir. Test aracına robots.txt dosyasının URL adresinin girilmesi gerekmektedir. Onaylandı ve engellendi olmak üzere iki adet ibare görülebilmektedir. Onaylandı ibaresinin olması durumunda; web sitesindeki alanların dizine eklenmesi mümkündür. Engellendi ibaresi var ise; web sitesindeki alanlar dizine eklenmemektedir.

Robots.txt dosyasında hata tespit edilmiş olması durumunda; dosyanın gözden geçirilmesi ve komutların düzenlenmesi gerekmektedir. Ardından test aracı tekrar çalıştırılarak hatanın düzeltilip düzeltilmediği kontrol edilmelidir.

Güncellenen Robots.txt Dosyası Google’a Nasıl Gönderilir?

Robots.txt dosyasını Google’a göndermek için robots.txt test aracının kullanılması gerekmektedir. Test aracında gönder bölümü bulunmaktadır. Gönder işlevi sayesinde dosya hızlı taranabilmekte ve dizine eklenebilmektedir. Düzenleyicinin sağ alt köşesindeki gönder butonuna tıklandığında iletişim kutusu açılmaktadır. Güncellenmiş olan robots.txt dosyasının indirilebilmesi için indir butonuna tıklanması gerekmektedir. Kök dizinine yeni robots.txt dosyası yüklenmelidir. Google’ın taramasını istediği sürümün doğrulanabilmesi için yayınlanan sürümü doğrula butonuna tıklanmalıdır. Değişiklikler konusunda Google’ın bilgilenmesinin sağlanabilmesi için ise; yayınlanan sürümü gönder butonuna tıklanması gerekmektedir. Google tarafından başarı ile taranıp taranmadığının kontrol edilmesi de sonrasında yapılabilmektedir.

Robots.txt Dosyası Web Sitesinde Nerede Bulunur?

Robots.txt dosyasını bulabilmek için ana dizine veya kök domaine bakılmaktadır. Arama motorları ve Facebot gibi tarayıcılar eğer ana dizinde veya kök domainde robots.txt dosyasını bulamaz iseler; web sitesinde robots.txt dosyasının olmadığını kabul etmektedirler. Bu sebeple web sitesinin tamamını taramaya devam etmektedirler. Bu sebeple robots.txt dosyasının eklendiği yere dikkat edilmelidir.

Robots.txt Dosyasının Çalışma Prensibi Nedir?

Robots.txt dosyasının aktifleşebilmesi için arama motoru kullanılmalıdır. Arama motorları içerikleri keşfedebilmek için webi taramaktadırlar ve taranan sonuçların arama yapan kişiye hizmet edebilmesi için tarama sonuçlarını dizine eklemektedirler. Örümcek olarak da isimlendirilen tarayıcılar tarama işlemini yapmadan önce robots.txt dosyasını aramaktadırlar. Sayfayı taramadan önce bu dosya okunduğu için dosyada belirtilen şekilde tarama yapılmaktadır. Bu sayede gereksiz tarama yapılmasının önüne geçilebilmektedir. Robots.txt dosyasının olmaması veya dosyada kısıtlama kuralının bulunmaması halinde; tarayıcı web sitesindeki bütün sayfaları tarayacaktır.

Robots.txt Dosyasına Neden İhtiyaç Duyulur?

Robots.txt dosyasının gerekliliğine bakıldığında; web sitenin tarayıcı erişimlerini düzenlediği için robots.txt dosyasına ihtiyaç duyulmaktadır. Kullanışlı olduğu durumlar ise aşağıda belirtilmiştir:

  • Kopya içeriklerin SERPlerde görünmemesi için robots.txt dosyası kullanılmaktadır. Meta robotların daha etkili olduğu bir durumdur.
  • Web sitesinin istenen bölümlerinin gizli tutulabilmesini mümkün kılmaktadır.
  • Dahili arama sonuçlarının listelendiği sayfaların kamuya açık SERPlerde gösterilmemesi için robots.txt dosyası oluşturulmaktadır.
  • Site haritalarının konumlarının belirtilebilmesini sağlamaktadır.
  • Web sitesindeki bir dosyanın arama motorunda endekslenmemesi için komut oluşturulabilmektedir.
  • Tarama gecikmesinin oluşmasını sağlamaktadır. Tarama gecikmesine ihtiyaç duyulma sebebi ise; tarayıcıların aynı anda çok sayıda içerik yüklemesi sonucunda sunuculara aşırı yüklenme olmasını engellemektir.

Web Sitesinin Taranmasının Geçici Olarak Askıya Alınması İçin Ne Yapılmalıdır?

Sitenin taranmasının askıya alınması için robots.txt dosyası dahil olmak üzere bütün URLler için 503 http sonu kodu döndürülmektedir. Robots.txt dosyasının yeniden aktif olmasına kadar geçen sürede belirli periyotlarda yeniden denenmektedir. Web sitesinin taranmasının engellenmesi için robots.txt dosyasının değiştirilmesi önerilen bir eylem değildir.

403 HTTP sonuç kodu; 4xx HTTP sonuç kodlarının hepsi gibi robots.txt dosyasının varlığının yok sayılmasına neden olmaktadır. Dolayısı ile tarayıcılar engellenen herhangi bir sayfa olmadığını varsayarak, web sitesinin bütün sayfalarını taramaktadırlar. Web sitesinin taranması engellenmek isteniyor ise; disallow yönergesi kullanılmalıdır ve bu yönerge 200 ’’Tamam’’ HTTP sonuç kodu ile beraber döndürülmelidir.

Birden Çok Web Sitesi İçin Aynı Robots.txt Dosyası Kullanılabilir Mi?

Birden çok sitede aynı robots.txt dosyasının kullanımı mümkündür. Sitemap haricindeki yönergeler için tam URL değil de göreli yolların kullanılması gerekmektedir.

Robots.txt Dosyası İle Robots Meta Etiketi Birbirlerinin Alternatifi Midir?

Robots.txt dosyası ve robots meta etiketinin farkına bakıldığında; erişilecek olan sayfaların kontrolü robots.txt dosyasındadır. Sayfaların dizine eklenip eklenmeyeceğinin kontrolü ise; robots meta etiketindedir. Sayfanın taranması ile ilgili olan problemler robots.txt dosyası ile ilgilidir. Ancka sayfanın arama sonuçlarında gösterilip gösterilmemesi ile ilgili durumlar; robots meta etiketi ile ilgilidir.

Engellenen Gizli Klasörün Başkaları Tarafından Okunması Engellenebilir Mi?

Robots.txt dosyasında engellenen gizli klasörü diğer kullanıcıların okuması mümkündür. İçerik klasörlerinin ve dosya isimlerinin herkes tarafından görünmemesi gerekiyor ise; engelleme işleminin robots.txt dosyası içerisinde yapılmaması gerekmektedir.

Allow Yönergesi Taramaya İzin Vermek İçin Mi Kullanılır?

Taramaya izin vermek için allow komutu kullanılması gerekmemektedir. Robots.txt dosyasındaki disallow yönergelerinin geçerli olmaması için allow satırı eklenmektedir. Bir sayfanın taranması için robots.txt dosyasına allow satırının eklenmesi gereksizdir.

Robots.txt Dosyasında Hata veya Destekleyen Yönerge Olması Durumunda Ne Yapılmalıdır?

Robots.txt dosyasında hata olması durumunda; hatalar eğer küçük ise web tarayıcısı bundan etkilenmemektedir. Bir yönergede hata olması veya yönergenin desteklenmemesi durumunda; tarayıcı ilgili yönergeyi yok sayabilmektedir. Google’ın robots.txt dosyasını yorumlayabileceği kadar dosyanın hatasız olması gerekmektedir. Web site sahibinin problemin farkında olması durumunda; bu hataları gidermesi gerekmektedir.

Disallow Yönergesi Kullanılan Sayfa Google Arama Sonuçlarından Da Kaybolur Mu?

Disallow yönergesi ile taranması engellenen sayfanın arama sonuçlarında kaybolması gibi bir durum garanti edilememektedir. Robots.txt dosyasında disallow yönergesi ile belirtilen sayfayı Google’ın taraması engellenmektedir. İlgili sayfa Google’ın dizininden de kaldırılmaktadır. Ancak harici bilgiler ışığında Google’ın sayfanın alakalı olduğunu düşünerek sayfayı arama sonuçlarına ekleme ihtimali bulunmaktadır.

İlgili Makaleler

16 Yorum

  1. Robots.txt ve .htaccess oluşturmayı siteme gelen spam trafikleri engellemek için öğrenmiştim.
    Yazınız çok faydalı olmuş ellerinize sağlık. 🙂

  2. Robots.txt dosyasının içeriğini düzgün oluşturursak sitemiz için çok güzel koruma işlevi sağlıyor.

  3. Robots.txt her ne kadar önemsiz gibi gözükse de aslında sitenin temel güvenliği buradan geçiyor

  4. Çağan Bey ellerinize sağlık konu çok güzel olmuş, sizden robots.txt ve .htaccess konusunda da örnekler içeren bir makale bekleriz 🙂

  5. SEO için bir önemi olduğunu açıkçası bilmiyorum sayenizde öğrendim Çağan hocam teşekkürler

Bayram Işık için bir yanıt yazın Yanıtı iptal et

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Göz Atın
Kapalı