Robots.txt Nedir? Nasıl Çalışır, Kullanım Alanları ve SEO Etkisi

Robots.txt, web sitesinin kök dizinine konulan ve arama motoru botlarını (crawler) yönlendiren metin dosyasıdır. Google, Bing, Yandex gibi arama motorlarının hangi sayfaları tarayabileceğini, hangi kaynaklara erişebileceğini kontrol etmek için kullanılır. SEO stratejisinin temel bileşenidir.

4 dk okuma
Robots.txt

Robots.txt, web sitesinin kök dizinine (example.com/robots.txt) yerleştirilen metin dosyasıdır ve arama motoru botlarına (crawler) hangi sayfaları tarayabileceklerini, hangi kaynakları indeksleyebileceklerini söyleyen yönergeleri içerir. Bu dosya, sitenizin gizli sayfalarını korumak, önemli sayfaları crawl bütçesine göre önceliklendirmek ve arama motoru kaynaklarını verimli kullanmak için tasarlanmıştır. Robots.txt, SEO stratejisinin temel taşlarından biridir ve doğru kullanıldığında sitenizin arama motorlarında daha etkili indekslenmesini sağlar.

Robots.txt Nasıl Çalışır?

Arama motoru botları (Google Googlebot, Bing Bingbot vb.) bir sitenizi taramaya başlamadan önce ilk olarak robots.txt dosyasını arar. Bu dosyada tanımlanan kuralları okur ve tarama işlemini bu yönergelere göre yapılandırır.

Çalışma süreci şu şekildedir:

  • Dosya Arama: Bot, domain'in kök dizinindeki robots.txt dosyasını (example.com/robots.txt) çeker
  • User-Agent Eşleştirme: Dosyadaki kural setlerinden kendisine ait olanı bulur (örn. Googlebot, Bingbot)
  • Disallow/Allow Kontrol: Engellenen (disallow) ve izin verilen (allow) yolları belirler
  • Crawl-delay Uygulaması: Varsa sitedeki yük kontrol edilmesi için sayfa taramaları arasına gecikme ekler
  • Sitemap Talimatı: Sitemap dosyasının konumunu öğrenirse öncelikle buradaki URL'leri tarar
  • Tarama Başlangıcı: Tüm kuralları uyguladıktan sonra sitenizin izin verilen sayfalarını tarar

Önemli not: Robots.txt dosyası tarama (crawl) kontrol eder, indeksleme kontrol etmez. Eğer bir sayfayı robots.txt'te disallow ederseniz, bot o sayfaya erişmez ama dış linkler aracılığıyla sayfa başka sitelerden indekslenmiş olabilir. Indeksleme kontrolü için meta robots etiketi veya X-Robots-Tag başlığı kullanılmalıdır.

Robots.txt Söz Dizimine Örnekler

Temel bir robots.txt dosyası şu şekildedir:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Crawl-delay: 1
Sitemap: https://example.com/sitemap.xml

Bu örneğin anlamı:

  • User-agent: * — Tüm botlara uygulanır
  • Disallow: /admin/ — Admin klasörü taranmayacak
  • Disallow: /private/ — Özel klasör taranmayacak
  • Allow: /public/ — Genel klasör izin verilir
  • Crawl-delay: 1 — Her sayfa taraması arasında 1 saniye gecikme
  • Sitemap: — Arama motoruna sitemap URL'sini bildir

Google-spesifik kurallar:

User-agent: Googlebot
Disallow: /dinamik-sayfalar/

User-agent: Bingbot
Disallow: /test/

User-agent: *
Disallow: /
Allow: /hakkimizda/

Bu yapıda Googlebot belirli kurallar, Bingbot başka kurallar, diğer tüm botlar ise genel kurallara uyar.

Robots.txt'in Avantajları

  • Crawl Bütçesi Optimizasyonu: Arama motorlarının sınırlı crawl kapasitesini önemli sayfalar için kullanmanızı sağlar
  • Gizli Sayfalar: Hazırda olmayan, test sayfaları, yönetim panelleri gibi alanları botlardan gizler
  • Yinelenen İçerik Yönetimi: Parametre ile oluşturulan çoğalan sayfaları taramadan tutabilir
  • Bant Genişliği Tasarrufu: Büyük dosyaların (PDF, resim) gereksiz taranmasını engeller
  • Özel URL'lerin Korunması: Kampanya URL'leri, A/B test sayfaları arama motorlarına yayılmasını önler
  • Sitemap Yönetimi: Arama motorlarına sitemap dosyasının yerini açıkça gösterir

Robots.txt'in Dezavantajları ve Sınırlamaları

  • Tarama Kontrol Eder, İndeksleme Değil: Disallow edilen sayfalar başka sitelerden bağlantı varsa indekslenebilir
  • Güvenlik Aracı Değildir: Hassas veriler (şifreler, API anahtarları) robots.txt ile korunamaz
  • Tüm Botlar Saygı Göstermez: Kötü amaçlı botlar robots.txt kurallarını görmezden gelebilir
  • Yanlış Konfigürasyon Riski: Siteniçin tüm sayfaları disallow ederseniz arama motorlarında görünmezsiniz
  • Bot Tanımazlık: Bazı küçük arama motorları robots.txt'i destek vermeyebilir
  • Gecikme Sorunu: Çok uzun crawl-delay taramaların yavaşlamasına neden olabilir

Robots.txt Türleri ve Konfigürasyonlar

Konfigürasyon Tipi Örnek Kural Kullanım Alanı
Tüm Botlara İzin Ver User-agent: * Küçük siteler, maksimum görünürlük
Tüm Botları Engelle Disallow: / Gizli projeler, geliştirme ortamları
Seçici Engelleme Disallow: /admin/, /temp/ E-ticaret, kurumsal siteler
Motor-Spesifik Kurallar User-agent: Googlebot Farklı arama motorları için özel ayarlar
Crawl-Delay Kontrolü Crawl-delay: 2 Yüksek trafik sunucuları, küçük kaynaklar
Sitemap Bildirimi Sitemap: /sitemap.xml Tüm siteler (önerilir)

Robots.txt'in Tarihçesi ve Gelişimi

Robots.txt protokolü ilk olarak 1994 yılında Martijn Koster tarafından önerilmiştir. Internet'in erken dönemlerinde web sunucuları sınırlı kaynaklara sahip olduğundan, web robotlarının sitelerini aşırı taranmasından korunması gerekiyordu. Bu ihtiyaçtan doğan robots.txt, 1997 yılında yaygın olarak kullanılmaya başlanmıştır.

Başlangıçta Robots Exclusion Standard olarak bilinen bu protokol, resmi bir RFC (Request for Comments) standardı değildir, ancak arama motorları tarafından 30 yıldan fazla bir süredir uyulmuştur. Google 2019 yılında robots.txt dosyalarını işlemeyen bir API açıklamışsa da, dosya halen en önemli SEO araçlarından biridir.

Günümüzde robots.txt, tüm büyük arama motorları (Google, Bing, Yandex, DuckDuckGo) tarafından desteklenmektedir ve web sitesi taraması için birincil kontrol mekanizması olmaya devam etmektedir.

Robots.txt ve SEO İlişkisi

Robots.txt, SEO stratejisinin kritik bir parçasıdır. Doğru yapılandırıldığında:

  • Crawl Bütçesi Verimliliği: Google'ın sitenizi tarama kapasitesi sınırlıdır. Önemli sayfaları taratırken, gereksiz sayfaları (yönetim, test) taramaktan kaçınarak crawl bütçesini optimize edersiniz

R harfindeki diğer terimler