Robots.txt Nedir? Nasıl Çalışır, Kullanım Alanları ve SEO Etkisi
Robots.txt, web sitesinin kök dizinine konulan ve arama motoru botlarını (crawler) yönlendiren metin dosyasıdır. Google, Bing, Yandex gibi arama motorlarının hangi sayfaları tarayabileceğini, hangi kaynaklara erişebileceğini kontrol etmek için kullanılır. SEO stratejisinin temel bileşenidir.
Robots.txt, web sitesinin kök dizinine (example.com/robots.txt) yerleştirilen metin dosyasıdır ve arama motoru botlarına (crawler) hangi sayfaları tarayabileceklerini, hangi kaynakları indeksleyebileceklerini söyleyen yönergeleri içerir. Bu dosya, sitenizin gizli sayfalarını korumak, önemli sayfaları crawl bütçesine göre önceliklendirmek ve arama motoru kaynaklarını verimli kullanmak için tasarlanmıştır. Robots.txt, SEO stratejisinin temel taşlarından biridir ve doğru kullanıldığında sitenizin arama motorlarında daha etkili indekslenmesini sağlar.
Robots.txt Nasıl Çalışır?
Arama motoru botları (Google Googlebot, Bing Bingbot vb.) bir sitenizi taramaya başlamadan önce ilk olarak robots.txt dosyasını arar. Bu dosyada tanımlanan kuralları okur ve tarama işlemini bu yönergelere göre yapılandırır.
Çalışma süreci şu şekildedir:
- Dosya Arama: Bot, domain'in kök dizinindeki robots.txt dosyasını (example.com/robots.txt) çeker
- User-Agent Eşleştirme: Dosyadaki kural setlerinden kendisine ait olanı bulur (örn. Googlebot, Bingbot)
- Disallow/Allow Kontrol: Engellenen (disallow) ve izin verilen (allow) yolları belirler
- Crawl-delay Uygulaması: Varsa sitedeki yük kontrol edilmesi için sayfa taramaları arasına gecikme ekler
- Sitemap Talimatı: Sitemap dosyasının konumunu öğrenirse öncelikle buradaki URL'leri tarar
- Tarama Başlangıcı: Tüm kuralları uyguladıktan sonra sitenizin izin verilen sayfalarını tarar
Önemli not: Robots.txt dosyası tarama (crawl) kontrol eder, indeksleme kontrol etmez. Eğer bir sayfayı robots.txt'te disallow ederseniz, bot o sayfaya erişmez ama dış linkler aracılığıyla sayfa başka sitelerden indekslenmiş olabilir. Indeksleme kontrolü için meta robots etiketi veya X-Robots-Tag başlığı kullanılmalıdır.
Robots.txt Söz Dizimine Örnekler
Temel bir robots.txt dosyası şu şekildedir:
User-agent: * Disallow: /admin/ Disallow: /private/ Allow: /public/ Crawl-delay: 1 Sitemap: https://example.com/sitemap.xml
Bu örneğin anlamı:
User-agent: *— Tüm botlara uygulanırDisallow: /admin/— Admin klasörü taranmayacakDisallow: /private/— Özel klasör taranmayacakAllow: /public/— Genel klasör izin verilirCrawl-delay: 1— Her sayfa taraması arasında 1 saniye gecikmeSitemap:— Arama motoruna sitemap URL'sini bildir
Google-spesifik kurallar:
User-agent: Googlebot Disallow: /dinamik-sayfalar/ User-agent: Bingbot Disallow: /test/ User-agent: * Disallow: / Allow: /hakkimizda/
Bu yapıda Googlebot belirli kurallar, Bingbot başka kurallar, diğer tüm botlar ise genel kurallara uyar.
Robots.txt'in Avantajları
- Crawl Bütçesi Optimizasyonu: Arama motorlarının sınırlı crawl kapasitesini önemli sayfalar için kullanmanızı sağlar
- Gizli Sayfalar: Hazırda olmayan, test sayfaları, yönetim panelleri gibi alanları botlardan gizler
- Yinelenen İçerik Yönetimi: Parametre ile oluşturulan çoğalan sayfaları taramadan tutabilir
- Bant Genişliği Tasarrufu: Büyük dosyaların (PDF, resim) gereksiz taranmasını engeller
- Özel URL'lerin Korunması: Kampanya URL'leri, A/B test sayfaları arama motorlarına yayılmasını önler
- Sitemap Yönetimi: Arama motorlarına sitemap dosyasının yerini açıkça gösterir
Robots.txt'in Dezavantajları ve Sınırlamaları
- Tarama Kontrol Eder, İndeksleme Değil: Disallow edilen sayfalar başka sitelerden bağlantı varsa indekslenebilir
- Güvenlik Aracı Değildir: Hassas veriler (şifreler, API anahtarları) robots.txt ile korunamaz
- Tüm Botlar Saygı Göstermez: Kötü amaçlı botlar robots.txt kurallarını görmezden gelebilir
- Yanlış Konfigürasyon Riski: Siteniçin tüm sayfaları disallow ederseniz arama motorlarında görünmezsiniz
- Bot Tanımazlık: Bazı küçük arama motorları robots.txt'i destek vermeyebilir
- Gecikme Sorunu: Çok uzun crawl-delay taramaların yavaşlamasına neden olabilir
Robots.txt Türleri ve Konfigürasyonlar
| Konfigürasyon Tipi | Örnek Kural | Kullanım Alanı |
|---|---|---|
| Tüm Botlara İzin Ver | User-agent: * |
Küçük siteler, maksimum görünürlük |
| Tüm Botları Engelle | Disallow: / |
Gizli projeler, geliştirme ortamları |
| Seçici Engelleme | Disallow: /admin/, /temp/ |
E-ticaret, kurumsal siteler |
| Motor-Spesifik Kurallar | User-agent: Googlebot |
Farklı arama motorları için özel ayarlar |
| Crawl-Delay Kontrolü | Crawl-delay: 2 |
Yüksek trafik sunucuları, küçük kaynaklar |
| Sitemap Bildirimi | Sitemap: /sitemap.xml |
Tüm siteler (önerilir) |
Robots.txt'in Tarihçesi ve Gelişimi
Robots.txt protokolü ilk olarak 1994 yılında Martijn Koster tarafından önerilmiştir. Internet'in erken dönemlerinde web sunucuları sınırlı kaynaklara sahip olduğundan, web robotlarının sitelerini aşırı taranmasından korunması gerekiyordu. Bu ihtiyaçtan doğan robots.txt, 1997 yılında yaygın olarak kullanılmaya başlanmıştır.
Başlangıçta Robots Exclusion Standard olarak bilinen bu protokol, resmi bir RFC (Request for Comments) standardı değildir, ancak arama motorları tarafından 30 yıldan fazla bir süredir uyulmuştur. Google 2019 yılında robots.txt dosyalarını işlemeyen bir API açıklamışsa da, dosya halen en önemli SEO araçlarından biridir.
Günümüzde robots.txt, tüm büyük arama motorları (Google, Bing, Yandex, DuckDuckGo) tarafından desteklenmektedir ve web sitesi taraması için birincil kontrol mekanizması olmaya devam etmektedir.
Robots.txt ve SEO İlişkisi
Robots.txt, SEO stratejisinin kritik bir parçasıdır. Doğru yapılandırıldığında:
- Crawl Bütçesi Verimliliği: Google'ın sitenizi tarama kapasitesi sınırlıdır. Önemli sayfaları taratırken, gereksiz sayfaları (yönetim, test) taramaktan kaçınarak crawl bütçesini optimize edersiniz