Sözlük · W

Web Scraping Nedir? Tanımı, Nasıl Çalışır ve Kullanım Alanları

Berk • 6 Haziran 2026 • 5 dk okuma

Web Scraping, web tarayıcıları veya özel yazılım araçları kullanarak internet sayfalarından yapılandırılmış veya yapılandırılmamış veriyi otomatik olarak çıkarıp işleme yöntemidir. İnternetteki hemen her bilgi—fiyatlar, haberler, sosyal medya gönderileri, akademik veriler—programlı şekilde toplanabilir. Scraper adı verilen bu araçlar, HTTP istekleri göndererek sayfaları indirir, HTML yapısını analiz eder ve istenen veriyi ayıklayarak depolamaya hazır hale getirir.

Web Scraping Nasıl Çalışır?

Web scraping üç ana adımda gerçekleşir:

İstek Gönderme: Scraper, hedef web sitesine HTTP GET veya POST istekleri gönderir ve sayfanın HTML kodunu alır.
Analiz ve Çıkarma: DOM (Document Object Model) yapısı incelenerek CSS seçicileri veya XPath ifadeleri kullanılarak hedef veriler tanımlanır ve çıkarılır.
Depolama: Çıkarılan veriler CSV, JSON, XML veya veritabanı formatlarında kaydedilir ve analize hazır hale getirilir.

Örneğin, bir e-ticaret sitesinden ürün fiyatlarını toplamak istiyorsanız: scraper sayfayı indirir, her ürünün fiyat tag'ini bulur, bu değerleri çıkarır ve bir spreadsheet'e kaydeder. Tüm işlem saniyeler içinde binlerce ürün için tekrarlanabilir.

Web Scraping Türleri

Statik Web Scraping: Klasik HTML sayfalarından veri çıkarma. Sayfanın kaynağı değişmediği için en basit yöntemdir.
Dinamik Web Scraping: JavaScript ile yüklenen içeriğin çıkarılması. Selenium, Puppeteer, Playwright gibi tarayıcı otomasyon araçları kullanılır.
API-Tabanlı Veri Çıkarma: Web sitesinin resmi API'sini kullanarak yapılandırılmış veri almak. Scraping'in yasal ve etik hali.
Oturum Tabanlı Scraping: Login gerektiren sayfalardan veri çıkarma. Kimlik doğrulama bilgileri ile scraper oturumlar başlatır.

Web Scraping'in Avantajları

Zaman Tasarrufu: Manuel olarak birkaç hafta sürecek veri toplama işi dakikalar içinde tamamlanır.
Geniş Veri Kapsamı: Binlerce sayfadan sistematik şekilde bilgi çıkarabilme imkanı sunar.
Maliyet Etkinliği: Özel yazılım satın almak yerine açık kaynak araçlar (BeautifulSoup, Scrapy) kullanılabilir.
Gerçek Zamanlı Veri: Belirli aralıklarla çalışacak şekilde yapılandırılarak güncel bilgi sağlanabilir.
Esneklik: Özel ihtiyaçlara göre özelleştirilebilen, parametrik scraperlar oluşturulabilir.

Web Scraping'in Dezavantajları ve Riskler

Yasal Sorunlar: Bazı web siteleri robots.txt dosyasında scraping'i yasaklar. Telif hakkı ve Bilgisayar Sahteciliği ve Kötüye Kullanım Yasası (CFAA) gibi kanunlar ile çatışabilir.
IP Engelleme: Çok sayıda istek gönderen scraperlar site tarafından algılanıp IP adresleri engellenebilir.
Teknik Zorluklar: Sayfadaki değişiklikler, CAPTCHA doğrulaması veya JavaScript kodlama scraper'ı bozabilir.
Etik Kaygılar: Kişisel veriler, ticari sırlar veya lisanslanmış içeriğin scraping'i gizlilik ihlali oluşturabilir.
Performans Sorunları: Sunucu kaynakları aşırı yüklenmemesi için rate limiting ve bekleme süreleri eklenmesi gerekir.

Web Scraping Nerede Kullanılır?

Kullanım Alanı	Örnek
E-Ticaret ve Fiyat Karşılaştırması	Rakip sitelerdeki ürün fiyatlarını izleme, dinamik fiyatlandırma analizi
Pazar Araştırması	Tüketici yorumları, ürün özellikleri, marka algısı verilerinin toplanması
Haber ve İçerik Agregasyonu	Birden fazla haber sitesinden güncel haberlerin otomatik toplanması
İş İstihdam Verileri	İş ilanları, maaş aralıkları, beceri gereksinimleri gibi veriler
Gayrimenkul ve Konut Piyasası	Emlak ilanları, fiyatlar, konum verileri ve pazar trendleri
Sosyal Medya Analitikleri	Gönderiler, yorumlar, engagement metrikleri (API ile uyumlu şekilde)
Akademik Araştırma	Bilimsel makaleler, atıf verileri, araştırma paper bilgileri
SEO ve Rekabet Analizi	Anahtar kelime sıralamaları, backlink profilleri, SERP analizi

Web Scraping Araçları ve Dilleri

Web scraping işlemi farklı teknolojilerle gerçekleştirilir:

Python Kütüphaneleri: BeautifulSoup (HTML parsing), Scrapy (tam framework), Selenium (dinamik içerik), Requests (HTTP istek)
JavaScript/Node.js: Cheerio (DOM işlemesi), Puppeteer (Chromium otomasyon), Axios (HTTP istekleri)
Java: JSoup (HTML parsing), HtmlUnit (tarayıcı simülasyon)
Hazır Yazılımlar: Octoparse, ParseHub, Import.io (GUI ile scraping)
Cloud Çözümleri: ScrapingBee, Bright Data, Apify (ölçeklenebilir scraping)

"Web scraping, veri odaklı kararların omurgasıdır. Ancak sorumlu ve yasal sınırlar içinde yapılmalıdır."

Web Scraping'in Etik ve Yasal Tarafı

Web scraping'in hukuki durumu ülkelere ve kullanım amacına göre değişir. Birleşik Devletler'de "hizbir kaynaktan veri çıkarmak" yasal olmakla beraber, CFAA ve DMCA yasaları çerçevesinde bazı durumlarda engelleme mekanizmalarını atlamak suç sayılabilir. Avrupa'da GDPR, kişisel verilerin scraping'ini yasaklar. Türkiye'de ise, "bilgisayar sistemine yetkisiz erişim" (TCK m. 243) ve "sistem kaynaklarını engelleme" (TCK m. 244) kapsamında değerlendirilir.

Etik web scraping için uyulması gereken ilkeler:

Site'nin robots.txt dosyasını ve kullanım şartlarını oku
Sunucuyu aşırı yüklememeye dikkat et (rate limiting ve user-agent belirleme)
Kişisel veya gizli verileri scrape etme
Mümkün olduğunda resmi API'leri tercih et
Site sahibinden izin al

Web Scraping ile Web Crawling arasındaki fark nedir?+

Web crawling, başlangıç sayfasından başlayarak linkleri takip ederek siteleri keşif etme işlemidir (örneğin Google'ın arama motoru). Web Scraping ise, keşfedilen sayfalardan belirli veriyi çıkarmadır. Crawling keşif ve indeksleme, scraping ise veri çıkarma amaçlıdır.

Web Scraping'in hukuki durumu nedir?+

Web Scraping'in yasallığı ülkeler arasında farklılık gösterir. ABD'de genel olarak serbest olmakla beraber, CFAA ve telif hakkı ihlalleri problem yaratabilir. Avrupa'da GDPR kişisel verilerin toplanmasını sınırlar. Türkiye'de sistem erişimi ve kaynak engelleme kapsamında değerlendirilir. Her zaman site şartlarını ve yerel yasaları kontrol etmeli, mümkün olduğunda API kullanmalısınız.

Dinamik sayfalardan veri çıkarmak neden zor?+

Dinamik sayfalar (JavaScript ile yüklenen içerik) tarayıcısı olmadan ham HTML döndürür. Scraper, sayfanın tarayıcıda tamamen yüklenmesini beklemek zorundadır. Bu nedenle Selenium, Puppeteer gibi tarayıcı otomasyon araçları kullanılır. İşlem daha yavaş ve kaynak gerektiren hale gelir.

IP engelleme sorunu nasıl çözülür?+

Sitemiz tarafından çok hızlı istek gönderilmesi sonucu IP engellenir. Çözüm yöntemleri: 1) İstekler arasına gecikme ekleme (time.sleep), 2) User-Agent başlığını döndürme, 3) Proxy veya VPN kullanma, 4) Scrapy'de AutoThrottle ve CookiesMiddleware aktivasyonu. Sürdürülebilir scraping, sunucu kaynakları dikkate alınarak yapılmalıdır.

W harfindeki diğer terimler

WASM (WebAssembly)

WASM (WebAssembly), C, C++, Rust gibi dillerin kodunu web tarayıcılarında yüksek performansla çalıştıran ikili...

Web3

Web3, blockchain ve kripto teknolojilerine dayanan merkeziyetsiz internet ekosistemidir. Kullanıcıların kendi ...

WAN

WAN (Wide Area Network), birden fazla şehir, ülke veya kıta arasında konumlanan ağları ve cihazları bağlayan g...

WebRTC

WebRTC (Web Real-Time Communication), web uygulamalarında ses, video ve veri aktarımını sağlayan açık kaynak t...

Webhook

Webhook, belirli bir olayın gerçekleşmesi durumunda bir uygulamanın başka bir uygulamaya otomatik HTTP isteği ...

WAF (Web Application Firewall)

WAF (Web Application Firewall), web uygulamalarının HTTP/HTTPS trafiğini inceleyerek zararlı istekleri tespit ...

Tüm sözlüğe dön →