Crawling data

From OnnoWiki
Jump to navigation Jump to search

Web crawler adalah sebuah program komputer yang mem-browse ke World Wide Web secara sistimatis dan automatis. Dalam bahasa sederhana, web crawlers adalah semut, indexer automatis, bot, Web spiders, Web robots, atau Web scutters.

Proses ini di sebut Web crawling atau spidering. Banyak situs, terutama search engine menggunakan teknik spidering untuk membuat data up-to-date. Web crawlers digunakan terutama untuk mengcopy semua halaman yang dikunjungi untuk kemudian di proses oleh search engine yang akan meng-index halaman download agar dapat memberikan hasil pencarian yang cepat. Crawlers dapat juga digunakan untuk tugas maintenance automatis di situs web, seperti, mencek link atau memvalidasi kode HTML. Crawlers dan digunakan untuk mengumpulkan tipe informasi dari web yang spesifik, seperti, mencari alamat e-mail (ini dilakukan oleh spammer).

Sebuah web crawler adalah salah satu tipe dari bot, atau software agent. Secara umum, web crawler akan memulai dengan sebuah daftar URL yang akan di datangi, yang disebut seeds. Saat crawler mengunjungi URL, dia akan mengidentifikasi hyperlink di halaman yang dikunjungi dan menambahkan URL tersebut ke daftar URL yang akan di kunjungi, yang disebut crawler frontier. URL dari frontier akan secara recursive di datangi berdasarkan sekumpulan kebijakan yang di set sebelumnya.


Analisa Media Sosial

Referensi