Pada postingan kali ini penulis akan membahas tugas kelompok softskill tentang apa itu web crawler,contohnya dan bagaimana cara kerja dari web crawler tersebut.
Nama Kelompok :
1. Achmad Yani (50411091)
2. Muhammad Yusuf (55411009)
3. Prastika Dedyana (55411559)
4. Sherly Maria Pangaila (56411737)
5. Yuan Fachrul Amanda (57411593)
Web crawler adalah suatu program atau script otomat yang relatif
simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua
halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama
lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic
indexer.
Web crawl dapat
digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait
dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan
informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya
adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata
pencarian di komputernya, search engine dapat dengan segera menampilkan web
site yang relevan.
CONTOH WEB CRAWLER
Beberapa contoh web crawler:
1.
Teleport
Pro
Salah satu software web
crawler untuk keperluan
offline browsing. Software ini sudah cukup lama popular, terutama pada saat
koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan
beralamatkan di http://www.tenmax.com.
2.
HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro,
HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror
pada harddisk anda, agar dapat dilihat secara offline. Yang menarik
software ini free dan dapat di download pada website resminya di http://www.httrack.com
3.
Googlebot
Merupakan web
crawler untuk membangun
index pencarian yang digunakan oleh search engine Google. Kalau
website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot.
Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses
crawling ini.
4.
Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka
search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation
yang diakuisisi oleh Yahoo!.
5.
YaCy
Sedikit berbeda dengan web
crawler lainnya
di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop
dengan menggunakan java, dan didistribusikan pada beberapa ratus
mesin computer (disebut YaCy peers). Tiap-tiap peer di share
dengan prinsip P2P untuk berbagi index, sehingga tidak
memerlukan server central. Contoh search engine yang menggunakan YaCy adalah
Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains.
CARA KERJA WEB CRAWLER
1. Mesin
pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman
web, yang diambil langsung dari WWW. Halaman-halaman ini diambil
dengan web crawler — browser web otomatis yang
mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis
untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul,
subjudul, atau field khusus yang disebut meta tag). Data
tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam
pencarian selanjutnya.
2. Mesin
pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang
merujuk pada file, seperti file audio, file video,
gambar, foto dan sebagainya.
3. Ketika
seorang pengguna mengunjungi mesin pencari dan memasukkan query,
biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan
daftar halaman web yang paling sesuai dengan kriterianya.
Sumber :
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
Sumber :
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/