Senin, 06 Mei 2013

Web Archiving


Nama Kelompok :
1. Achmad Yani  (50411091)
2. Muhammad Yusuf  (55411009)
3. Prastika Dedyana  (55411559)
4. Sherly Maria Pangaila  (56411737)
5. Yuan Fachrul Amanda (57411593)

Pada postingan kali ini, saya akan membahas tentang apa itu web archiving dan bagaimana cara kerja dari web archiving tersebut.

Web Archiving adalah proses pengumpulan bagian dari World Wide Web untuk memastikan informasi yang diawetkan dalam arsipbagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Arsiparis web biasanya menggunakan web crawler otomatis untuk menangkap karena ukuran besar dan jumlah informasi di Web. Web terbesar pengarsipan organisasi berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha untuk memelihara arsip dari seluruh Web. perpustakaan Nasional , arsip nasional dan berbagai konsorsium organisasi juga terlibat dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan perangkat lunak dan layanan juga tersedia untuk organisasi yang perlu arsip konten web mereka sendiri untuk warisan perusahaan, peraturan, atau tujuan hukum.

contoh web archiving yaitu Heritrix,  HTTrack, Wget

Cara kerja web archiving

1.    Menemukan Informasi Website lewat crawling web
Bagaimana cara kerja web crawling Google ? Google memiliki software khusus untuk proses perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang disebut Googlebot. 
Crawler Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat belajar online membuka link lewat browser, kemudian mengikuti link setiap halaman web dan membawa data dari website/blog tersebut ke server Google.
Proses crawling web oleh googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.
adanya sitemap website akan memudahkan google bot google dalam proses crawling web/blog tersebut.
Pada akhirnya program google bot akan menentukan situs mana yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.
Google tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.

2.    Mengorganisasi informasi hasil proses crawling web
Setelah proses crawling web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman yang bersangkutan.
Gambaran bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan lokasi kata tersebut.
Dengan perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.

3.    Pengaturan crawling pada pemilik website/blog
Walaupun Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin pencari Google.
Untuk memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog sobat oleh Google crawler.

Sumber : 

0 komentar:

Posting Komentar