Nama Kelompok :
1. Achmad Yani (50411091)
2. Muhammad Yusuf (55411009)
3. Prastika Dedyana (55411559)
4. Sherly Maria Pangaila (56411737)
5. Yuan Fachrul Amanda (57411593)
Pada postingan kali ini, saya akan membahas tentang apa itu web archiving dan bagaimana cara kerja dari web archiving tersebut.
Web Archiving adalah proses pengumpulan bagian dari World Wide Web untuk memastikan informasi yang diawetkan dalam arsipbagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Arsiparis web biasanya menggunakan web crawler otomatis untuk menangkap karena ukuran besar dan jumlah informasi di Web. Web terbesar pengarsipan organisasi berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha untuk memelihara arsip dari seluruh Web. perpustakaan Nasional , arsip nasional dan berbagai konsorsium organisasi juga terlibat dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan perangkat lunak dan layanan juga tersedia untuk organisasi yang perlu arsip konten web mereka sendiri untuk warisan perusahaan, peraturan, atau tujuan hukum.
contoh web archiving yaitu Heritrix, HTTrack, Wget
Cara kerja web archiving
1. Menemukan Informasi Website lewat crawling web
Bagaimana cara kerja web
crawling Google ? Google memiliki software khusus untuk proses perayapan
website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web
crawler Google menggunakan aplikasi yang disebut Googlebot.
Crawler Googlebot akan
merayapi setiap halaman website/blog seperti ketika sobat belajar online
membuka link lewat browser, kemudian mengikuti link setiap halaman web dan
membawa data dari website/blog tersebut ke server Google.
Proses crawling web oleh
googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap
(peta situs) yang dibuat oleh pemilik website.
adanya sitemap website
akan memudahkan google bot google dalam proses crawling web/blog
tersebut.
Pada akhirnya program
google bot akan menentukan situs mana yang ramai pengunjung dan selalu
diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.
Google tidak menerima bayaran
dalam memposisikan website. Website/blog yang menurut mesin pencari google
bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google
tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini
tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat
mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.
2. Mengorganisasi informasi hasil proses crawling web
Setelah proses crawling
web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks
Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun
sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka
google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google
bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis
bagaimana Google melihat halaman yang bersangkutan.
Gambaran bagaimana google
membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online
buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang
informasi kata-kata dan lokasi kata tersebut.
Dengan perkembangan web
generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada
developer web untuk membuat web dinamis semakin banyak jenis konten yang harus
diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan
pengindekan konten-konten yang ada di internet untuk memahami apa yang
diinginkan oleh pencari informasi lewat mesin pencari Google.
3. Pengaturan crawling pada pemilik website/blog
Walaupun Google dapat
merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan
kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin
pencari Google.
Untuk memilih dan
memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang
berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file
robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file
robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari
website/blog sobat oleh Google crawler.
Sumber :