MY Blog's

Selasa, 30 April 2013

Apa itu Web Crawler

17.55 6 comments

Pada postingan kali ini penulis akan membahas tugas kelompok softskill tentang apa itu web crawler,contohnya dan bagaimana cara kerja dari web crawler tersebut.

Nama Kelompok :

1. Achmad Yani (50411091)

2. Muhammad Yusuf (55411009)

3. Prastika Dedyana (55411559)

4. Sherly Maria Pangaila (56411737)

5. Yuan Fachrul Amanda (57411593)

Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

CONTOH WEB CRAWLER

Beberapa contoh web crawler:

1. Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2. HTTrack

Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

3. Googlebot

Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

4. Yahoo!Slurp

Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

5. YaCy

Sedikit berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains.

CARA KERJA WEB CRAWLER

1. Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.

2. Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya.

3. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya.

Sumber :
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/

Apa itu Preweb, Memex, Usenet, Gopher, FTP, Internet

10.09 1 comment

Nama Kelompok :

1. Achmad Yani (50411091)

2. Muhammad Yusuf (55411009)

3. Prastika Dedyana (55411559)

4. Sherly Maria Pangaila (56411737)

5. Yuan Fachrul Amanda (57411593)

PRE-WEB

Pre-web adalah era dimana prototype seperti memex, usenet, gopher dan ftp muncul sebelum kemudian berevolusi menjadi internet. Internet sendiri adalah tempat dimana web muncul pertama kalinya ke publik sampai saat ini.

MEMEX

The memex (sebuahsingkatan dari "memori" dan "index") adalah nama hipotetis proto-hypertext sistem yang Vannevar Bush jelaskan pada tahun 1945 pada artikel bulanan The Atlantic " As We May Think "(AWMT). Bush membayangkan memex sebagai perangkat di mana individu akan mengkompres dan menyimpan semua buku-buku mereka, catatan, dan komunikasi, "mekanis sehingga dapat berkonsultasi dengan melebihi kecepatan dan fleksibilitas." The memex akan memberikan "suplemen intim yang diperbesar ke memori seseorang". Konsep memex mempengaruhi perkembangan awal hypertext sistem (akhirnya mengarah ke penciptaan World Wide Web ) dan basis pengetahuan personal software.

USENET

Singkatan dari user network, merupakan salah satu jaringan tertua yang dilayani oleh internet. Awalnya didesain pada Duke University ditahun 1979 dan dikembangkan pada Duke University dan North Carolia University setahun kemudian, tujuan utama dari USENET adalah untuk bertukar pesan teks (text message) di antara node (komputer yang terhubung pada jaringan). USENET telah tumbuh untuk mencakup berbagai macam forum dan juga newsgroup, dalam jumlah puluhan ribu node yang terhubung.

GOPHER

Gopher adalah protokol layer aplikasi TCP/IP yang dirancang untuk distribusi, pencarian, dan pengambilan dokumen melalui Internet. Sangat berorientasi pada desain dokumen menu, protokol Gopher disajikan menarik untuk alternatif World Wide Web pada tahap awalnya, tapi akhirnya gagal mencapai popularitas.

FTP

FTP merupakan salah satu protokol Internet yang paling awal dikembangkan, dan masih digunakan hingga saat ini untuk melakukan pengunduhan (download) dan penggugahan (upload) berkas-berkas komputer antara klien FTP dan server FTP. Sebuah Klien FTP merupakan aplikasi yang dapat mengeluarkan perintah-perintah FTP ke sebuah server FTP, sementara server FTP adalah sebuah Windows Service atau daemon yang berjalan di atas sebuah komputer yang merespons perintah-perintah dari sebuah klien FTP. Perintah-perintah FTP dapat digunakan untuk mengubah direktori, mengubah modus transfer antara biner dan ASCII, menggugah berkas komputer ke server FTP, serta mengunduh berkas dari server FTP.

INTERNET

Internet (kependekan dari interconnection-networking) secara harfiah adalah sistem global dari seluruh jaringan komputer yang saling terhubung menggunakan standar Internet Protocol Suite (TCP/IP) untuk melayani miliaran pengguna di seluruh dunia. Manakala Internet (huruf 'I' besar) ialah sistem komputer umum, yang berhubung secara global dan menggunakan TCP/IP sebagai protokol pertukaran paket (packet switching communication protocol). Rangkaian internet yang terbesar dinamakan Internet. Cara menghubungkan rangkaian dengan kaedah ini dinamakan internetworking.

Daftar Pustaka :

http://en.wikipedia.org/wiki/Memex

http://en.wikipedia.org/wiki/Usenet

http://id.wikipedia.org/wiki/Gopher

https://id.wikipedia.org/wiki/Protokol_Transfer_Berkas

http://id.wikipedia.org/wiki/Internet

Apa itu HTTP, HTML,Web Server, Browser dan Internet

17.15 No comments

Nama Kelompok :

1. Achmad Yani (50411091)

2. Muhammad Yusuf (55411009)

3. Prastika Dedyana (55411559)

4. Sherly Maria Pangaila (56411737)

5. Yuan Fachrul Amanda (57411593)

HTTP

Hypertext Transfer Protocol (HTTP) adalah sebuah protokol jaringan lapisan aplikasi yang digunakan untuk sistem informasi terdistribusi, kolaboratif, dan menggunakan hipermedia. Penggunaannya banyak pada pengambilan sumber daya yang saling terhubung dengan tautan, yang disebut dengan dokumenhiperteks, yang kemudian membentuk World Wide Web pada tahun 1990 oleh fisikawan Inggris, Tim Berners-Lee. Hingga kini, ada dua versi mayor dari protokol HTTP, yakni HTTP/1.0 yang menggunakan koneksi terpisah untuk setiap dokumen, dan HTTP/1.1 yang dapat menggunakan koneksi yang sama untuk melakukan transaksi. Dengan demikian, HTTP/1.1 bisa lebih cepat karena memang tidak perlu membuang waktu untuk pembuatan koneksi berulang-ulang.

Pengembangan standar HTTP telah dilaksanakan oleh Konsorsium World Wide Web (World Wide Web Consortium/W3C) dan juga Internet Engineering Task Force (IETF), yang berujung pada publikasi beberapa dokumen Request for Comments (RFC), dan yang paling banyak dirujuk adalah RFC 2616 (yang dipublikasikan pada bulan Juni 1999), yang mendefinisikan HTTP/1.1.

Dukungan untuk HTTP/1.1 yang belum disahkan, yang pada waktu itu RFC 2068, secara cepat diadopsi oleh banyak pengembang penjelajah Web pada tahun 1996 awal. Hingga Maret 1996, HTTP/1.1 yang belum disahkan itu didukung oleh Netscape 2.0, Netscape Navigator Gold 2.01, Mosaic 2.7, Lynx 2.5, dan dalam Microsoft Internet Explorer 3.0. Adopsi yang dilakukan oleh pengguna akhir penjelajah Web pun juga cepat. Pada bulan Maret 2006, salah satu perusahaan Web hosting melaporkan bahwa lebih dari 40% dari penjelajah Web yang digunakan di Internet adalah penjelajah Web yang mendukung HTTP/1.1.[1]Perusahaan yang sama juga melaporkan bahwa hingga Juni 1996, 65% dari semua penjelajah yang mengakses server-server mereka merupakan penjelajah Web yang mendukung HTTP/1.1. Standar HTTP/1.1 yang didefinisikan dalam RFC 2068 secara resmi dirilis pada bulan Januari 1997. Peningkatan dan pembaruan terhadap standar HTTP/1.1 dirilis dengan dokumen RFC 2616 pada bulan Juni 1999.

HTTP adalah sebuah protokol meminta/menjawab antara klien dan server. Sebuah klien HTTP (seperti web browser atau robot dan lain sebagainya), biasanya memulai permintaan dengan membuat hubungan ke port tertentu di sebuah server Webhosting tertentu (biasanya port 80). Klien yang mengirimkan permintaan HTTP juga dikenal dengan user agent. Server yang meresponsnya, yang menyimpan sumber daya seperti berkas HTML dan gambar, dikenal juga sebagai origin server. Di antara user agent dan juga origin server, bisa saja ada penghubung, seperti halnya proxy, gateway, dan juga tunnel.

HTML

HyperText Markup Language (HTML) adalah sebuah bahasa markup yang digunakan untuk membuat sebuah halaman web, menampilkan berbagai informasi di dalam sebuah Penjelajah web Internet dan formating hypertext sederhana yang ditulis kedalam berkas format ASCII agar dapat menghasilkan tampilan wujud yang terintegerasi. Dengan kata lain, berkas yang dibuat dalam perangkat lunak pengolah kata dan disimpan kedalam format ASCII normal sehingga menjadi home page dengan perintah-perintah HTML. Bermula dari sebuah bahasa yang sebelumnya banyak digunakan di dunia penerbitan dan percetakan yang disebut dengan SGML (Standard Generalized Markup Language), HTML adalah sebuah standar yang digunakan secara luas untuk menampilkan halaman web. HTML saat ini merupakan standar Internet yang didefinisikan dan dikendalikan penggunaannya oleh World Wide Web Consortium (W3C). HTML dibuat oleh kolaborasi Caillau TIM dengan Berners-lee robert ketika mereka bekerja di CERN pada tahun 1989 (CERN adalah lembaga penelitian fisika energi tinggi di Jenewa). [1]

Tahun 1980, IBM memikirkan pembuatan suatu dokumen yang akan mengenali setiap elemen dari dokumen dengan suatu tanda tertentu. IBM kemudian mengembangkan suatu jenis bahasa yang menggabungkan teks dengan perintah-perintah pemformatan dokumen. Bahasa ini dinamakan Markup Langiage, sebuah bahasa yang menggunakan tanda-tanda sebagai basisnya. IBM menamakan sistemnya ini sebagai Generalized Markup Language atau GML.

Web Server

Web server merupakan software yang memberikan layanan data yang berfungsi menerima permintaan HTTP atau HTTPSdari klien yang dikenal dengan browser web dan mengirimkan kembali hasilnya dalam bentuk halaman - halaman web yang umumnya berbentuk dokumen HTML

Macam - macam Web Server diantaranya:

Apache Web Server - The HTTP Web Server

1.Apache Tomcat

2.Microsoft windows Server 2003 Internet Information Services (IIS)

3.Lighttpd

4.Sun Java System Web Server

5.Xitami Web Server

6.Zeus Web Server

Namun web yang terkenal dan yang sering digunakan adalah Apache dan Microsoft Internet Information Service (IIS).

Browser

Browser adalah, Aplikasi yang ada di komputer Anda, mirip dengan aplikasi pengolah kata atau aplikasi lain, yang dirancang untuk membaca tipe file data tertentu. Untuk mengakses WWW, Anda membutuhkan program software internet browser ini.

Browsing-metode untuk menjelajahi WWW Internet. Mem-browse WWW sering disebut sebagai surfing the Net.Pojok Pedia

Browser merupakan software yang membantu kita untuk mengakses beberapa halaman web yang berisi informasi yang kita butuhkan. Beberapa browseryang kita kenal diantaranya internet explorer, mozila firefox, google, dll.

Internet

Pengertian Internet Adalah singkatan dari ( Interconnected Computer Networks ) atau bisa didefinisikan sebagai Jaringan Komputer yang tiada batas yang menjadi penghubung pengguna komputer satu dengan pengguna komputer lainnya serta dapat berhubungan dengan komputer di sebuah wilayah ke wilayah di penjuru dunia, dimana di dalam jaringan tersebut mempunyai berbagai macam informasi serta fasilitas layanan internet browsing atau surfing. Internet merupakan sistem global jaringan komputer yang berhubungan menggunakan standar Internet Protocol Suite (TCP / IP) untuk melayani miliaran pengguna di seluruh dunia.

Daftar Pustaka :

http://id.wikipedia.org/wiki/Protokol_Transfer_Hiperteks

http://id.wikibooks.org/wiki/Pemrograman_HTML

http://www.worldfriend.web.id/pengertian-web-server

http://www.g-excess.com/285/pengertian-browser-adalah/

http://caramembuatada.blogspot.com/2011/10/pengertian-internet-adalah.html