Software Menyalin Website, Saya Membacanya Offline
March 3, 2007 by maseko Ketika menemukan website yang halaman-halamannya menarik untuk untuk dibaca tetapi di sisi lain terlalu lama untuk ditelusuri ketika online, biasanya saya memutuskan untuk menyalin isi website tersebut untuk kemudian dibaca offline kala sempat. Untuk menyalin satu per satu halamannya akan sangat merepotkan baik ketika menyimpannya maupun membacanya. Jadi untut keperluan tersebut saya menggunakan software penyalin website (website copier). Alasan lainnya, halaman-halaman website yang disimpan dapat dibaca berulangkali tanpa mengakses internet kembali dan dalam penelusurannya mengikuti website aslinya.
Pertama kenal software yang dapat digunakan untuk menyalin website adalah GNU Wget. Waktu itu diberitahu teman di warnet karena melihat kerepotan saya dalam menyimpan halaman web yang saya kunjungi, padahal masih dalam satu website. Dan saya kebetulan diberi kesempatan mengakses melalui server warnet tersebut. Perintah wget masih sering saya pergunakan ketika menggunakan jasa hosting, walaupun sebatas menyalin file untuk disimpan di server hosting, agar mudah saya ambil kemudian karena saya belum memiliki PC sendiri.
Waktu berlalu, dan ketika kembali berhubungan dengan internet, hampir seharian saya adalah pengguna Windows. Mencoba beberapa software, sampai akhirnya saya memilih HTTrack sampai dengan saat ini. Entah berapa website yang sudah saya salin dengan HTTrack untuk kemudian saya baca di PC rumah. Berbagai konfigurasi seperti kedalaman direktori bawah, penanganan link keluar, tipe file yang akan didownload dan banyak setting lainnya termasuk apakah akan melewati aturan robots.txt atau tidak, dapat diatur di HTTrack.
Pengalaman buruk dengan penyalin website tapi belum menggunakan HTTrack (saya lupa namanya), dulu saya berniat menyalin beberapa halaman website yang menyediakan ringtone-ringtone, dan ternyata saya tertidur, otomatis sampai pagi hampir seluruh isi website termasuk ringtone-ringtone .mid tersimpan dalam hardisk. Padahal waktu itu akses menggunakan telkomnet instan. Dari pada sayang, kemudian saya taruh di web intranet. Pengalaman buruk kedua adalah beberapa waktu yang lalu, ketika menyalin website dan saya tinggalkan begitu saja prosesnya karena menggunakan fasilitas internet kantor, ternyata ketika pagi saya lihat hasilnya hampir satu gigabyte, padahal saya perkirakan tidak sampai sebegitu besarnya. Ternyata, website tersebut menggenerate nama halaman websitenya secara dinamis, jadi file index.html ada ratusan dengan berbagai tambahan seperti index3444.html dan sejenisnya, begitu juga dengan halaman lainnya.
Bagaimana kepatutan menyalin website? Saya pikir cara kerjanya seperti search engine yang sedang mengindeks suatu website. Jadi sepanjang mentaati aturan pada robots.txt atau melalui tag meta serta dengan tidak mengganti identitas software penyalin yang digunakan dengan nama browser yang memang diperkenankan misalnya, saya pikir tidak ada masalah. Karena tanpa batasan pemilik website melalui file robots.txt tadi, berarti pemilik website membolehkannya.

Posted in 







wadoh jebol tuh pulsa telpon ;)