Legalitas mesin pencari Google: Mengubah hasil curian menjadi bisnis legal bernilai jutaan dollar

Sunday, 02 December 2007 05:48
MochiAds
Dollar bagi yang hobby bikin Flash Games
Themes Club
Premium Joomla Templates Club
Joomlancers
Get your Joomla project done by today!
 

Tulisan ini berdasarkan hasil riset dan pengalaman pribadi saya saat saya terlibat pada proyek pembuatan metasearch engine beberapa bulan lalu dengan beberapa orang rekan sebagai team saya.

Bagi yang belum mengetahui apa sih metasearch itu, berikut penjelasan singkat saya mengenai metasearch tersebut:
Metasearch adalah search engine atau mesin pencari yang melakukan query pada beberapa search engine secara simultan dan menggabungkan hasil pencariannya dalam satu database. Ide dari pembuatan metasearch ini beraneka ragam di-antaranya adalah menyempurnakan hasil pencarian dan penyusunan ranking yang masih belum sesuai harapan, mempermudah pencarian ke beberapa search engine sekaligus (hanya dengan satu klik saja) dan masih banyak lagi alasan lainnya.
Untuk informasi lebih lanjut mengenai metasearch bisa dibaca di sini dan berikut ini adalah beberapa contoh dari metasearch: Dogpile, Ask, Vivisimo, Mamma, Excite (Selengkapnya cek di sini).

Pelu diketahui bahwa dalam pembuatan metasearch ini terdapat 2 cara yang bisa kita gunakan yaitu menggunakan layanan API yang disediakan beberapa search engine seperti Google Search API (sudah ditutup layanannya), Yahoo Search API, Alexa Search API, dan banyak lagi yang lainnya atau dengan cara illegal yaitu menggunakan metode screen scraping. Kenapa metode ini tergolong illegal? karena metode ini memungkinkan untuk mengambil data suatu website tanpa se-ijin pemiliknya walaupun sebenarnya legalitas metode ini memang masih menjadi kontroversi, ada yang menyebutnya legal namun lebih banyak yang menyebutnya illegal (lek gak oleh di-copy yo ojo nggawe website, mungkin ada yang bilang demikian).

Pada awalnya kami menggunakan layanan API yang disediakan oleh Google, Yahoo dan Alexa, namun sayang terdapat pembatasan jumlah query yaitu:

  1. Google sebanyak 1000 query per hari dan 10 hasil pencarian per query (http://www.programmableweb.com/api/google-search)
    Sejak Desember 2006 layanan ini sudah ditutup dan diganti Google AJAX Search API (http://code.google.com/apis/ajaxsearch/)
  2. Yahoo sebanyak 5000 query per hari per IP address (http://www.programmableweb.com/api/yahoo-search)

Sedang untuk Alexa tidak ada pembatasan karena untuk menggunakan layanannya kita harus bayar keanggotaan bulanan. Selain itu, dengan menggunakan layanan API ini kita tidak diperbolehkan untuk memasang iklan atau hal lainnya yang bersifat komersial kecuali ada perjanjian khusus dengan pemilik API.

So, dengan semua pertimbangan yang ada; akhirnya kami memilih untuk menggunakan metode screen scraping untuk pembuatan metasearch kami. Sulit memang, tapi disinilah tantangannya. Mengambil data milik Google, Yahoo, Ask dan Live; perusahaan-perusahaan pemilik search engine terbesar, tanpa memberitahukan mereka terlebih dahulu adalah pekerjaan yang tidak mudah dan merupakan tindakan terbodoh yang pernah kami lakukan, resiko pemblokiran website dan IP address oleh mereka menghantui kami setiap saat. Dan kalau hal itu terjadi, akan sia-sialah hasil pekerjaan kami.

Untuk itupun saya harus melakukan riset yang mendalam mengenai karakteristik masing-masing search engine. Beberapa buku pun terpaksa harus saya borong untuk mengetahui lebih lanjut seperti apakah mereka, bagaimana cara kerja mereka dan sejauh mana sepak terjang mereka, terutama Google. Dari beberapa website yang memuat mengenai hal ini dan dari salah satu buku berjudul "Kisah Sukses Google" karya David A Vise dan Mark Malseed terdapat cerita menarik tentang perjuangan Sergey Brin dan Larry Page saat mereka menjalankan crawler Google untuk pertama kalinya. Berikut saya kutip beberapa penggalan cerita tersebut:

Larry dan Sergey berhati-hati untuk tidak mengungkapkan semua rahasia seputar PageRank dan Google. Boleh jadi mata-mata dari perusahaan lain hadir di ruangan itu dan mereka tak ingin kerja keras mereka dimanfaatkan habis-habisan oleh orang lain.

Oleh sebab itu Brin memutuskan untuk sedikit mendramatiskan pokok bahasan mereka. Merambah dan menyusun indeks untuk seluruh internet mungkin terlalu teknis, katanya, tapi itu juga sebuah petualangan yang sekaligus mengundang bahaya. Dari sudut pandang beberapa pemilik sistus web, urai Sergey, penjelajah bisa dianggap sebagai penyusup yang tak dikehendaki.
* Penjelajah yang dimaksud adalah crawler

"Satu aspek lain yang menarik dari kegiatan merambah web," kata Brin, "adalah bahwa ini sangat menyenangkan. Ketika anda mengontak sejuta situs web, pada dasarnya anda menjalin hubungan dengan sejuta orang yang tidak lain adalah para webmaster. Maka bayangkan anda berkeliling dari pintu ke pintu mengetuk sejuta rumah kemudian memberikan alamat email anda. Andai ini dikerjakan di kawasan tertentu Oakland, misalnya, apa kira-kira yang membuat kami tetap hidup selama prosesnya?"

Brin bercerita tentang beberapa webmaster yang "gila", yang marah ketika crawler milik Google mengganggu sistus mereka. Mereka langsung mengirim email bernada keras, bahkan sampai mengancam akan menuntut Google ke meja hijau. "Mereka menghubungi kami, mencoba menuntut kami, dan akhirnya kami sempat berhenti merambah situs web di Montana. Suatu kali, kami pernah mengehntikan penjelajahan di Singapura .. Kadang-kadang kami bertemu dengan orang macam ini, sebab mereka mengontak petugas manajemen risiko di Stanford -- yang setahu kita tidak ada. Hmmm, sekarang kita memilikinya. Ia menghubungi kami. Masalah tak pernah habis."

Ya, ternyata Google juga menggunakan metode tersebut untuk mengambil data-data suatu website dan tentunya tanpa memberitahukan hal ini terlebih dahulu kepada pemiliknya. Walaupun yang mereka buat ini bertujuan untuk mengadakan perubahan mendasar tentang perilaku user dalam melakukan pencarian di internet pada saat itu menjadi lebih mudah, hal ini tetap tidak bisa dibenarkan. Bagaimanapun dan apapun caranya mengambil data suatu website milik orang lain, baik menggunakan metode otomatis seperti crawler dan robot ataupun cara manual copy - paste (copas istilah kerennya saat ini), tanpa seijin pemiliknya adalah tindakan illegal alias pencurian (Seperti ini contohnya .. untung saya gak marah :) ). Berbeda dengan teknik pertama kali yang digunakan oleh Yahoo, Altavista dan DMOZ pada waktu itu, mereka ini cenderung disebut sebagai listing directory daripada search engine karena database mereka di-isi berdasarkan keinginan dari pemilik website itu sendiri melalui fitur "Add a site" atau "Add a URL " nya.

Tapi itu cerita dulu, sekarang Google sudah menjadi penguasa internet dan semua tuduhan negatif yang ditujukan kepadanya sudah menjadi sebaliknya. Hampir semua pemilik website ingin website-websitenya di listing di Google. Bahkan merekapun berlomba-lomba untuk menaruh link website mereka di halaman pertama milik Google. Perubahan mendasar secara besar-besaran telah terjadi pada perilaku user di internet dan hasil curian itu pun sudah tidak ada lagi karena sudah berubah menjadi bisnis legal bernilai jutaan dollar. Google pun memberikan solusi bagi pemilik website yang tidak ingin website-nya ter-indeks di Google secara otomatis dengan metode penambahan file robots.txt di server atau meta tag indexs no follow atau pengaturan file .htaccess atau yang lainnya (Lek gak kepingin katut, yo turutono caraku iki. Lek gak nurut yo salahmu dewe ... mungkin begitu gumamnya om Google :) ). So, pemilik website harus ekstra hati-hati dalam menjaga privasi websitenya agar tidak semua halaman websitenya di-indeks oleh Google ... jangan sampai halaman administrasi website atau database ter-indeks oleh Google, (bisa jadi mainan orang kalau sudah begini). Sebagai contoh, link berikut ini akan memberikan daftar suatu halaman dari suatu website yang seharusnya tidak boleh di-indeks oleh Google: Contoh.

Bagaimana selanjutnya dengan proyek pembuatan metasearch saya? Akhirnya kami selesaikan pembuatan metasearch tersebut dalam kurun waktu 2 bulan (untuk web search saja) dan tidak ada satu bulan kemudian, website dan IP kami diblokir oleh mereka, khususnya Google dan Ask (seperti yang sudah saya duga sebelumnya). Kami coba dengan pindah server, ganti IP, hasilnya tetap sama; diblokir! Ya sudah, akhirnya sia-sialah pekerjaan kami.

<!-- case closed -->

Data yang ada di Google baik yang dulu maupun yang sekarang dan walaupun itu adalah hasil kerja keras mengambil tanpa ijin selama bertahun-tahun tetaplah menjadi hak atau copyright google dan bagi google ini sudah menjadi produk dan aset usaha, tak seorangpun boleh memakainya tanpa se-ijin dia (bayar dulu kalo mau pake).

Oh ya, berikut saya cantumkan sebuah link dari blog favorit saya yang mungkin bisa menambah pengetahuan anda tentang search engine: www.virtual.co.id.

Artikel yang berhubungan:

Kasak Kusuk Warga

Statistik

Jml Artikel 132
Total Kunjungan 77.615
Saat ini ada 4819 orang sedang berkunjung di Blog Ketua RW
Vote for Joomla
     

Woro Woro

Joomlart
More than just a template
Rocket Theme
Pro Joomla Templates and Designs
Themes Club
Premium Joomla Templates Club
TDA Ngalam
Komunitas TDA Ngalam
Guru
Find freelancers at the world’s largest online service marketplace
eLance
Outsourcing to freelance programmers, web and logo designers, copywriters, illustrators and consultants
Get A Freelancer
Custom Web Design and Programming. Freelance Programmers. Outsource Web Development Outsourcing
Joomlancers
Get your Joomla project done by today!
Odesk
Outsource to Freelancers, IT Companies, Programmers, Web Designers from India, Russia, USA, and more
MochiAds
Dollar bagi yang hobby bikin Flash Games
PayPal
Online Payment Gateway
HostGator
HostGator web hosting - cPanel, Reseller and Dedicated Website Hosting

UKM RW08

Tokonita, Toserba Online
Toserba online melayani penjualan retail dan wholesale
Webito
Code Development - Home of phpBender
phpBender
phpBender, PHP codes injection for Flash
Write me the code!
Template development and conversion
Gerai Hosting
Hostingnya Blogger dan CMS mania

Warga Terpandang

Adi Setiawan (1194)
Agung Firdaus (1129)
Ame (1209)
Donny Kris (671)
Tito (883)
Zanu Zawa (852)

Plurkie

Copyright © 2007 - 2008 Ketua RW
Usia blog ini adalah 364 hari sejak online tgl 26 Nov 2007