soal dan jawaban mengenai yacy Rekayasa Mesin Pencarian


1.      Tentukan patner kelompok (1 kelompok 2 orang)
2.      Tentukan Open Source Search Engine yang akan dilakukan ekplorasi.
3.      Lakukan Claim Open Source Search Engine denga mengirik email paling lambat tanggal 20 April 2015 dengan subject nim kelompok dan isi email identitas kelompok (nim, nama) dan nama Open Source Search Engine
4.      Lakukan Instalasi dan Ekplorasi
5.      Buat dokumen laporan dalam format Ms Doc dengan Jumlah Halaman Min 8 yang berisi beberapa point sebagai berikut:
  1. Penjelasan Umum dari Search Engine yg dipilih
  2. Arsitektur Search Engine
  3. Fitur2 yang disediakan
  4. Proses Instalasi
  5. Proses Penggunaan berbagai fitur
  6. Kelebihan dan Kekurangan
  7. Pustaka
6.      Dikumpulkan paling lambat 30 April 2015 dalam ZIP format beserta dokumen Pendukung dan pustaka, dan juga termasuk file source dari SE sesuai versi yang dijalankan
7.      Setiap Kelompok akan melakukan presentasi sesuai waktu dan jadwal kuliah.
Jawab :
a.       Yacy
YaCy adalah perangkat lunak gratis yang berarti bahwa kita menggunakan lisensi perangkat lunak bebas , yangGPL (versi 2) . Perangkat lunak ini dikembangkan oleh komunitas pengembang relawan, bukan perusahaan;beberapa orang yang tercantum di kolom kanan. Kode sumber-host di Gitorious . 
b.    Crawler
Crawler merupakan program yang dimiliki search engine yang bertugas menelusuri setiap link yang ada di sebuah web site. Tugas Crawler adalah untuk membantu Spider untuk menentukan arah yang akan ditujunya sekaligus mengevaluasi link tersebut.

Indexer
Indexer merupakan salah satu komponen search engine yang bertugas untuk mendeskripsikan suatu halaman web site dan menganalisa berbagai unsur di dalamnya, seperti pada penulisan title, penulisan huruf, keyword-keyword yang ada di konten sehingga dengan demikian akan mengenal web tersebut lebih jauh lagi terutama dalam menganalisa suatu keyword di dalamnya.
c.       Peer- to-Peer Networking YaCy rekan terus bertukar fragmen indeks menggunakan Hash Table terdistribusi . Data indeks sehingga dapat mencapai rekan lokal bahkan sebelum permintaan pengguna disampaikan , tapi tentu saja itu masih diambil dari jaringan peer jarak jauh juga ketika diperlukan .
d.      Sekarang ada repositori Debian / Ubuntu tersedia . Dalam Synaptic Package Manager , tambahkan berikut apt -line (link repositori ) :deb http://debian.yacy.net ./
Daftar kunci repositori YaCy :
               sudo apt -key canggih --keyserver pgp.net.nz --recv - kunci 03D886E7
               Memperbarui repositori Anda dan menginstal :
sudo apt - get Update
sudo apt - get install openjdk - 7 - jre - headless #only versi tanpa kepala yang dibutuhkan
               sudo apt - get install YaCy
YaCy sekarang harus tersedia di http : // localhost : 8090 - ia akan meminta Anda untuk mengkonfigurasi beberapa pengaturan di sana.
Anda hanya perlu mengatur password admin jika Anda ingin akses ke konfigurasi admin dari mesin remote , atau proteksi password lokal . Jika tidak konfigurasi admin hanya dapat diakses dari localhost ( tanpa password ) .
 
( Perhatikan bahwa YaCy sekarang akan berjalan di latar belakang sepanjang waktu . )
 
Anda secara otomatis akan menerima update ketika mereka dibuat untuk repositori , seperti pembaruan lainnya Ubuntu
e.    Kami hampir siap untuk memulai memanfaatkan mesin pencari YaCy. Sebelum kita mulai, kita perlu menyesuaikan satu parameter.Ubah ke direktori YaCy. Dari sini, kita akan mampu membuat perubahan yang diperlukan dan kemudian memulai layanan:
 cd ~/yacy 
Kita perlu menambahkan username dan kombinasi password administrator ke file sehingga kita dapat menjelajahi seluruh antarmuka. Dengan editor teks Anda, buka YaCy file inisialisasi default:
 nano defaults/yacy.init 
Ini adalah file konfigurasi yang sangat panjang yang baik berkomentar. Parameter yang kita cari disebutadminAccount .
Mencari adminAccount parameter. Anda akan melihat bahwa itu adalah diset saat:
 adminAccount= adminAccountBase64MD5= adminAccountUserName=admin 
Anda perlu mengatur account dan password admin format berikut:
 adminAccount = admin: your_password
 adminAccountBase64MD5 =
 adminAccountUserName = admin
Ini akan memungkinkan Anda untuk masuk ke bagian administrasi antarmuka web setelah Anda memulai layanan.
Simpan dan tutup file tersebut.
Ketika Anda siap, memulai layanan dengan mengetik:
 ./startYACY.sh 
Ini akan memulai mesin pencari YaCy.

Akses YaCy Web Interface

Kita sekarang dapat mengakses mesin pencari kami dengan menavigasi ke halaman ini dengan browser web Anda:
 http: // server_ip: 8090
Anda harus disajikan dengan halaman utama pencarian YaCy:
Halaman utama YaCy
Seperti yang Anda lihat, ini adalah halaman mesin pencari cukup konvensional. Anda dapat mencari menggunakan search bar tersedia tanpa konfigurasi tambahan, jika Anda inginkan.
Kami akan menjelajahi antarmuka administrasi meskipun, karena yang memberikan kita dengan fleksibilitas lebih banyak. Klik pada link "Administrasi" di sudut kiri atas halaman:
Link administrasi YaCy
Anda akan dibawa ke halaman konfigurasi dasar:
YaCy konfigurasi dasar
Ini akan membahas beberapa pilihan umum yang mungkin Anda ingin mengatur segera.
Pertama, bertanya tentang preferensi bahasa. Ganti ini jika salah satu bahasa lain yang tercantum adalah lebih tepat untuk keperluan Anda.
Pertanyaan kedua memutuskan bagaimana Anda ingin menggunakan YaCy hal ini. Konfigurasi default adalah dengan menggunakan komputer Anda untuk bergabung dengan jaringan pencarian global yang merangkak dan indeks web. Ini adalah bagaimana mencari-peer berbasis beroperasi untuk menggantikan mesin pencari tradisional.
Ini akan membantu memungkinkan Anda untuk bergabung rekan-rekan dalam menyediakan sumber daya pencari besar, dan akan memungkinkan Anda untuk memanfaatkan pekerjaan yang lain sudah mulai.
Jika Anda tidak ingin menggunakan YaCy sebagai mesin pencari tradisional, Anda malah dapat memilih untuk membuat portal pencarian untuk satu situs dengan memilih opsi kedua, atau menggunakannya untuk indeks jaringan lokal dengan memilih pilihan ketiga.
Untuk saat ini, kami akan memilih opsi pertama.
Pengaturan ketiga adalah untuk membuat nama rekan yang unik untuk komputer ini. Jika Anda memiliki beberapa server yang menjalankan YaCy, ini menjadi semakin penting jika Anda ingin mengintip dengan mereka secara eksklusif. Either way, pilih nama yang unik di sini.
Untuk bagian keempat, hapus "Konfigurasi router untuk YaCy" karena mesin pencari kami diinstal pada VPS yang tidak di belakang router tradisional.
Klik pada "Set Konfigurasi" ketika Anda selesai.

Situs merangkak Berkontribusi ke Global Index

Sekarang Anda dapat mencari menggunakan indeks terus rekan YaCy Anda. Hasil pencarian akan menjadi lebih dan lebih akurat semakin banyak orang berpartisipasi dalam sistem.
Kami dapat berkontribusi dengan merangkak situs pada contoh kami YaCy sehingga rekan-rekan lain dapat menemukan laman merangkak.
Untuk memulai proses ini, klik pada "Crawler / Harvester" link di sisi kiri bawah "Produksi Index" bagian.
Link crawler YaCy
Jika Anda sudah mencoba untuk mencari sesuatu dan tidak mendapatkan hasil yang Anda cari, pertimbangkan mulai indeks halaman di situs dengan contoh Anda. Ini akan membuat pencarian Anda lebih akurat untuk diri sendiri dan rekan-rekan Anda.
Ketik URL yang ingin Anda indeks di "Start URL" bagian:
YaCy wikipedia merangkak
Ini harus mengisi daftar link yang YaCy ditemukan pada URL yang bersangkutan. Anda dapat memilih salah satu URL asli yang Anda diinput, atau memilih untuk menggunakan daftar link dari halaman yang Anda ketik.
Selanjutnya, Anda dapat memilih apakah Anda ingin mengindeks link dalam domain, atau apakah Anda hanya akan seperti indeks mereka yang sub-jalur URL yang diberikan.
Perbedaannya adalah bahwa jika Anda mengetik di http://example.com/about , pilihan pertama akan Indeks http://example.com/sites , sedangkan opsi kedua akan hanya halaman indeks terletak di bawah jalan diinput ( http://example.com/about/me ).
Anda dapat membatasi jumlah dokumen yang Anda indeks merangkak kehendak. Klik "Start New Crawl" ketika Anda selesai untuk mulai merangkak situs yang dipilih.
Klik pada "Penciptaan Monitor" link di sisi kiri untuk melihat kemajuan pengindeksan. Anda akan melihat sesuatu seperti ini:
YaCy penciptaan Monitor
Server Anda akan meng-crawl URL yang ditentukan sebesar 2 permintaan per detik sampai telah baik kehabisan link dirantai bersama-sama atau mencapai batas yang ditetapkan.
Jika Anda kemudian mencari halaman yang terkait dengan merangkak Anda, hasil yang Anda diindeks harus berkontribusi pada hasil.

Menggunakan YaCy untuk Situs Web Anda

Satu hal yang YaCy dapat digunakan untuk adalah untuk menyediakan fungsi pencarian untuk website Anda. Anda dapat mengkonfigurasi indeks situs Anda untuk beroperasi sebagai mesin pencari dibatasi untuk domain Anda.
Pertama, pilih "Admin Console" di bawah "rekan Control" bagian dalam sisi kiri. Di konsol admin, kembali ke halaman "Konfigurasi Dasar".
Kali ini, untuk pertanyaan kedua, pilih "Cari Portal untuk halaman web Anda sendiri":
Config dasar YaCy lagi
Klik "Set Konfigurasi" pada bagian bawah.
Berikutnya, Anda perlu merangkak domain Anda untuk menghasilkan konten yang akan tersedia melalui alat pencarian Anda. Sekali lagi, klik pada link "Crawler / Harvester" di bawah "Produksi Indeks" pada sisi kiri.
Masukkan URL Anda di "Start URL" lapangan. Klik "Start New Crawl" ketika Anda telah memilih pilihan Anda:
YaCy merangkak domain sendiri
Berikutnya, klik pada "Cari Integrasi ke Situs Eksternal" link di bawah "Cari Design" bagian di sisi kiri.
Ada dua cara terpisah untuk mengkonfigurasi YaCy pencarian. Kami akan menggunakan yang kedua, yang disebut "Remote akses melalui dipilih YaCy rekan".
Anda akan melihat bahwa YaCy secara otomatis menghasilkan kode yang Anda akan perlu untuk menanamkan dalam halaman web di situs Anda:
YaCy AutoGenerate html
Di situs Anda, Anda perlu membuat halaman yang memiliki kode ini di dalam. Anda mungkin harus menyesuaikan alamat IP dan port untuk mencocokkan konfigurasi server dengan YaCy diinstal.
Untuk situs saya, saya membuat sebuah search.html halaman di root dokumen server saya. Saya membuat sebuah halaman html sederhana, dan termasuk kode yang dihasilkan oleh YaCy:
 <Html>
   <Head>
     <Title> Uji </ title>
   </ Head>
   <Body>
     <H1> Halaman Pencarian </ h1>
     <P> Di sini kita pergi ... </ p>
 <Script src = "http://111.111.111.111:8090/jquery/js/jquery-1.7.min.js" type = "text / javascript" type = "text / javascript"> </ script>
 <Script>
 $ (Document) .ready (function () {
 yconf = {
 url: 'http://111.111.111.111:8090',
 Judul: 'YaCy Cari Widget',
 logo: '/yacy/ui/img/yacy-logo.png',
 link: 'http://www.yacy.net',
 global yang: palsu,
 width: 500,
 height: 600,
 Posisi: ['top', 30],
 tema: 'mulai'
 };
 $ .getScript (Yconf.url + '/ portalsearch / YaCy-portalsearch.js', function () {});
 });
 </ Script>
 <Div id = "yacylivesearch">
 <Form id = metode "ysearch" = "mendapatkan" menerima-charset = "UTF-8" action = "http://111.111.111.111:8090/yacysearch.html">
 Live Search <input name = "query" id = "yquery" class = "mewah" type = "text" size = "15" maxlength = "80" value = "" />
 <Input type = "hidden" name = "memverifikasi" value = "cacheonly" />
 <Input type = "hidden" name = "maximumRecords" value = "20" />
 <Input type = "hidden" name = "sumber daya" value = "lokal" />
 <Input type = "hidden" name = "urlmaskfilter" value = ". *" />
 <Input type = "hidden" name = "prefermaskfilter" value = "" />
 <Input type = "hidden" name = "display" value = "2" />
 <Input type = "hidden" name = "nav" value = "semua" />
 <Input type = "submit" name = "Masukkan" value = "Cari" />
 </ Form>
 </ Div>
   </ Body>
 </ Html>
Anda kemudian dapat menyimpan file dan mengaksesnya dari browser web Anda dengan pergi ke:


f.       Keuntungan 


Slide PDF dari ApacheCon 2012: Web Search Appliance dengan Solr dan YaCy
·         Karena tidak ada server pusat, hasilnya tidak dapat disensor dengan mudah, dan keandalan adalah (setidaknya secara teoritis) lebih tinggi, karena tidak ada satu titik kegagalan dan indeks pencarian disimpan secara berlebihan. [4]
·         Karena mesin tidak dimiliki oleh perusahaan, tidak ada iklan yang terpusat.
·         Karena desain YaCy, dapat digunakan untuk indeks intranet atau darknets , di mana internet mesin pencari tidak dapat atau tidak beroperasi, termasuk Tor , I2P atau Freenet .
·         Hal ini dimungkinkan untuk mencapai tingkat tinggi privasi.
·         Pada setiap pencarian YaCy menjemput halaman disediakan dalam hasil pencarian dan memverifikasi bahwa mereka masih mengandung kata kunci yang diminta oleh pengguna. Hal ini memastikan bahwa halaman yang tidak lagi mengandung kata kunci yang diminta tidak ditampilkan kepada pengguna, antara lain.
·         Protokol YaCy menggunakan permintaan HTTP , yang memelihara transparansi dan discoverability, sementara membantu diagnosis dan penyidikan. Kinerja dapat ditingkatkan hingga mendekati bahwa dari biner-satunya protokol (seperti TCP & UDP , lihat bagian Kekurangan ), dengan menggunakan kompresi , seperti gzip .
·         Built-in mendukung untuk melayani hasil pencarian melalui OpenSearch

Kekurangan 

·         Tidak ada NAT traversal fungsi built in.
·         Karena tidak ada server pusat dan jaringan YaCy terbuka bagi siapa saja, rekan-rekan berbahaya yang (secara teoritis) dapat memasukkan hasil pencarian yang tidak akurat atau bias secara komersial. Dalam teori tidak ada hasil pencarian yang ditampilkan kepada pengguna bisa 'salah' karena semua hasilnya, jika demikian dikonfigurasi, diverifikasi dengan men-download setiap halaman dari hasil set untuk melihat apakah kata-kata pencarian benar-benar ada pada halaman dari URL hasil pencarian. Namun, YaCy menggunakan User agent string untuk mengidentifikasi sendiri, berarti web server bisa turunkan konten yang berbeda ke crawler YaCy daripada pengunjung normal, tapi hal ini berlaku untuk hampir semua mesin pencari.
·         Verifikasi hasil dilakukan sisi klien pada setiap pencarian, yang meningkatkan lalu lintas jaringan pada komputer yang menjalankan YaCy dan membuat YaCy lambat untuk menampilkan hasil pencarian dari mesin pencari seperti Google . Perilaku ini dapat dinonaktifkan, tapi itu akan membuat pencarian rentan terhadap spam yang .
·         Protokol YaCy menggunakan HTTP-Permintaan , yang dapat lebih lambat dari protokol biner.
·         Hilang IPv6 dukungan. [5]
·         Peringkat situs dilakukan pada sisi client YaCy (pengguna didorong untuk menjalankan server YaCy mereka sendiri, seperti menggunakan server lokal diperlukan untuk mendapatkan banyak manfaat dari YaCy). Algoritma peringkat, meskipun dengan mudah disesuaikan, tidak memiliki beban kerja mereka didistribusikan dan terbatas pada penggunaan indeks kata YaCy dan analisis apapun dapat dilakukan pada objek yang peringkat. Oleh karena itu, algoritma peringkat lebih kompleks seperti yang digunakan oleh Google (yang menganalisis peringkat menggunakan berbagai faktor kontekstual dikembangkan selama merangkak konten) tidak, belum, layak di YaCy, menempatkan batasan pada cara yang paling pengguna untuk mengambil hasil yang lebih relevan. Namun, itu mungkin untuk menerapkan crowdsourced peringkat hasil YaCy menggunakan software seperti Berusaha .
·         Dari pengembangan dan pemeliharaan sudut pandang, YaCy mewarisi Java kerugian

Komentar

Postingan populer dari blog ini

algoritma dan pascal

CERITA

cara enkripsi dengan chiper