soal dan jawaban mengenai yacy Rekayasa Mesin Pencarian
1.
Tentukan patner kelompok (1 kelompok 2 orang)
2.
Tentukan Open Source Search Engine yang akan dilakukan
ekplorasi.
3.
Lakukan Claim Open Source Search Engine denga mengirik
email paling lambat tanggal 20 April 2015 dengan subject nim kelompok dan isi
email identitas kelompok (nim, nama) dan nama Open Source Search Engine
4.
Lakukan Instalasi dan Ekplorasi
5.
Buat dokumen laporan dalam format Ms Doc dengan Jumlah
Halaman Min 8 yang berisi beberapa point sebagai berikut:
- Penjelasan
Umum dari Search
Engine yg dipilih
- Arsitektur
Search Engine
- Fitur2
yang disediakan
- Proses
Instalasi
- Proses
Penggunaan berbagai
fitur
- Kelebihan
dan Kekurangan
- Pustaka
6.
Dikumpulkan paling lambat 30 April 2015 dalam ZIP format
beserta dokumen Pendukung dan pustaka, dan juga termasuk file source dari SE
sesuai versi yang dijalankan
7.
Setiap Kelompok akan melakukan presentasi sesuai waktu dan
jadwal kuliah.
Jawab :
a. Yacy
YaCy adalah perangkat lunak gratis yang berarti bahwa kita menggunakan lisensi perangkat lunak bebas , yangGPL (versi 2) . Perangkat lunak ini dikembangkan oleh komunitas pengembang relawan, bukan perusahaan;beberapa orang yang tercantum di kolom kanan. Kode sumber-host di Gitorious .
YaCy adalah perangkat lunak gratis yang berarti bahwa kita menggunakan lisensi perangkat lunak bebas , yangGPL (versi 2) . Perangkat lunak ini dikembangkan oleh komunitas pengembang relawan, bukan perusahaan;beberapa orang yang tercantum di kolom kanan. Kode sumber-host di Gitorious .
b. Crawler
Crawler merupakan program yang dimiliki search engine yang bertugas menelusuri setiap link yang ada di sebuah web site. Tugas Crawler adalah untuk membantu Spider untuk menentukan arah yang akan ditujunya sekaligus mengevaluasi link tersebut.
Indexer
Indexer merupakan salah satu komponen search engine yang bertugas untuk mendeskripsikan suatu halaman web site dan menganalisa berbagai unsur di dalamnya, seperti pada penulisan title, penulisan huruf, keyword-keyword yang ada di konten sehingga dengan demikian akan mengenal web tersebut lebih jauh lagi terutama dalam menganalisa suatu keyword di dalamnya.
Crawler merupakan program yang dimiliki search engine yang bertugas menelusuri setiap link yang ada di sebuah web site. Tugas Crawler adalah untuk membantu Spider untuk menentukan arah yang akan ditujunya sekaligus mengevaluasi link tersebut.
Indexer
Indexer merupakan salah satu komponen search engine yang bertugas untuk mendeskripsikan suatu halaman web site dan menganalisa berbagai unsur di dalamnya, seperti pada penulisan title, penulisan huruf, keyword-keyword yang ada di konten sehingga dengan demikian akan mengenal web tersebut lebih jauh lagi terutama dalam menganalisa suatu keyword di dalamnya.
c.
Peer- to-Peer Networking
YaCy rekan terus bertukar fragmen indeks menggunakan Hash Table terdistribusi .
Data indeks sehingga dapat mencapai rekan lokal bahkan sebelum permintaan
pengguna disampaikan , tapi tentu saja itu masih diambil dari jaringan peer
jarak jauh juga ketika diperlukan .
d. Sekarang ada repositori Debian / Ubuntu tersedia . Dalam Synaptic Package Manager , tambahkan berikut apt -line (link repositori ) :deb http://debian.yacy.net ./
Daftar kunci repositori YaCy :
sudo apt -key canggih --keyserver pgp.net.nz --recv - kunci 03D886E7
Memperbarui repositori Anda dan menginstal :
sudo apt - get Update
sudo apt - get install openjdk - 7 - jre - headless #only versi tanpa kepala yang dibutuhkan
sudo apt - get install YaCy
YaCy sekarang harus tersedia di http : // localhost : 8090 - ia akan meminta Anda untuk mengkonfigurasi beberapa pengaturan di sana.
Anda hanya perlu mengatur password admin jika Anda ingin akses ke konfigurasi admin dari mesin remote , atau proteksi password lokal . Jika tidak konfigurasi admin hanya dapat diakses dari localhost ( tanpa password ) .
( Perhatikan bahwa YaCy sekarang akan berjalan di latar belakang sepanjang waktu . )
Anda secara otomatis akan menerima update ketika mereka dibuat untuk repositori , seperti pembaruan lainnya Ubuntu
e.
Kami hampir siap untuk memulai
memanfaatkan mesin pencari YaCy. Sebelum
kita mulai, kita perlu menyesuaikan satu parameter.Ubah ke direktori YaCy. Dari
sini, kita akan mampu membuat perubahan yang diperlukan dan kemudian memulai
layanan:
cd ~/yacy
Kita perlu menambahkan
username dan kombinasi password administrator ke file sehingga kita dapat
menjelajahi seluruh antarmuka. Dengan
editor teks Anda, buka YaCy file inisialisasi default:
nano defaults/yacy.init
Ini adalah file konfigurasi
yang sangat panjang yang baik berkomentar. Parameter
yang kita cari disebut
adminAccount
.
Mencari
adminAccount
parameter. Anda
akan melihat bahwa itu adalah diset saat: adminAccount= adminAccountBase64MD5= adminAccountUserName=admin
Anda perlu mengatur account
dan password admin format berikut:
adminAccount = admin: your_password
adminAccountBase64MD5 =
adminAccountUserName = admin
Ini akan memungkinkan Anda
untuk masuk ke bagian administrasi antarmuka web setelah Anda memulai layanan.
Simpan dan tutup file
tersebut.
Ketika Anda siap, memulai
layanan dengan mengetik:
./startYACY.sh
Ini akan memulai mesin
pencari YaCy.
Akses YaCy
Web Interface
Kita sekarang dapat mengakses
mesin pencari kami dengan menavigasi ke halaman ini dengan browser web Anda:
http: // server_ip: 8090
Anda harus disajikan dengan
halaman utama pencarian YaCy:
Seperti yang Anda lihat, ini
adalah halaman mesin pencari cukup konvensional. Anda
dapat mencari menggunakan search bar tersedia tanpa konfigurasi tambahan, jika
Anda inginkan.
Kami akan menjelajahi
antarmuka administrasi meskipun, karena yang memberikan kita dengan
fleksibilitas lebih banyak. Klik
pada link "Administrasi" di sudut kiri atas halaman:
Anda akan dibawa ke halaman
konfigurasi dasar:
Ini akan membahas beberapa
pilihan umum yang mungkin Anda ingin mengatur segera.
Pertama, bertanya tentang
preferensi bahasa. Ganti
ini jika salah satu bahasa lain yang tercantum adalah lebih tepat untuk
keperluan Anda.
Pertanyaan kedua memutuskan
bagaimana Anda ingin menggunakan YaCy hal ini. Konfigurasi
default adalah dengan menggunakan komputer Anda untuk bergabung dengan jaringan
pencarian global yang merangkak dan indeks web. Ini
adalah bagaimana mencari-peer berbasis beroperasi untuk menggantikan mesin
pencari tradisional.
Ini akan membantu
memungkinkan Anda untuk bergabung rekan-rekan dalam menyediakan sumber daya
pencari besar, dan akan memungkinkan Anda untuk memanfaatkan pekerjaan yang
lain sudah mulai.
Jika Anda tidak ingin
menggunakan YaCy sebagai mesin pencari tradisional, Anda malah dapat memilih
untuk membuat portal pencarian untuk satu situs dengan memilih opsi kedua, atau
menggunakannya untuk indeks jaringan lokal dengan memilih pilihan ketiga.
Untuk saat ini, kami akan
memilih opsi pertama.
Pengaturan ketiga adalah
untuk membuat nama rekan yang unik untuk komputer ini. Jika
Anda memiliki beberapa server yang menjalankan YaCy, ini menjadi semakin
penting jika Anda ingin mengintip dengan mereka secara eksklusif. Either
way, pilih nama yang unik di sini.
Untuk bagian keempat, hapus
"Konfigurasi router untuk YaCy" karena mesin pencari kami diinstal
pada VPS yang tidak di belakang router tradisional.
Klik pada "Set
Konfigurasi" ketika Anda selesai.
Situs
merangkak Berkontribusi ke Global Index
Sekarang Anda dapat mencari
menggunakan indeks terus rekan YaCy Anda. Hasil
pencarian akan menjadi lebih dan lebih akurat semakin banyak orang
berpartisipasi dalam sistem.
Kami dapat berkontribusi
dengan merangkak situs pada contoh kami YaCy sehingga rekan-rekan lain dapat
menemukan laman merangkak.
Untuk memulai proses ini,
klik pada "Crawler / Harvester" link di sisi kiri bawah
"Produksi Index" bagian.
Jika Anda sudah mencoba untuk
mencari sesuatu dan tidak mendapatkan hasil yang Anda cari, pertimbangkan mulai
indeks halaman di situs dengan contoh Anda. Ini
akan membuat pencarian Anda lebih akurat untuk diri sendiri dan rekan-rekan
Anda.
Ketik URL yang ingin Anda
indeks di "Start URL" bagian:
Ini harus mengisi daftar link
yang YaCy ditemukan pada URL yang bersangkutan. Anda
dapat memilih salah satu URL asli yang Anda diinput, atau memilih untuk
menggunakan daftar link dari halaman yang Anda ketik.
Selanjutnya, Anda dapat
memilih apakah Anda ingin mengindeks link dalam domain, atau apakah Anda hanya
akan seperti indeks mereka yang sub-jalur URL yang diberikan.
Perbedaannya adalah bahwa
jika Anda mengetik di
http://example.com/about
,
pilihan pertama akan Indeks http://example.com/sites
,
sedangkan opsi kedua akan hanya halaman indeks terletak di bawah jalan diinput
( http://example.com/about/me
).
Anda dapat membatasi jumlah
dokumen yang Anda indeks merangkak kehendak. Klik
"Start New Crawl" ketika Anda selesai untuk mulai merangkak situs
yang dipilih.
Klik pada "Penciptaan
Monitor" link di sisi kiri untuk melihat kemajuan pengindeksan. Anda
akan melihat sesuatu seperti ini:
Server Anda akan meng-crawl
URL yang ditentukan sebesar 2 permintaan per detik sampai telah baik kehabisan
link dirantai bersama-sama atau mencapai batas yang ditetapkan.
Jika Anda kemudian mencari
halaman yang terkait dengan merangkak Anda, hasil yang Anda diindeks harus
berkontribusi pada hasil.
Menggunakan
YaCy untuk Situs Web Anda
Satu hal yang YaCy dapat
digunakan untuk adalah untuk menyediakan fungsi pencarian untuk website Anda. Anda
dapat mengkonfigurasi indeks situs Anda untuk beroperasi sebagai mesin pencari
dibatasi untuk domain Anda.
Pertama, pilih "Admin
Console" di bawah "rekan Control" bagian dalam sisi kiri. Di
konsol admin, kembali ke halaman "Konfigurasi Dasar".
Kali ini, untuk pertanyaan
kedua, pilih "Cari Portal untuk halaman web Anda sendiri":
Klik "Set
Konfigurasi" pada bagian bawah.
Berikutnya, Anda perlu
merangkak domain Anda untuk menghasilkan konten yang akan tersedia melalui alat
pencarian Anda. Sekali
lagi, klik pada link "Crawler / Harvester" di bawah "Produksi
Indeks" pada sisi kiri.
Masukkan URL Anda di
"Start URL" lapangan. Klik
"Start New Crawl" ketika Anda telah memilih pilihan Anda:
Berikutnya, klik pada
"Cari Integrasi ke Situs Eksternal" link di bawah "Cari
Design" bagian di sisi kiri.
Ada dua cara terpisah untuk
mengkonfigurasi YaCy pencarian. Kami
akan menggunakan yang kedua, yang disebut "Remote akses melalui dipilih
YaCy rekan".
Anda akan melihat bahwa YaCy
secara otomatis menghasilkan kode yang Anda akan perlu untuk menanamkan dalam
halaman web di situs Anda:
Di situs Anda, Anda perlu
membuat halaman yang memiliki kode ini di dalam. Anda
mungkin harus menyesuaikan alamat IP dan port untuk mencocokkan konfigurasi
server dengan YaCy diinstal.
Untuk situs saya, saya
membuat sebuah
search.html
halaman
di root dokumen server saya. Saya
membuat sebuah halaman html sederhana, dan termasuk kode yang dihasilkan oleh
YaCy:<Html>
<Head>
<Title> Uji </ title>
</ Head>
<Body>
<H1> Halaman Pencarian </ h1>
<P> Di sini kita pergi ... </ p>
<Script src = "http://111.111.111.111:8090/jquery/js/jquery-1.7.min.js" type = "text / javascript" type = "text / javascript"> </ script>
<Script>
$ (Document) .ready (function () {
yconf = {
url: 'http://111.111.111.111:8090',
Judul: 'YaCy Cari Widget',
logo: '/yacy/ui/img/yacy-logo.png',
link: 'http://www.yacy.net',
global yang: palsu,
width: 500,
height: 600,
Posisi: ['top', 30],
tema: 'mulai'
};
$ .getScript (Yconf.url + '/ portalsearch / YaCy-portalsearch.js', function () {});
});
</ Script>
<Div id = "yacylivesearch">
<Form id = metode "ysearch" = "mendapatkan" menerima-charset = "UTF-8" action = "http://111.111.111.111:8090/yacysearch.html">
Live Search <input name = "query" id = "yquery" class = "mewah" type = "text" size = "15" maxlength = "80" value = "" />
<Input type = "hidden" name = "memverifikasi" value = "cacheonly" />
<Input type = "hidden" name = "maximumRecords" value = "20" />
<Input type = "hidden" name = "sumber daya" value = "lokal" />
<Input type = "hidden" name = "urlmaskfilter" value = ". *" />
<Input type = "hidden" name = "prefermaskfilter" value = "" />
<Input type = "hidden" name = "display" value = "2" />
<Input type = "hidden" name = "nav" value = "semua" />
<Input type = "submit" name = "Masukkan" value = "Cari" />
</ Form>
</ Div>
</ Body>
</ Html>
Anda kemudian dapat menyimpan
file dan mengaksesnya dari browser web Anda dengan pergi ke:
f.
Keuntungan
Slide
PDF dari ApacheCon 2012: Web Search Appliance dengan Solr dan YaCy
·
Karena tidak ada server
pusat, hasilnya tidak dapat disensor dengan
mudah, dan keandalan adalah (setidaknya secara teoritis) lebih tinggi, karena
tidak ada satu titik kegagalan dan indeks pencarian disimpan secara berlebihan. [4]
·
Karena mesin tidak
dimiliki oleh perusahaan, tidak ada iklan yang terpusat.
·
Karena desain YaCy,
dapat digunakan untuk indeks intranet atau darknets , di mana internet mesin
pencari tidak dapat atau tidak beroperasi, termasuk Tor , I2P atau Freenet .
·
Hal ini dimungkinkan
untuk mencapai tingkat tinggi privasi.
·
Pada setiap pencarian
YaCy menjemput halaman disediakan dalam hasil pencarian dan memverifikasi bahwa
mereka masih mengandung kata kunci yang diminta oleh pengguna. Hal ini
memastikan bahwa halaman yang tidak lagi mengandung kata kunci yang diminta
tidak ditampilkan kepada pengguna, antara lain.
·
Protokol YaCy
menggunakan permintaan HTTP , yang
memelihara transparansi dan discoverability, sementara membantu diagnosis dan
penyidikan. Kinerja
dapat ditingkatkan hingga mendekati bahwa dari biner-satunya protokol (seperti TCP & UDP , lihat bagian Kekurangan ), dengan menggunakan kompresi , seperti gzip .
Kekurangan
·
Karena tidak ada server
pusat dan jaringan YaCy terbuka bagi siapa saja, rekan-rekan berbahaya yang
(secara teoritis) dapat memasukkan hasil pencarian yang tidak akurat atau bias
secara komersial. Dalam
teori tidak ada hasil pencarian yang ditampilkan kepada pengguna bisa 'salah'
karena semua hasilnya, jika demikian dikonfigurasi, diverifikasi dengan
men-download setiap halaman dari hasil set untuk melihat apakah kata-kata
pencarian benar-benar ada pada halaman dari URL hasil pencarian. Namun, YaCy
menggunakan User agent string untuk
mengidentifikasi sendiri, berarti web server bisa turunkan konten yang berbeda
ke crawler YaCy daripada pengunjung normal, tapi hal ini berlaku untuk hampir
semua mesin pencari.
·
Verifikasi hasil
dilakukan sisi klien pada setiap pencarian, yang meningkatkan lalu lintas
jaringan pada komputer yang menjalankan YaCy dan membuat YaCy lambat untuk
menampilkan hasil pencarian dari mesin pencari seperti Google . Perilaku ini
dapat dinonaktifkan, tapi itu akan membuat pencarian rentan terhadap spam yang .
·
Peringkat situs
dilakukan pada sisi client YaCy (pengguna didorong untuk menjalankan server
YaCy mereka sendiri, seperti menggunakan server lokal diperlukan untuk
mendapatkan banyak manfaat dari YaCy). Algoritma
peringkat, meskipun dengan mudah disesuaikan, tidak memiliki beban kerja mereka
didistribusikan dan terbatas pada penggunaan indeks kata YaCy dan analisis
apapun dapat dilakukan pada objek yang peringkat. Oleh karena
itu, algoritma peringkat lebih kompleks seperti yang digunakan oleh Google (yang
menganalisis peringkat menggunakan berbagai faktor kontekstual dikembangkan
selama merangkak konten) tidak, belum, layak di YaCy, menempatkan batasan pada
cara yang paling pengguna untuk mengambil hasil yang lebih relevan. Namun, itu
mungkin untuk menerapkan crowdsourced peringkat hasil YaCy menggunakan software
seperti Berusaha .
Komentar