my-own-life-on-my-own-way

Nyambung nih kayaknya ceritanya ma postingan sebelumnya *wasting time dalam hal gak ngerjain2 TA* Gw ngerasa malu banget loh.. here they are:

1. Sama Tuhan yang udah Maha Baik ma gw, masih ngasih waktu untuk hidup, mungkin Dia kasian ya liat dosa2 gw banyak.. “kasian ni anak kl gw kasih mati di jurang, udah mati tragis, penuh dosa, masih muda, imut2 lagi.. gw kasih kesempatan dia idup aja deh, moga2 dia inget gw, nambah2 pahala, jadi cewe manis, anggun dan rupawan..” gt kali ye kasarnya. See? i didn’t use this chance well.. berharap besok2 masih dikasih umur biar bisa sesuai harapan. Ya Allah, izinkan aku bikin list resolusi di tahun ke 22 yah?? pleaseee..

2. Sama keluarga gw, terutama teh nila yang rajin banget nanyain gmn TA nya, kpn mo lulus?? kl lebih dari 4 semester bayar sendiri yah!! cepet les bahasa inggris, bikin passport, jobless banget sih, ngapain aja sehari2 bisnis apa kek, cari kerja kek.. *gmn rasanya lo jadi gw, teman2??*

3. Sama temen2 gw yang rajin sekali bekerja, kuliah, sambil juga ngerjain TA. *apa kabarnya gossip, sinetron, reality show??* ‘apaan tuh? ga sempet!’ gt kali ya mereka bilang.. gw aja sampai hafal iklan2 baru apa aja yg ada di tv.. fiuhhh *tepok jidat, ah!*

4. Sama orang2 yang ga bisa makan, yg ga bisa tidur, ga bisa istirahat, ga bisa sekolah, ga punya duit, apalagi yg ga bisa fesbukan.. huh, gw sangat terlena dengan semuanya itu, ga pernah gw pikirin nikmatnya.

5. Sama yang baca blog ini. Maaf yah, kalian menikmati hasil wasting time gw dengan nulis blog2 beginian ga penting.. jd nularin penyakitnya deh 😀

Advertisements

Walaupun bukan gw secara langsung nih yg mendapat kebahagiaan, tp ya gw turut merasakanlah.. Hari ini, kakak gw yg cowo (Aga) sukses menghadapi sidang skripsinya. Setelah sekian lama, akhirnya di tahun ke-7 ini kl ga salah itung, since 2002 bisa juga dia nyelesain skripsinya.. FYI, jurusan sejarah emg passing grade-nya kecil saat itu, jaman2 SPMB, tp sepertinya dr namanya cukup sulit jg ya kuliahnya, hehe.. *sok tau*.

Jd berpikir.. kapan yah gw sidang? pengennya sebelum bulan puasa ni.. doakan ya kawan! ^^’ aku butuh banyak semangat, tenaga buat mompa semangatnya, juga makanan yg banyak buat nambah tenaga, hehe ujung2nya makanan :p

Kebahagiaan yg lain adalah, kakak gw yg ke-3 (memey) ulang tahun yg ke-31, emg gada celebration apa2, seperti hari2 biasa aja, aku juga ga ngucapin langsung secara formal *padahal seharian ma dia*, tp ya turut berbahagia krn masih diberi umur, smoga juga sehat selalu, diberi rezeki, diberi jalan yg mudah untuk setiap urusannya, rumah tangganya juga harmonis, n many wish for u, sist..

trus, 3 hari lg gmn? *blushing*

Hari ni lumayan ni gw ngetik2 ngerjain TA dari pagi, huuhuu meski blum ada apa2nya dibanding temen2 yg udah melesat meroket..

I hate my bad habit yg suka menunda2 pekerjaan, terlalu santai, sakarepmu ceunah ceuk si tukul mahh..

pfuhh.. i hope this lil’ step be a beginning for the next thousand steps, hehe.. AMIN

kl ada yg tau caranya, komen disini yahh… *bingung*

here is list of some people who inspiring me, give me spirit to be like them, for whoever they are, for everything their ways.. *bener ga yah english gw? cuek aja, hehe*

1. Muhammad SAW, our prophet.. there’s no reason to not make him as idol, right?
2. My parents of course.. tidak mudah membesarkan tujuh orang anak, pasti mereka sangat bisa bersabar dan memiliki kebesaran hati.. i wish i can be like them,, be a great mom and around this world like my dad..
3. My sisters, being career woman, good mom, good wife,, what else?? owh, kind sista, of course 😀 im proud of them.
4. Peewee, my best friend ever.. seperti apapun dia, bagaimanapun dia menjalankan hidupnya, peewee is peewee.. dia tulus sbg sahabat, dia berani *terlalu berani bahkan nekat,sometimes*, easy going.. maybe some people ignore her, tp banyak pelajaran yg bisa aku ambil dr sosoknya.. (thx for help me in the hospital, to clean my p**, hehe)
5. Teman2 yang sangat bersemangat ngerjain TA, mau menganggapku teman selama di ITT, yg pada jago2 coding, salute for all of you Olin, Achie, Rezqy, Tya, Jaka, Uchie, Zaini, i can’t mention all of my classmates one by one..
6. Basic 41 B yg tidak kalah seru.. the most pleasant friend *bener ga yah bahasanya, dapet dr transtool, hehe* kocak abis, pinter2 juga, gada yg sombong smua deket, walau dg sedikit intrik tp kompak bgt mpe sekarang.. Qdex, Eka, Tiwi, Caca, Wanda n friends, disti n friends, Leo, Syukron, Eljomblo, dkk.. miss u so much.
7. Teman2 SMA yg udah pada kerja dan sekolah S2 di luar negeri *make me feel so small.. T_T*
8. Orang2 yg aku liat di buku, novel, blog, yg senang berpetualang, backpacker-an keliling dunia..
9. Orang2 yg punya banyak keterbatasan fisik n mental tp sangat bisa survive, tetap sekolah, bisa cari uang.. powerful, ga ngeluh dg apapun keadaannya.. *orang normal hebat n sukses udah biasa, kl mereka.. luar biasa!*
10. Kakek2, nenek2, orang tua yg dah renta, miskin, tp masih semangat cari uang cuma sekedar ngorek2 tong sampah, jualan sayur keliling yg ga seberapa, jd pembantu, apapun lah.. *bayangkan orang bugar, muda, sehat, pura2 sebaliknya dg meminta2!* pilu..

n well.. i can’t list it by number.. someone, also can’t be mentioned the name, aku tidak pernah bilang langsung padanya kl aku mengidolakannya juga.. we laugh, we cry, we fight, we care, fight lg, care lg, fight lg.. now, ntah kapan akan care each other lg *or never anymore, i dont know*

(to be updated)

Blocked sort-based indexing

Pembuatan sebuah non-positional index terdiri atas beberapa langkah dasar. Pertama adalah membuat sebuah pass melalui koleksi semua pasangan term-docID. Kemudian mengurutkan pasangan, dengan term sebagai dominant key dan docID sebagai secondary key. Terakhir, mengorganisir docID untuk setiap term ke dalam posting list dan menghitung statistik, seperti frekuensi term dan dokumen. Untuk koleksi yang kecil, langkah-langkah tersebut dapat dilakukan di memori.

Agar pembuatan index lebih efisien, kita merepresentasikan term sebagai termID, dimana setiap termID adalah sebuah unique serial number. Pemetaan dari term menjadi termID dapat dibuat saat pemrosesan koleksi, atau dengan pendekatan two-pass, dimana kita menyusun kosakata pada pass pertama dan membangun inverted index pada pass yang kedua.

Sebagai contoh, kita menggunakan koleksi Reuters-RCV1 sebagai model collection. Untuk setiap dokumen pada koleksi tersebut, kita mengabaikan informasi multimedia seperti gambar, dan hanya terfokus pada teks. Statistik dari koleksi Reuters-RCV1 pada tabel berikut:

symbol

statistic

value

$N$

documents

800,000

$ L_{ave}$

avg. # tokens per document

200

$M$

terms

400,000

avg. # bytes per token (incl. spaces/punct.)

6

avg. # bytes per token (without spaces/punct.)

4.5

avg. # bytes per term

7.5

$T$

tokens

100,000,000

Reuters-RCV1 memiliki 100 juta tokens. Pengumpulan seluruh pasangan termID-docID pada koleksi tersebut menggunakan 4 byte, oleh karena itu untuk setiap termID dan docID membutuhkan kapasitas penyimpanan 0.8 GB. Beberapa koleksi saat ini membutuhkan media penyimpanan yang lebih besar daripada Reuters-RCV1. Jika ukuran file saat pembentukan index lebih besar dari kapasitas memori yang tersedia, maka dapat dilakukan teknik kompresi. Namun, posting file dari beberapa koleksi yang besar tidak akan cukup di memori walaupun sudah dikompresi.

Jika memori utama tidak mencukupi, diperlukan penggunaan suatu external sorting algorithm, yaitu hanya satu yang menggunakan disk. Untuk kecepatan yang dapat diterima, kebutuhan sentral dari algoritam tersebut adalah meminimalkan jumlah random disk seeks selama sorting – sequential disk membaca lebih cepat daripada seeks. Salah satu solusinya adalah blocked sort-based indexing algorithm atau BSBI. BSBI melakukan segmentasi koleksi menjadi bagian-bagian dengan ukuran yang sama, mengurutkan pasangan termID-docID dari setiap bagian di memori, menyimpan hasil pengurutan sementara pada disk, dan menggabungkan seluruh hasil sementara menjadi final index. Algoritmanya adalah sebagai berikut:

Algoritma tersebut menguraikan (parsing) dokumen menjadi pasangan-pasangan termID-docID dan mengakumulasi pasangan-pasangan tersebut di memori sampai sebuah block dari suatu ukuran yang tetap menjadi penuh (PARSENEXTBLOCK pada algoritma di atas ). Pemilihan ukuran block dilakukan agar cukup di memori, untuk mengizinkan pengurutan yang cepat di memori. Blok kemudian dibalikkan (inverted) dan ditulis ke disk. Inversi meliputi dua langkah, pertama mengurutkan pasangan-pasangan termID-docID, kemudian mengumpulkan seluruh pasangan termID-docID dengan termID yang sama pada sebuah postings list, dimana sebuah posting adalah sebuah docID yang sederhana. Hasilnya, sebuah inverted index untuk blok yang telah dibaca, kemudian ditulis di disk. Penerapan algoritma ini di Reuters-RCV1 dengan asumsi terdapat 10 juta pasangan termID-docID yang memenuhi memori, dengan 10 blok masing-masing inverted index dari satu bagian koleksi tersebut.

Gambar diatas menunjukkan penggabungan pada blocked sort-based indexing. Dua blok (”posting list to be merged”) di-load dari disk ke memori, digabungkan di memori (”merged postings lists”) dan ditulis kembali ke disk. Ditampilkan term sebagai ganti termID agar lebih mudah dibaca.

Pada langkah terakhir, algoritma ini secara simultan menggabungkan 10 blok menjadi sebuah index gabungan yang besar. Sebagai contoh dengan dua blok pada gambar di atas, digunakan di untuk menandakan dokumen ke-i dari koleksi. Untuk melakukan penggabungan, dilakukan dengan cara membuka semua block files secara simultan, dan memelihara small read buffer untuk 10 blok yang sedang dibaca dan sebuah write buffer untuk final merged index yang sedang ditulis. Pada setiap iterasi, dipilih termID terendah yang belum diproses dengan menggunakan suatu prioritas antrian atau struktur data serupa. Semua posting list untuk termID tersebut dibaca, digabungkan, dan list gabungan ditulis kembali ke disk. Setiap read buffer diisi kembali dari file tersebut jika dibutuhkan.

Kompleksitas waktu dari BSBI adalah Ө(T log T) karena langkah dengan kompleksitas waktu tertinggi adalah pengurutan dan T adalah upperbound untuk jumlah item yang harus diurutkan (dalam hal ini jumlah pasangan termID-docID). Tapi waktu indexing yang nyata pada umumnya didominasi oleh waktu untuk parsing dokumen (PARSENEXTBLOCK) dan untuk melakukan penggabungan terakhir (MERGEBLOCKS).

Referensi:

http://nlp.stanford.edu/IR-book/html/htmledition/blocked-sort-based-indexing-1.html

Kata2 itu terinspirasi dari kaos gw… haha.. Ternyata bermakna juga. Memang harus punya hati yang kuat untuk bisa menerima dan menghadapi segala ujian dan rintangan yang terjadi dalam hidup. Sulit untuk bisa menghapus bayang2 masa lalu, sulit untuk tidak merasa menyesal dengan kejadian2 di masa lalu.. Sulit untuk bisa menerima kalo semua itu bukan karma, kesialan, tapi memang takdir yang digariskan Tuhan.. Sulit untuk menerapkan bahwa “Tuhan tidak akan menguji dengan ujian yang kamu tidak mampu untuk menghadapinya” Klo Tuhan mengujiku dengan masalah yang berat, berarti Tuhan tau klo aku ini orang yang kuat. Right?? Berarti aku harus membuktikannya klo aku memang kuat