Thursday, May 22, 2014

Negara Seni dalam Komputasi Paralel dengan R

Nama   : Diastri Rachmawati
NPM   : 51410982
Kelas   : 4IA13


KOMPUTASI PARALEL
Sebelum membahas lebih lanjut, kita harus mengerti terlebih dahulu mengenai paralel komputasi. Untuk memahami dan mengevaluasi perbedaan paket yang tersedia, penting untuk memiliki gambaran tentang teknologi yang sudah ada untuk komputasi paralel. Perkenalan rinci dapat ditemukan dalam berbagai buku untuk komputasi atau komputer cluster paralel. Secara umum, komputasi paralel berhubungan dengan hardware dan software untuk perhitungan di mana banyak perhitungan dilakukan secara bersamaan. Tujuan utama dari komputasi paralel adalah peningkatan dalam menghitung kapasitas.

Pada saat yang sama, kemajuan metodologis telah menyebabkan lebih komputasi menuntut solusi. Metode ini baru-baru ini adalah penggunaan simulasi dan resampling teknik. Kedua ukuran data meningkat dan peningkatan tuntutan simulasi telah didekati oleh para peneliti melalui komputasi paralel. Jurnal ini membahas tentang keadaan komputasi paralel dengan R, dan menyediakan titik awal untuk peneliti tertarik untuk mengadopsi metode komputasi paralel.

Sebelumnya kita ketahui dahulu apa itu bahasa R. R adalah bahasa pemrograman open source dan software lingkungan yang matang untuk komputasi statistik dan grafis. R instalasi inti menyediakan penerjemah bahasa dan banyak fungsi statistik dan modeling. R awalnya diciptakan oleh R. Ihaka dan R. Gentleman pada tahun 1993 dan sekarang sedang dikembangkan oleh Development R. Banyak bidang penelitian statistik mengalami pertumbuhan pesat dalam ukuran set data. Pendekatan yang umum adalah untuk menggunakan komputasi paralel.

Jurnal ini menyajikan gambaran teknik untuk komputasi paralel dengan R pada komputer cluster, pada sistem multicore, dan komputasi grid. Dua paket (snow, Rmpi) sangat cocok untuk penggunaan umum di komputer cluster. Paket untuk komputasi grid masih dalam pengembangan, hanya satu paket saat ini yang tersedia untuk pengguna akhir.  Dua paket R yang berkembang dengan baik menonjol untuk digunakan dalam high performance lingkungan multicomputer yaitu Rmpi dan snow. Keduanya memiliki kegunaan yang dapat diterima, mendukung spektrum fungsi untuk komputasi paralel dengan R, dan memberikan kinerja yang baik. Paket lain mencoba untuk meningkatkan kegunaan, tetapi keuntungan kegunaannya sejauh ini biasanya bisa dicapai dengan mengorbankan fungsionalitas yang lebih rendah.

Fasilitas memanfaatkan arsitektur multicore yang ada. Eksternal dan arsitektur perpustakaan dioptimalkan (misalnya PBLAS) merupakan salah satu solusi. Namun, aljabar linear tidak selalu substansial bottleneck dalam perhitungan statistik umum. Paket Rmpi dan snow dapat menggunakan beberapa contoh R dimulai pada satu mesin , menggunakan soket atau MPI untuk komunikasi. Namun, setiap contoh R membutuhkan memori sendiri utamanya, dan jumlah memori utama akan sering membatasi skalabilitas .

Paket tahap awal untuk komputasi grid yang tersedia. Perkembangan lebih lanjut bergantung pada pemahaman yang lebih jelas tentang bagaimana infrastruktur jaringan dapat dimanfaatkan untuk aplikasi statistik.

Mengenai perkembangan yang lebih lanjutnya, paket R untuk lingkungan multicomputer berkembang dengan baik dan sangat berguna. Ada ruang untuk perbaikan kecil dalam dokumentasi (misalnya menambahkan sketsa untuk membantu pengguna baru dalam membangun cluster sederhana) dan optimalisasi kinerja. Prospek paling menarik untuk pembangunan baru di daerah lain dari lingkungan multicomputer ditutupi dengan baik oleh snow dan Rmpi .

Sistem multicore sekarang sangat umum, dan jumlah prosesor per chip semakin banyak. Ada kebutuhan mendesak untuk integrasi kode R ke dalam lingkungan multicore. Paket pnmath adalah langkah terlebih dulu ke arah ini. Pendekatan ini memiliki potensi untuk mempercepat kode numerik intensif, menghasilkan faktor perbaikan yang diberikan dengan jumlah yang tersedia dalam prosesor. Mengaktifkan fungsionalitas multicore seperti yang diterapkan dalam pnmath diperlukan panduan penyesuaian semua fungsi tingkat C. Untuk merancang sebuah paket yang mendukung penggunaan yang lebih abstrak sistem multicore untuk pengembangan paket tampaknya menjadi tugas yang sangat sulit; interaktif sifat R dan teknologi multicore yang ada menyiratkan kompilasi runtime. Multicore paket, terlebih dulu dibebaskan setelah ulasan ini selesai, merupakan pendekatan yang sangat menjanjikan pengolahan pada chip multicore .

Dari perspektif pengguna akhir, cluster komputer sering tidak tersedia, biaya fisik (akuisisi, pemeliharaan, dll) yang tinggi, dan penggunaan efektif memerlukan keahlian (misalnya beragam, konfigurasi sistem user tingkat lanjut, penguasaan batch penyerahan pekerjaan). Oleh karena itu sulit untuk menggunakan teknologi ini. Cloud computing (Vouk 2008) memungkinkan pengguna untuk mengakses layanan dari Internet tanpa mengetahui tentang infrastruktur teknologi yang mendukung mereka . Layanan web ini menyediakan kapasitas komputer resizable di awan. Ada beberapa perusahaan yang menawarkan jasa untuk biaya yang relatif sederhana dalam komputasi. Cloud computing biasanya menawarkan sebelumnya “gambar mesin” yang berisi dukungan OpenMPI, dan yang dapat diperpanjang dengan R terbaru versi dan paket. Sebuah prospek yang menarik akan menjadi pengembangan dari paket R baru untuk komunikasi dengan awan, sebuah portal web untuk mengontrol akses, dan bisnis yang tepat memodelkan untuk mengelola biaya. Paket komputasi awan tersebut dapat memberikan biaya komputasi yang efektif berbasis cluster untuk pengguna akhir .

Dalam hal perangkat keras (paralel) daya komputasi dari unit pengolahan grafis (GPU) mungkin memberikan kinerja yang signifikan untuk pengguna R. Standar untuk pemrograman GPU dalam mode vendor-independen mulai muncul (Grup Khronos 2008). Mereka menawarkan model pemrograman yang dirancang untuk memungkinkan akses langsung ke grafis spesifikasi hardware, dengan hardware grafis menjalankan sejumlah sangat tinggi dari thread secara paralel. Sebuah aplikasi bioinformatika untuk urutan keselarasan dengan GPU (kode C, tidak ada integrasi R) telah diterbitkan oleh Manavski dan Valle (2008) dan menggambarkan kegunaan dari GPU untuk percepatan dan manajemen dalam jumlah besar data biologis.

Fleksibilitas dari sistem paket R memungkinkan terjadinya integrasi yang banyak. Ini memberikan kesempatan yang baik untuk mengeksplorasi paket R agar terintegrasi ke dalam perangkat lunak pengguna akhir. Hal ini membawa kita untuk mengharapkan bahwa ketika teknologi baru muncul, R harus berada di posisi yang baik untuk mengambil keuntungan dari mereka. Makalah ini diakhiri dengan ide-ide untuk perkembangan lebih lanjut dalam komputasi kinerja tinggi dengan kode R. Contoh tersedia dalam lampiran.