:::: MENU ::::
GPU

GPU based parallel cooperative particle swarm optimization using C-CUDA: a case study

“GPU based parallel cooperative particle swarm optimization using C-CUDA: a case study.” başlıklı çalışma Kumar, Jitendra, Lotika Singh ve Sandeep Paul tarafından yapılmış olup Fuzzy Systems (FUZZ), 2013 IEEE International Conference on. IEEE konferansında 2013 yılında sunulmuştur.

Evrimsel algoritmaları CUDA üzerinde gerçeklemenin hızlanmaya katkısı olduğu gibi, yakınsama zamanında iyileşme(improvement in convergence time) yaptığı da görülmektedir.

Çalışmada CUDA üzerinde Cooperative Particle Swarm Optimization (CPSO) algoritması gerçeklenmiştir.

Çalışmada CUDA’nın randomize sınıfının popülasyon çeşitliliğini daha iyi ürettiği belirtilmiştir.

CPSO çalışması: van den Bergh, Frans, Andries P. Engelbrecht, and A. P. Engelbrecht. “Cooperative learning in neural networks using particle swarm optimizers.” South African Computer Journal. 2000. APA

CUDA(COMPUTE UNIFIED DEVICE ARCHITECTURE)

CUDA, NVIDIA tarafından geliştirilmiş bir yazılım ve donanım mimarisidir. CUDA, SIMD (Single Instruction Multiple Data) programlama modeline uygun çalışma gösterir. CPU ve GPU birlikte işleme yapar. Aynı anda çok sayıda thread çalıştığından SIMT (Single Instruction Multiple Threads) programlama modeli şeklinde isimlendirilmiştir.

GPU’da çalışan koda kernel ismi verilmektedir. Kodun bir de CPU’da çalışan kısmı mevcuttur.

CUDA grid, block ve thread yapısı

grid-block-thread

GPU bellek hiyerarşisi aşağıda görülmektedir.

gpu-memory-hierarchy-model

Evrimsel algoritmaların fitness değerlendirme işlemi GPU’da yapılarak zaman kazanımı sağlanmaktadır.

Cooperative Particle Swarm Optimization (CPSO)

Kooperatif PSO’da parçacıklar arasında bir yarıştan ziyade yardımlaşma fikri ön plana çıkarılmıştır. Popülasyon n farklı alt popülasyona bölünür ve her bir alt bölüm ayrı ayrı çözüme ulaşmaya çalışır.

CPSO’nun bölünmüş sürü yaklaşımı:

pseudo-code-for-split-swarm-approach-assuming-m-particles-per-swarm

n=5 ve D=1000 için düşünelim.
M=Parçacık Sayısı

n adet D boyutlu S1..Sn arasında sürü oluşturulur. {5 adet 1000 boyutlu sürü oluşturulur}
Durdurma kriteri sağlanıncaya kadar:
—S1–Sn sürülerinin her birinden en iyi parçacıkları seç(b1–bn)
—— For k:1-M, i:1:n
———- p=Si sürüsünün k.parçacığı
———- v =(b1;b2;:;p;:;bn) – Bir vektör oluşturulur
———- E(v)= error function at v
———- E(v)’yi kullanarak Si sürüsündeki k parçacığının fitnesini ayarla
———- b1–bn deki en iyi fitnessleri gerekliyse güncelle
—— S1–Sn sürülerinin normal PSO güncellemelerini yap
—Durdurma kriteri.

CPSO’da her bir jenerasyonda 4ns yani (2 pBest hesabı, 2 gBest hesabı)xBoyut SayısıXPopülasyon Sayısı kadar fonksiyon değerlemesi yapmaktadır. 1000 boyutlu 20 parçacıklı bir sistemde 80000 FEs yapılır. Çok fonksiyon değerlemesi yapıldığından paralel programlama çözümü uygun bir yaklaşımdır.

GPU destekli CPSO algoritmasının sözde kodu:

parallel_implementation_using_gpu

Paralel olarak fitness değerlemesi aşağıdaki şekilde yapılmaktadır:

parallel-implementation-of-fitness-evaluation

Hesaplama işlemi atomic operations ile yapılmaktadır. Böylece aynı anda aynı bölgeye tek bir yazma işlemi gerçekleştirilmektedir. Sonuçlar shared memory’ye yazılmaktadır.

context vector oluşumu aşağıdaki şekilde yapılmaktadır:

context-vector-generation

Tüm adımlar aşağıdaki şekilde görselleştirilmiştir:

implementation-diagram-of-cpso-on-gpu-using-c-cuda

İşlemler GPU’da yapılırken organizasyon CPU tarafından yürütülmektedir.

Çalışmada ?1 = ?2 = 2.05 ve ? = 0.25 alınmıştır.

Çalışmanın yapıldığı makinanın özellikleri:
pc

Test fonksiyonları:

test-fonksiyonlari

CUDA’da thread/block sayısını belirlemek de önemli bir karardır. Sonuca etki etmektedir. Aşağıda farklı boyutlarda farklı thread/block sayısın etkisi görülmektedir.

hizlanma-threads-block

100 jenerasyonda 500,1000,1500 boyutta farklı threads/block sayısına göre sonuçlar:

100-generations

Her thread bir boyutta işlem yapmaktadır ve her blokta ⌈?/?⌉ Boyut/Block’taki Thread Sayısı kadar eleman işlenmektedir.

Farklı fonksiyonlarda farklı hızlanmaların elde edilmesinin nedeni fonksiyonun hesaplama karmaşıklığı ile alakalıdır.

1000 jenerasyonda ulaşılan sonuçlar:

1000-jenerasyon

Yakınsama analizi ve popülasyon çeşitliliğini izleme adına yapılan çalışmada:

std

Paralel versiyonun daha iyi yakınsadığı ve daha erken istenen sonuca ulaştığı görülmektedir. Bunun nedeni olarak CUDA’nın rastgele sayı üretme tekniğinin daha iyi olduğu sonucuna varılmıştır. Ayrıca CPU’da tek noktalı bir rastgele sayı üretme durumu var iken, burada her bir GPU çekirdeği için ayrı bir rastgele sayı üretme çekirdeği vardır.

Çalışmayı indirmek için:
gpu_based_parallel_cooperative_particle_swarm_optimization_using_c_cuda_a_case_study


A parallel Bees Algorithm implementation on GPU

“A parallel Bees Algorithm implementation on GPU” başlıklı makale Journal of Systems Architecture dergisinin 2014 yılında yayınlanan 60.sayısının 271-279.sayfalarında yayınlanmıştır. Makaleyi Guo-Heng Luo, Sheng-Kai Huang, Yue-Shan Chang ve Shyan-Ming Yuan yazmıştır.

Makaleyi indirmek için:
A-parallel-Bees-Algorithm-implementation-on-GPU
Çalışmada Arı Algoritması için paralel bir yaklaşım geliştirilerek CUBA(CUDA based Bees Algorithm) ismi verilmiştir.

Arı Algoritması bal arılarından esinlenen, popülasyon tabanlı bir arama optimizasyon problem çözüm yaklaşımıdır. Hem komşuluk aramasını, hem de rastgele aramayı kullanır. Sürü zekası tabanlı yaklaşımlar optimizasyon problemlerinin çözüm sürelerini hayli düşürmüştür. Bu yaklaşımlar paralelleştirme yöntemiyle çok daha hızlı bir şekilde sonuca ulaşacak şekilde yeniden uyarlanmaktadır. Burada çözüm kalitesini artırma gibi bir hedef yoktur. Arı Algoritmasına için daha önce sunulan paralel yaklaşımda kolonilerin mevcut işlemcilere bölünmesi esasına göre bir yol izlenmiştir. (H. Narasimhan, Parallel artificial bee colony (PABC) algorithm, in: 2009 World
Congress on Nature & Biologically Inspired Computing, 2009, pp. 306–311.)

Konuyla ilgili benzer bir çalışmada(A.K.R. Mohamad Idris, M.W. Mustafa, A Parallel Bees Algorithm for ATC
enhancement in modern electrical network, in: 2010 Fourth Asia International
Conference on Mathematical/Analytical Modelling and Computer, Simulation,
2010, pp. 450–455.) modern elektrik ağlarında mevcut transfer yeteneğini artırmaya yönelik paralel arı algoritması önerilmiştir.

Arı algoritmasının FPGA (Field Programmable Gate Array – Alanda Programlanabilir Kapı Dizileri) ile de uygulamasının yapıldığına dikkat çekilerek şimdiye kadar GPU üzerinde bir çalışma yapılmadığı belirtilmiştir. Çalışmanın ana amacının GPU üzerinde çalışan paralel arı algoritmasını dizayn etmek ve uygulamak olduğu açıklanmıştır.

Arı algoritmasının temel akış diyagramı:

BeesAlgorithm

Parametreler:
n (number of scout bees),
m (number of sites selected out of n visited sites),
e (number of best sites out of m selected sites),
nep (number of bees recruited for best e sites),
nsp (number of bees recruited for the other (m–e) selected sites),
ngh (initial size of patches which includes site and its neighbourhood)
stopping criterion

Komşuluk Daraltma(Neighbourhood shrinking)

Çiçek parçaları : a = {a1. . ., an} olarak tanımlanır ve:
ait

t o anda bulunulan iterasyon sayısını vermektedir.

Yerel bir noktada takılmayı engellemek için gelişimin olmadığı iterasyonlarda değer 0,8 oranında küçültülür.
ngh

Kaynağın Terk Edilmesi

Belirli bir iterasyon sonucunda iyileşme sağlanamadıysa işlem durdurulur. Daha iyi bir sonuç üretecek nokta kalmadıysa rastgele bir noktadan yeni bir arama başlatılabilir. İlgili çalışmada da bu tür modifikasyonların yapıldığı bir çalışmadaki(D.T. Pham, M. Castellani, The Bees Algorithm: modelling foraging behaviour to
solve continuous optimization problems, Proceeding of Institute Mechanical Engineering, C: Journal of Mechanical Engineering and Science 223 (12) (2009) 2919–2938.) Arı algoritması kullanılmıştır.

Esnek AC İletim Sistemleri (FACTS) cihazlarının yerleşimi için yapılan bir ilgili bir çalışma incelenmiştir. Bu çalışmada mevcut transfer yeteneği maksimize edilmek istenmektedir. Çalışmada Bees Algorithm (BA), Genetic Algorithm (GA) ve Parallel Genetic Algorithms (PGA) ile güzel sonuçlar elde edilmiş lakin BCO, GPU ile çalışır vaziyete getirilmemiştir.

Oluşturulan paralel yaklaşımda her bir thread kendi kolonisindeki bir bal arısını temsil etmektedir. Koloniler thread ID’lerine göre farklı bloklara bölünmektedir. Her blokta algoritma bağımsız olarak çalıştırılmaktadır. Her iterasyonda değişen bilgiler shared memory’e eklenerek diğer bloklarla paylaşımı sağlanmaktadır. Global memory ile her iterasyonda erişime geçilmemesi gecikme zamanının azalmasına ve boşa zaman harcanmasının önüne geçilmesine zemin hazırlamıştır. Farklı bloklardaki koloniler birbirleriyle iletişime geçmemektedir çünkü shared memory farklı blocklar tarafından erişilebilir değildir.

cuba

cuba-algoritmasi

Paralel olarak rastgele bir şekilde başlangıç değerleri oluşturulur.
Paralel olarak arıların değerleri ile fitness’lar hesaplanır.
Paralel olarak Odd–Even Sorting algorithm(Tek Çift Sıralama Algoritması) ile sıralamanın yapıldığı belirtilmektedir. Tek Çift Sıralama Algoritması, Bubble Sort temelli paralel bir sıralama algoritmasıdır ve n/2 adımda sıralama işlemini gerçekleştirmektedir.

Bir bloktaki koloni sayısı = Bir bloktaki thread sayısı/ Her kolonideki arı sayısı şeklinde tanımlanmıştır.
BlockDim = 256 ve N = 8 ise her blokta 32 koloni bulunmaktadır.

Çalışmada 9 farklı kıyaslama fonksiyonu kullanılmıştır:
Benchmark-functions

Sonuçlar incelendiğinde paralel yaklaşım kıyas fonksiyonlara bağlı olarak 13-56 kat arasında hızlı çalışmaktadır.
hizlanma


MATLAB’da arrayfun nasıl kullanılır?

MATLAB’ın GPU hesaplamada önerdiği yöntemlerden birisi de arrayfun fonksiyonunun kullanılmasıdır.

sonuc = arrayfun(@Fonksiyonum, giris1, giris2,...); şeklinde bir yapı ile kullanılmaktadır.

Giriş parametreleri(giris1, giris2,…) gpuArray olarak tanımlanmak zorundadır.
Fonksiyonumuz sayılarla ifade edilebilen ve eleman bazlı (scalar/elementwise) olmalıdır. Yani vektör ve matris hesaplamaları yapılamamaktadır.
sonuc, Fonksiyonumuzun çıktısı olarak GPU belleğinde oluşur.

Örneğin 4 farklı diziyi giriş olarak alan basit bir hesaplamanın yapıldığı yapı aşağıdadır.


a = gpuArray(1:0.1:10);
b = gpuArray(2:0.1:11);
c = gpuArray(3:0.1:12);
d = gpuArray(4:0.1:13);
gpu_x = arrayfun(@Fonksiyonum,a,b,c,d);
x= gather(gpu_x);

Fonksiyonum.m dosyasının içeriği:
function out = Fonksiyonum(a, b, c, d)
out = b / (a * d * sin(c));

Burada işlemler eleman bazlı ve sayısal olduğu için Fonksiyonum fonksiyonu GPU’da paralel bir şekilde çalıştırılmaktadır.

arrayfun ile sadece basit sayısal işlemler değil kontrol parametreleri de kullanılabilir. for, while, break, if gibi ifadelerle de fonksiyonlar yazılabilir.

Örneğin:

myGoodFunc

Aşağıdaki örnekte matris indekslemesi olduğundan hata vermektedir.


GPU Hesaplamadaki Yetersiz Bellek Hatasının Nedeni ve Çözümü

GPU hesaplama işleminde özellikle büyük boyutlu verilerle çalışırken verinin doğruluğunu kontrol etmemiz gerekmektedir. CPU hesaplamada büyük boyutlu veriler işletim sistemi tarafından belirlenen mevcut bellek boyutuna geldiği zaman otomatik olarak harddisk’te bir takas hafızası(swapping memory) oluşturarak veri doğrulama işini yapmış olur, bu yüzden de CPU’da işlemler daha yavaştır. GPU belleği ile harddist arasında böyle bir takas hafızası otomatik olarak OLUŞMAMAKTADIR. Bu yüzden kullanıcı GPU bellek limitini aşan verilen verifikasyonundan kendisi sorumludur.

Örneğin 10000×10000’lik double tipinde rastgele sayıları bellekte oluşturulalım ve GPU’ya aktaralım.
A = rand(10000);
Agpu = gpuArray(A);

Bu işlemden önce ekran kartımıza baktığımızda:
bos-bellek-1
İşlemin sonunda baktığımızda:
bos-bellek-2

Ekran kartı belleğimizde boş yer olduğu görülmektedir. Aynı şekilde yeniden bir rastgele sayı matrisi oluşturduğumuzda hata vermektedir çünkü bu yeni oluşturacağımız kısmı yerleştirecek alan bulunmamaktadır.

İlk başta boş alan: 973,668,352 byte’dır.
Rastgele 100 milyon sayı doldurulunca 173,604,864 byte alan kalmıştır.
1 double 8 byte olduğundan 800,000,000 byte alan dolmuştur.

Bellekte yeterli alan açmak için;
clear komutuyla GPU belleğindeki veriler silinebilir
veya
gpu = gpuDevice(1);
reset(gpu);

komutlarıyla ekran kartı resetlenebilir.


Sayfalar:123