:::: MENU ::::
Mayıs 2016

İngilizce bilimsel makale yazarken kullanılabilecek kelime önerileri…

İngilizce bilimsel makale yazarken işe yarayabilecek bazı ipuçları…
*
as are” (gibi) “which” kelimesinin yerine kullanılabilir.
Örneğin:
“The non-character tokens, which are any tokens that do not contain letters, are deleted” yerine
“The non-character tokens are deleted, as are any tokens that do not contain letters” kullanılabilir.
*
giveaway” (pot kırma, ağzından kaçırma) “disadvantage” yerine kullanılabilir.
Örneğin:
“The disadvantage of the algorithm is that it picks some garbage characters”
“The giveaway of the algorithm is that it picks some garbage characters”.
*
Comparably” (karşılaştırılabilir bir biçimde,göreceli olarak, benzer olara)kelimesi çalışmanın kıyaslama aşamasında diğer çalışmalarla aynı veya benzer veya bazen iyi bazen kötü sonuçlar ürettiği takdirde kullanılabilir.
“Our approach performs comparably to the state-of-the-art.”
*
It goes on” (işte bu böyle uzayıp gidiyor, gene de sürüp gidiyor)
“The paper of X et al. [1] goes on to state their performances against the gold standard”
*
because” cümleleri yeniden düzenlemek gerektiği zaman imdadımıza yetişiyor.
“We could not achieve better F-score because the dataset was small”
“Because the dataset was small, we could not achieve better score.”
*
as well as/as good as” (bu bir tarafa/kadar iyi) “comparably” kelimesinin yerine eş anlamlı olarak kullanılabilirler.
“Our approach performs as well as/ as good as the benchmarks”
As well as” cümle başlangıcı olarakta kullanılabilir:
“It includes a wide range of processing tools and a variety of algorithms”
“It includes a wide range of processing tools as well as a variety of algorithms”
“As well as a variety of algorithms, it includes a wide range of processing tools”.
*
A Priori“(önsel/olası/muhtemel) “beforehand”(önceden) kelimesinin yerine kullanılabilir.
“There is no way to answer questions like this before calculating crop factor”.
“There is no way to answer questions like this a priori calculating crop factor”.
*
Among them” (onların arasında) örnek verirken kullanılabilir.
“The algorithm uses many parameters- among them x and y- but z”
{Algoritma x ve y gibi parametreleri kullanıyor, z gibi değil}
*
Couch in” (bir şeyi tanımlamak için çok dikkatli ve aldatıcı kelimeler seçmek)
Used to illustrate “formulate in the same way”.
“Couched in the same terms as in arithmetic mean, geometric mean can be expressed in different way.”
“couch something in something”
“He tended to couch his explanations in arcane vocabulary.”
“She couched her words in an overly polite manner.”
*
Getting to know” (tanımaya çalışmak)
“As we know that the data is a part of the work, we developed data visualization tools” yerine
“Getting to know that the data is a part of the work, we developed data visualization tools” olabilir.
*
way” (yol) kelimesi birden fazla seçenekli çözüm metodları anlatırken kullanılabilir.
“One way to use the tools is …. Another is …. A third is ……”
*
close second” (ona yakın ve ikinci) kelimesi özellikle şekil açıklamaları sırasında kullanılabilir.
“This is the most valuable tool in the package. A close second is its visualization capabilities”.
*
depict” (göstermek, resmetmek, betimlemek)
“The situation is depicted in Figure 1.”

Kaynak: http://rushdishams.blogspot.com.tr/2012/01/language-of-scientific-paper-part-1.html


A PSO-Based Document Classification Algorithm accelerated by the CUDA Platform

“A PSO-Based Document Classification Algorithm accelerated by the CUDA Platform” başlıklı çalışma Jan Platos, Vaclav Snasel, Tomas Jezowicz, Pavel Kromer ve Ajith Abraham tarafından hazırlanmış olup 14-17 Ekim 2012 tarihleri arasında Güney Kore’nin başkenti Seul’de düzenlenmiş olan “2012 IEEE International Conference on Systems, Man, and Cybernetics” isimli konferansta sunulmuştur.

Dokümanların belirlenmiş etiket ve kategorilere göre sınıflandırılması bilinen bir problemdir. Bu problemi çözmek için çeşitli algoritmalar önerilmiştir. Klasik yöntemlerin doküman sayısının artmasıyla bağlantılı olarak çözüm süresini uzatması sonucu sezgisel yöntemlerle bu probleme çözümler üretilmiştir. Doküman sayısının çok büyük olduğu durumlarda bu çözümünde süre olarak verimsiz olmasından dolayı GPU ile CUDA platformu kullanarak bir hızlandırma işlemi yapılmıştır.

Doküman sınıflandırma bilgi alma ve kişiselleştirilmiş öneri sistemleri gibi alanlara da uyarlanabilir.

Doküman Sınıflandırma Nedir?

Bir doküman birden fazla kategoriye ait olabilir. Bir kategoride birden çok doküman bulunabilir.

Evrimsel bir algoritmada ana görev fitness fonksiyonunu belirlemektir. Doküman sınıflandırmada ölçüm yapmak için hassasiyet(precision) ve geri çağırma(recall) metrikleri kullanılır.

pr-re

TP (true positive): Doğru tasnif edilmiş doküman sayısı
FP (false positives): Yanlış tasnif edilmiş doküman sayısı
FN (false negatives): Yanlışlıkla tasnif edilememiş doküman sayısı

f1

Amaç fonksiyonu yukarıdaki şekilde oluşturulur. Bu amaç fonksiyonu tek bir kategori için iyi çalışırken birden çok kategori için iyi çalışmamaktadır. Dolayısıyla precision ve recall değerlerinin ortalamasını alma yaklaşımı kullanılmıştır. Temelde iki ortalama yaklaşımı bulunmaktadır, Mikro ve Makro Ortalama ile nasıl hesaplama yapıldığını öğrenmek için tıklayınız..

Çalışmada doküman sayısı küçük olduğu zaman makro ortalama, büyük olduğu zaman mikro ortalama kullanılmıştır.

Çalışmada paralelleştirme süreci ile ilgili 2 farklı varyant/versiyon/yaklaşım önerilmiştir.

1.Yaklaşım:
variant1

m kategorileri n dökümanları işaret etmektedir. Her kernel k kadar karşılaştırma yapmaktadır. Bu da (MxN)/k kadar thread’in işlem yapması gerekliliği demektir.

2.Yaklaşım:
variant2

Her bir thread benzerlik vektöründeki bir elemanla karşılaştırılmaktadır. Her blokta d kadar thread çalıştırılır. MxN adet blok gerekmektedir. Bu yaklaşımda geçici benzerlik vektörü shared memory’de tutulmakta böylelikle hız kazanımı elde edilmektedir.

Çalışmada shared memory ile önerilen modelin daha yavaş çalıştığı açıklanmıştır.

Çalışmada literatürde bilinen 3 doküman sınıflandırma veri seti kullanılmıştır. Bunlar;
Reuters-21578 : http://www.daviddlewis.com/resources/testcollections/reuters21578/
Iris : http://archive.ics.uci.edu/ml/datasets/Iris
20 Newsgroup: http://people.csail.mit.edu/jrennie/20Newsgroups/

İlk ikisinde literatürdeki çalışmalarla kıyaslanabilecek sonuçlar üretilsede üçüncü set için iyi bir sonuç elde edilememiştir.

İndirmek için:
A_PSO-Based_Document_Classification_Algorithm_accelerated_by_the_CUDA_Platform


Mikro ve Makro Ortalama

Mikro ve Makro Ortalama sınıflandırma ve bilgi alma işlemleri sırasında kullanılan istatistiksel ortalama metodlarındandır. Makro Ortalama, sistemin veri setleri arasındaki performansının araştırıldığı durumlarda, Mikro Ortalama, sistemdeki veri seti değişkenlik gösterdiği durumlarda kullanılır.

pr-re

TP (true positive): Doğru sayısı
FP (false positives): Yanlış sayısı
FN (false negatives): Yanlışlıkla yapılamamışların sayısı

Mikro Ortalama Metodu

true positives, false positives ve false negatives bağımsız olarak hesaplanır. Örneğin:

True positive (TP1)=12
False positive (FP1)=9
False negative (FN1)=3

precision (P1)=57.14
recall(R1)80

Farklı verilerle oluşturulan başka bir veri seti:

True positive (TP2)=50
False positive (FP2)=23
False negative (FN2)=9

precision(P2)= 68.49
recall(R2)= 84.75

Micro-average of precision = (TP1+TP2)/(TP1+TP2+FP1+FP2) = (12+50)/(12+50+9+23) = 65.96
Micro-average of recall = (TP1+TP2)/(TP1+TP2+FN1+FN2) = (12+50)/(12+50+3+9) = 83.78

Micro-average F-Score = harmonic mean of these two figures

Makro Ortalama Metodu

Macro-average precision = (P1+P2)/2 = (57.14+68.49)/2 = 62.82
Macro-average recall = (R1+R2)/2 = (80+84.75)/2 = 82.25

Macro-average F-Score = harmonic mean of these two figures.

Makro Ortalama, sistemin veri setleri arasındaki performansının araştırıldığı durumlarda,
Mikro Ortalama, sistemdeki veri seti değişkenlik gösterdiği durumlarda kullanılır.


Otomatik Doküman Sınıflandırma

“Otomatik Doküman Sınıflandırma” başlıklı çalışma Rumeysa Yılmaz, Rıfat Aşlıyan ve Korhan Günel tarafından 1-3 Şubat 2012 günü XIV. Akademik Bilişim Konferansı’nda bildiri olarak sunulmuştur.

Doküman sınıflandırmanın amacı bir dokümanın özelliklerine bakarak önceden belirlenmiş belli sayıdaki kategorilerden hangisine dâhil olacağını belirlemektir.

Döküman Sınıflandırmanın Genel Yapısı:
dokuman-siniflandirmanin-genel-yapisi

Metin dokümanları oldukça fazla sözcük içerirler. Bazı sözcükler vardır ki bunların bütün dokümanlardaki frekansı oldukça yüksektir. Bunlara Türkçede çok sık kullanılan; “gibi”, “ise”,
“yani”, “veya”, “ama”, “ne”, “neden”, “şey”, “hiç” sözcükleri örnek verilebilir. Bundan dolayı bu sözcükler ayırt edici özelliğe sahip değillerdir ve bu sözcükler dokümanlardan elenir. Eleme işlemi indeksleme işlemi olarak adlandırılır ve bunu takip eden adımlardan oluşur.

Önişleme safhasında dokümanlardaki boşluk, rakam ve noktalama işareti gibi herhangi bir anlam ifade etmeyen karakterler elenir, büyük harfler küçük harflere dönüştürülerek temizlenmiş doküman haline getirilir. Dokümanlardaki sözcükler, RASAT heceleme algoritmasıyla hecelere ayrılır. Dokümanlardaki sözcüklerin ve hecelerin frekansları 0 ile 1 arasında normalize edildikten
sonra her sınıf için oluşturulmuş olan öznitelik vektör veritabanındaki sözcükler ve hecelerle karşılaştırılarak dokümanın sınıfı belirlenir.

İndirmek için:
Otomatik_Dokuman_Siniflandirma


Sayfalar:12