8 Mart 2017 Çarşamba

Yapay Öğrenme, Veri Görselleştirme ve 'Açıklama' üzerine

Blogdaki sessizliği biraz bozmak adına, son birkaç gündür etrafımda gördüğüm, ilgimi çeken, aklıma yeni gelen birkaç şey üzerine yazmak istedim.

Yaklaşık bir aydır yüksek lisans tezimi yazmak amacıyla CERN'de bulunuyorum. Geçen yazki çalışmamızın üzerinden bu yıl da üç ay boyunca bölümden izin alarak, buradaki çalışmalara katkı koyabileceğim ve nispeten 'gürültüsüz' bir ortamda tez çalışmama odaklanabileceğim bir zaman aralığını olabildiğince değerlendirmeye çalışıyorum. CAST deneyinde buradaki danışmanı ve katkı veren diğer kişilerle birlikte, karanlık enerji konusunda önerilen chameleon parçacıklarını tespit etmeye çalışan KWISP adında bir alt dedektör üzerinde çalışıyoruz. Dedektörün ilk versiyonu ile aralık ayında bir tur veri alınmış, ben de Şubat ayındaki veri alımına ve ardından alınan verilerin hızlıca analiz edilip dedektör için gereken düzenleme ve eklentilerin yapılması sürecine dahil oldum. Türkiye'ye geri dönmeme yaklaşık bir ay kala, artık yavaş yavaş veri analizi konusunda elimdeki kodları ve sonuçları toparlamaya, ardından bunları tutarlı bir çerçeve içinde sunmak adına deneyin geneli, teorik arka planı ve mekanizmanın çalışma prensiplerini içime sindirebilmek için literatüre dalmaya hazırlanıyorum. [CAST deneyi ve KWISP üzerine daha detaylı bilgi için Gökyüzü Bülteni'nin yeni sayısına göz atabilirsiniz.]

Tüm bunlar olurken, bir taraftan da buradaki ortamı deneyimlemek adına sağda solda gördüğüm birkaç etkinliğe katılmaya çalışıyorum. Bunlardan biri bu hafta başında başlayan ve  bugün sona eren '(Inverted) CERN School of Computing' okulu idi. Okulun isminin başındaki 'Inverted' ibaresi, CERN'ün 1970'lerden beri organize ettiği köklü CERN School of Computing'in geçmiş katılımcılarının hazırladıkları bir 'mini-okul' olmasından kaynaklanıyor. Geçen yıllar okula dinleyici olarak katılan kişiler öğrendiklerini ve kendi uzmanlıklarını gelip paylaşıyorlar. Doğal olarak işleyen, kendini besleyen bir sistem...

Kaynak: Inverted CERN School of Computing 2017

Bu seneki okulun temel konusu 'Machine Learning' (Yapay Öğrenme) etrafında dönüyor. Bu konu şu anda tüm dünyayı sallıyor olduğundan büyük verinin 'en büyük' haliyle uğraşılan paracık fiziği komünitesinde de bi karşılık bulması kaçınılmazdı. Büyük veri setleri üzerinde çeşitli istatistiksel örüntüler bulma şeklinde çok kabaca özetlenebilecek bu yöntemler, bilgisayar ile standart programlama ve problem çözmeden 'öğrenebilen algoritmalar' temelli olmaları ile ayrılıyorlar. Bu sayede bu yöntemler uygulanan alandan neredeyse bağımsız bir şekilde ve günümüz donanım alt yapısının sağladığı performans avantajları ile önüne geçilemez bir hal almış durumda. En basitinden cep telefonlarımızdaki yüz ve ses tanıma, metin tahmini gibi uygulamalar bu alandaki gelişmelerle büyük ilerlemeler kaydedip günlük hayatımızın vazgeçilmez parçası oldular. Okulda bu yöntemlere giriş şeklinde dersler anlamında hepsi birbirinden iyi hazırlanmış 'Yapay Öğrenmeye Giriş', evrimsel fikirlerden yola çıkılarak geliştirilen 'Genetik Algoritma Yöntemleri', 'Anomali Tespit Yöntemleri' üzerine dersler vardı. [Derslerin slaytlarına ve video kayıtlarına şu adresten ulaşabilirsiniz: https://indico.cern.ch/event/591368/ ]

Bunların yanında büyük veri üzerine konuşurken ya da araştırmalar sunulurken çoğu zaman geri plana atılan fakat önümüzdeki günlerde fazlasıyla ön plana çıkacak bir konu olan 'Veri Görselleştirme' (Data Visualization) üzerine inanılmaz kafa açıcı bir ders dinleme fırsatım oldu. Sonuçta bilim insanları olarak araştırma ya da bir problem çözme safhasının sonunda elde edilen sonuçları raporlamak ya da sunum haline getirip başka bir kişiye iletmek için bir yöntem seçmemiz gerekiyor. Bunun en standart yöntemlerinden biri grafikler. Fakat bu grafiklerin tasarımlarından renk seçimlerine, kullanılan şekillerden içeriklerine kadar birçok faktör aktarılmak istenen mesajı fazlasıyla etkiliyor. Genelde bilimsel camiada araştırmanın 'analiz' kısmına ağırlık verildiğinden bu son kısım genelde atlanıp bir şekilde günü birlik çözümlerle, üzerine fazla düşünmeden bir şekilde hallediliyor. Sunumda gördüğüm yöntemlerden kendi çalışmalarımda da dikkat etmediğimi anladığım birçok noktayı fark ettim. Konuyla ilgili konuşmacının verdiği harika bir kaynak var, ilgisini çekenler mutlaka incelemeli: Visualization, Analysis and Design (Tamara Munzner)

Yine bununla ilgili, geçenlerde buradayken 'Why Information Grows' adında ilginç bir kitap okuma fırsatım oldu. Kitabın yazarı MIT Media Lab'da proför Cesar A. Hidalgo, fizikteki temel entropi ve enformasyon fikirlerinden yola çıkarak bunları ekonomik gelişme ve kitle üretimi konularına uyguluyor. Kitabın ilk kısmı özellikle entropi ve "dengeden uzak karmaşık sistemlerde' bilginin nasıl üretildiğine çok güzel benzetmelerle açıklarken, ikinci kısımda bu fikrilerin global ölçekte ülke ekonomilerine nasıl uygulanabileceğini gösteriyor. Kitapta birçok ülke için oldukça açıklayıcı grafikler kullanıyor, zira kendisi Amerika'daki devlet verilerinin görselleştirilmesi konusunda devasa bir girişim olan Data USA'in de kurucularından biri. Çalışmaları, bahsi geçen fikirlerin ve altta yatan verilerin etkili ve efektif bir görselle nasıl daha iyi anlatılabileceğini gösteren güzel bir örnek . Kitabın beni en çok etkileyen kısmı ise kitabın son bölümünde yazarın kitabın ilk yazımından sonuna kadar tüm yazma sürecini bir 'belgesel' şeklinde kayda aldığı bölüm ve paylaştığı deneyimi. Böyle bir şeyle ilk defa karşılaştığımdan yazar ve bu fikirleri üretip, kitap haline getirme sürecine birinci elden şahitlik etmek beni epey etkiledi. Üzerine bir de bugün öğrendim ki yazar geçen yıl Mart-Haziran ayları arasında hayatının bir kısmını 'dokumante' ettiği bir belgesel (In my Shoes) hazırlayıp bugün gösterime sunmuş. Akademik olarak böylesine aktif olarak üreten, fikirlerini paylaşan ve bunları uygulayan bir akademisyenin günlük rutinine içinde ailesi, çalışma ve arkadaş ortamı da dahil olmak üzere yukarıdan bir bakış sağlayan oldukça ilginç bir çalışma olmuş.

Bunların üzerine bu hafta Coursera'da başlayan Python ile veri analizi konulu "Introduction to Data Science in Python" dersi paralelinde verilerin çeşitli istatistiksel ve yapay öğrenme yöntemleri ile analizin yanında 'görselleştirilmesi' üzerine koca bir modül ayırıldığını fark ettim: "Applied Plotting, Charting & Data Representation in Python". Bu konuya yapılan vurgu gittikçe büyüyor ve 'görselleştirme' olarak anılan fakat genel olarak farklı 'ifade (representation)' biçimleri olan bu yöntemler bilginin anlamlandırılma süreçlerini ilerleyen zamanlarda epey etkileyecek gibi duruyor.

Bununla ilişkili olarak bu tip konulara hayli kafa yoran, Michael Neilson'ın birkaç sene önce yayınladığı detaylı bir yazıya denk geldim geçenlerde: "Reinventing Explanation' adında. Günümüz medya ve teknoloji araçları ile 'açıklama'nın yeninden tanımlanabileceği bir dönemde olduğumuzu, bunu etkili bir şekilde yapabilmek için bu konuya kafa yormamız gerektiğine işaret ediyor.

Bilinç akışımızın son durağında konuyu fiziğe bağlayıp Physics Today'de bu ay yayınlanan standart fizik lisans eğitiminin 'sıkıcı' ve 'heyecandan yoksunluğu'ndan dem vuran harika yazı (How to teach me physics: Tradition is not always a virtue) ve son zamanlarda epey eğlenerek takip ettiğim şu blogda yazarın bu sıkıcılığı alt etmek için önerdiği yöntemlerden birinin işaret etmeye değer diye düşünüyorum: "You Physics Teachers Really Ought to Teach Numerical Calculations".

Bonus olarak bu kadar 'veri görselleştirmeden' bahsedip, bu alanda oldukça bilinen ve geçtiğimiz haftalarda kaybettiğimiz üstad Hans Rosling'i anmadan geçmek ayıp olur. BBC'deki 'Joy of Stats' belgeselindeki ünlü 200 ülkenin son 200 yılki nüfus gelişimlerini gösteren dört dakikalık videosu ile yazıyı noktalayalım (şahane bir TED konuşması için: "The best stats you have ever seen").

2 yorum:

figen sayınoğlu dedi ki...

Arif bey size çok teşekkür etmek istiyorum yazılarınızı okumak o kadar keyifli ki ilham veriyosunuz. Cern den ayrılmadan güzel yazılarınızı bekliyoruz.

Arif Bayırlı dedi ki...

Teşekkürler, yararlanıyor olmanıza sevindim! Fırsat buldukça yazmaya çalışıyorum ben de, bu şekilde geri dönüşler almak benim için de ilham verici oluyor kesinlikle :)

Paylaş!

 

Copyright © 2010 Gök Günce | Blogger Templates by Splashy Templates | Free PSD Design by Amuki