Türkiye bilim insanları, görüntüleri Türkçe sesli ve yazılı otomatik betimleyebilen yapay zekaya sahip ilk bilgisayar programını geliştirdi.
Cep telefonlarına veya akıllı bir gözlüğe entegre edilerek çalışacak yeni teknoloji sayesinde görme engelliler, çevrelerindeki insanların duygu durumlarından nesnelere kadar olup biten tüm olaylar ve kavramlar hakkında sesli bilgi edinebilecek.
Görüntüleri betimlerken bin farklı nesne sınıfından örnekler ve toplanan 15 bin Türkçe açıklama verisinden faydalanan teknoloji, Türk bilim dünyasında da heyecan yarattı.
Hacettepe Üniversitesi Bilgisayar Mühendisliği Bölümü Öğretim Üyesi Erkut Erdem, araştırma laboratuvarlarında görme problemleri üzerine çalıştıklarını, bu kapsamda görüntü düzenlemeden, filtrelemeye, görüntü getiriminden, nesne takibine, eylem tespitine kadar her biri kendi içinde farklı zorluklar barından problemleri çözmeye çalıştıklarını anlattı.
Erdem, bir görsel içeriğin analiz edilip görüntünün belirgin özelliklerini söze döken ve metinsel açıklama yapabilen sistem üzerine Hacettepe Üniversitesi Bilgisayarlı Görü Laboratuvarından araştırmacılar Yrd. Doç. Dr Aykut Erdem, Yrd. Doç. Dr Nazlı İkizler Cinbiş ve öğrencileri ile doğal dil işleme konusunda uzman ODTÜ öğretim üyesi Dr. Ruken çakıcı ile 2 yıldır çalıştıklarını bildirdi.
Erdem, şunları kaydetti:
Bu teknoloji, nesne tespiti, görüntü etiketleme gibi klasik bilgisayarlı görüntü problemlerine göre çok daha zorlu problemlerin çözümünü gerektiriyor. Görüntü açıklamaları için ilgili nesnelerin, sıfatların, yer bilgisinin, o yerde gerçekleşen eylemlerin, farklı görsel özellikleri kapsayan bir çıkarımla anlatılması gerekiyor. Bu zorlu problemlerin çözümü yolunda epey yol aldık. Projemizde dil ile görme arasındaki ilişkiyi ortaya koyan yapay zeka ve makine öğrenmesi yaklaşımları geliştirdik.
- Teknoloji dünya ile yarışıyor
İngilizcede dünyaca ünlü bilişim firmalarının araştırma laboratuvarlarında geliştirilen bir programla görme engelliler için görüntüleri ve yazıları seslendirebilen yakın tarihli benzer çalışmaların bulunduğunu hatırlatan Erdem, Türkiyede araştırma yapan akademisyenler olarak Türkçe üzerinde bir çalışma yürütmenin önemli hedefleri arasında olduğunu söyledi.
Erdem, Türkçenin kendisine has özellikleri olduğunu ve geliştirdikleri teknolojinin İngilizce geliştirilen yöntemlere kıyasla farklı düzeyde zorluklarla başa çıkabildiğini belirtti.
Görüntüyü Türkçe otomatik olarak açıklayabilen programın görme engellilerin hayatını kolaylaştıracak teknolojilerde kullanılmasının öncelikli planları olduğunu bildiren Erdem, Gözlüğe iliştirilmiş kamera ya da cep telefonları üzerinden bir görüntü açıklama sistemi, görme engelli bir kullanıcıya çevresinde nelerin gerçekleştiğine dair bildirimlerde bulunacak. Örneğin, önüne bir engel çıkarsa onu sözlü olarak uyarabilecek veya etrafındaki kişilerle iletişim kurarken o kişilerin durumları hakkında kullanıcıya bilgi notları sağlayabilecek. bilgisini paylaştı.
- Veritabanı geliştirilmeye devam ediliyor
Türkçe veri toplama çalışmalarının belli bir düzeye ulaştığını dile getiren Erdem, teknolojinin çalışma yöntemini şöyle anlattı:
çalışmamızda, bilgisayarların bir görüntüdeki en belirgin noktalarına odaklanarak bir çıkarımda bulunmasını sağladık. Öncelikle bilgisayarda, görüntüde hangi nesnelerin bulunduğuna ilişkin görsel bir analiz gerçekleştiriliyor. Daha sonra da bu görüntüye benzer görüntülerle karşılaştırma yapılıyor ve bu görüntülerin açıklamaları kelime kelime inceleniyor. Bunlar içinden en doğru cümleleri seçerek bir görüntüyü kullanıcıya en doğru anlatan ifade bulunuyor.
Teknolojimiz görüntüleri betimlerken bin farklı nesne sınıfından örnekleri tanıyabiliyor ve toplanan 15 bin Türkçe açıklama verisinden faydalanıyor. Bu veri tabanını geliştirmeye devam ediyoruz.
çalışmalarına katkı sağlamak isteyenlerin http://tasviret.cs.hacettepe.edu.tr/ bağlantısını ziyaret edebileceklerini bildiren Erdem, Programımızın tanıyabildiği nesne ve nesnenin bulunduğu mekanı içeren kavram sayısını bu şekilde arttırmayı hedefliyoruz. dedi.
- Engelliler de sinema keyfi yaşayacak
çalışma tamamlandığında bir sinema filmi ya da canlı bir tiyatro eserinin oyuncularını, sahnelerini ve bu sahnede meydana gelen tüm olayların sesli betimlemesinin bu programla yapılabileceğini ifade eden Erdem, şu değerlendirmelerde bulundu:
Cep telefonlarına ya da akıllı bir gözlüğe entegre edilerek çalışacak yeni teknoloji sayesinde görme engelliler, etrafta hareket halindeki insanların duygu durumlarından giydikleri kıyafetlere hatta hangi hayvanların bulunduğuna kadar çevrelerinde olup biten tüm olaylar hakkında sesli bilgi edinebilecek. Görme engelliler, karşılarındaki ya da çevrelerindeki insanların yarattığı duygu durumlarından bihaber bir şekilde yaşamlarını sürdürüyorlar. Bu sistem, görme engellilerin çevrelerinde olup biten olaylar, nesneler ve kavramlar hakkında sesli betimlemeler oluşturup kullanıcıya sunabilir.
- Sürücü destek sistemlerinde kullanılabilir
Erdem, sistemin bir başka kullanım alanının ise akıllı arabalardaki sürücü destek sistemleri olduğunu kaydetti. Araba hareket halindeyken ilgili sistemin aracın görüş mesafesindeki olaylar hakkında sürücüye sözlü geri bildirimlerde bulunabileceğini dile getiren Erdem, bu teknolojilerin kazaları önleme potansiyeli taşıdığını söyledi.
Görüntüleri betimleme sisteminin aynı zamanda, milyonlarca fotoğraf arasından otomatik fotoğraf arama sistemleri dahilinde de kullanılabileceğinin altını çizen Erdem, teknolojinin belli bir hikayeye ait görsellere kolay ulaşmada fayda sağlayacağını söyledi.
Erdem, bu çalışmaların büyük çoğunluğunun TÜBİTAK ve Avrupa Birliği tarafından desteklendiğini, çalışma arkadaşları arasında Google araştırma ödülü kazananlar bulunduğunu söyledi. Erdem, geçen ay da ABD merkezli bir firma tarafından donanım desteği aldıklarını belirtti.
- Yapay zeka alanında çığır açıcı olması beklenmektedir
İTÜ Bilgisayar Mühendisliği Bölümü Öğretim Üyesi Doç. Dr. Hazım Ekenel ise çalışmaya ilişkin değerlendirmelerde bulundu.
Son birkaç yıl içerisinde bilgisayarla görü alanında yaşanan baş döndürücü teknolojik gelişmelerin, görüntülerde yüksek başarımlı nesne bulma ve sınıflandırma yapılabilmeyi sağladığına işaret eden Ekenel, bu sayede, yeni makine ve otomatik öğrenme yaklaşımlarından yararlanarak, araştırmacıların görüntüyü metne çevirme, diğer bir deyişle, görüntüleri tasvir etme üzerinde çalışmalar yürüttüğünü aktardı.
Bu yöndeki gelişmelerin, artık makinelerin görmelerini ve gördüklerini yorumlayabilmelerine yol açması, böylelikle yapay zeka alanında çığır açıcı olması beklenmektedir. ifadesini kullanan Ekenel, Hacettepe Üniversitesi Bilgisayarlı Görü Laboratuvarının bu alanda evrensel ölçütte araştırmalar yürüttüğünü ve görüntülerin otomatik Türkçe betimlemeleri yönünde öncü çalışmalarını sürdürdüğünü dile getirdi.