“Ey [buraya siyasi hasmınızın ismini yerleştirin]! Ya sen kimsin? Kulağımla duyduğuma mı inanacağım, sana mı?”

Bir talihsizlik sonucu 21. yüzyıl Türkiyesinde siyaseti günü gününe takip etmek zorunda kalmışsanız muhtemelen resmi gibi görünen yanıltıcı belgeler ve manipüle edilmiş videolar gibi şeylere pek de yabancı değilsinizdir. Sahte belgelere dayalı tartışmalı yargı kararlarıyla bezeli yakın tarihimizin olmazsa olmazlarından olan bu “araçlar” yeni değil. 

Yeni olan şey artık bunların üretiminin geçmişe nazaran çok daha basitleşmiş ve oldukça efektif yapay zeka uygulamalarıyla desteklenebiliyor olması. Bültenimizin bu sayısında konumuz ses. 

Ses klonlama araçlarının hali hazırda Hindistan, Birleşik Krallık, Sudan ve Etiyopya gibi ülkelerde seçimler bağlamında kullanıldığını biliyoruz. Nijerya’da geçtiğimiz sene gerçekleşen seçimlerde sosyal medyada yayılan bir ses kaydıyla muhalif başkan adayının seçimlere hile karıştırma planlarının açığa çıktığı iddia edilmişti. Ancak ilgili kayıt bir ses klonlama uygulamasıyla oluşturulmuştu. Bültenimizin bir önceki bölümünde ise ABD Başkanı Joe Biden’ın sesinin klonlanarak New Hempshire’daki demokrat seçmenlerin oy kullanmaktan vazgeçirilmeye çalışıldığını anlatmıştık.

Gelin şimdi 31 Mart yerel seçimleri yaklaşırken ses klonlama meselesi odağında güncel durumun siyasi yaşamımıza ve demokrasiye potansiyel yansımalarına ilişkin üç ayrı senaryo hayal edelim.

Senaryo 1: Sahte ses kaydıyla hedef alınan muhtar adayı Zerrin

Zerrin’in sınavı zorlu. Klonlanan sesiyle Zerrin’e neler neler dedirtilmiş… Zengin bir semtte bir önceki dönem muhtar olan ve muhtarlığa devam etmek isteyen Zerrin, kayıtta duyulduğuna göre aldığı rüşvetleri yeterli bulmamış, daha fazlası için pazarlık yapıyor.  Zerrin’in sesi klonlanarak oluşturulan kayıt, kendisini seçim yarışından ayrılmaya zorlayabilecek düzeyde olabilir. Zerrin’in en yakın arkadaşları dahi sesin gerçek mi kurgu mu olduğunu anlamakta güçlük çekebilir. Bir kayıtta yer alan sesin klonlanarak oluşturulup oluşturulmadığını anlamak için çeşitli yöntemler varsa da dezenformasyonun yayılma hızı işin doğrusunun yayılma hızından maalesef çok daha fazla. Eğer Zerrin’in seçmenleri yapay zeka uygulamaları ile üretilebilecek dezenformasyon nitelikli içeriklerin farkında değillerse durum kötü.

Şunu da unutmamak gerek: Bilgi operasyonlarının kritik bir amacı da suyu bulandırmak, sadece dezenformasyonu yaymak değil. Zerrin, hakikat ile kurgu arasındaki çizgiyi açığa çıkartmakla uğraşırken rakipleri propaganda çalışmalarına etkin bir biçimde devam ediyor.

Şüpheli bir ses kaydına nasıl yaklaşmalı?

NiemanLab’de yayınlanan bir makalede bu tarz ses kayıtlarının ardındaki hakikati açığa çıkarmak için kanıt temelli yaklaşmak gerektiği ifade edilirken kaydın kaynağına inmenin önemi vurgulanıyor. İlgili makaleden de esinlenerek karşınıza çıkan ses kayıtlarını incelerken şu noktaların önemli olduğunu söyleyebiliriz:

  1. Ses kaydı şüpheli göründüyse bunu mümkün olan en kısa süre içerisinde incelemeye tabi tutmak gerek. Kayıt yanıltıcıysa doğrusunun ne olduğunu kısa süre içinde ortaya koymalı. Kesinlikle Mark Twain’e ait olmayan şu çıkarımı hatırlatalım: Gerçek ayakkabılarını giymeden yalan dünyayı üç kez dolaşırmış. Üçü beşi bilemeyiz ama ana fikir okay.
  2. Dikkat! Gerçek ses kayıtları da cızırtılar veya seste düzensiz iniş çıkışlar içerebilir. Kulağımızla duyduğumuz ipuçları önemli ama bunlar sesin yanıltıcılığı hakkında bizi kesin bir yargıya götürmez.
  3. Teyitçilik mühim.
  4. Bu iş için kullanılabilecek araçları tanıyalım. Bir kayıttaki sesin klonlanıp klonlanmadığını Resemble AIDuckDuckGoose veya AI Voice Detector gibi araçlar vasıtasıyla tespit etmek mümkün. Öte yandan algoritma bazlı dedektörlerin önemli bir kısmının “western bias” sergilediğini anımsatalım. Klonlanmış İngilizce sesin tespiti, Türkçe sesin tespitinden şimdilik daha kolay. Buna Reality Defender, Mozilla’nın Common Voice projesindeki seslerle çalışarak çare bulmuş gibi duruyor. Common Voice’ın farklı diyalekt, aksan ve ses birimlerini içermesi klonlanmış sesin tespiti için geliştirdikleri makine öğrenmesi modelini güçlü kılıyor.
  5. Mesele dönüp dolaşıp bilgi ekosisteminin paydaşlarına duyulan güvende düğümleniyor gibi. Bir ses kaydının teknik incelemesini yapıp ilgili kaydın belki de yüzde 99 klonlanarak oluşturulduğunu ortaya koyabilirsiniz. Ama mesela gazeteciysek ve geçmişte toplumun medyaya duyduğu güveni zedeleyen faaliyetler sıklıkla yaşanmışsa, medya olayın doğrusunu ortaya koyduğunda takipçisini ikna edebilecek mi?
  6. Yasal düzenlemeler de gerekli tabii. Yapay zeka uygulamalarıyla sesini klonlayarak rakibini seçim yarışından düşürme arzusunda olan siyasetçiler olabilir. Bu elbette etik değil. Yasal bazı çalışmalarda bulunmak gerek. Bakınız Avrupa Birliği Yapay Zeka Yasası, genel olarak bu alanda atılmış ilk somut adımlardan.

Senaryo 2: Söylediği abuk subuk sözler için “bunlar montaj” diyen belediye meclis üyesi adayı Muammer

Muammer az çakal değil. Biliyor ki yapay zeka uygulamaları ses klonlamada hayli becerikli. Söylediği söz kendi seçmeni nezdinde geri mi tepti? Kendisine öfkeli tweetler mi yağıyor? Muammer “işini biliyor”, suçu yapay zekaya atıp aradan sıyrılmaya çalışıyor. Bu sırada hasımlarını da siyasi etiğe davet ediyor. Ah Muammer ah, sen yok musun…

Bu sefer sınav vakti Muammer’in hitap ettiği seçmen kitlesi için. Günümüzde gerçek bir ses kaydının gerçek olduğundan nasıl emin olabiliriz? Muammer yapay zekanın arkasına saklanıp söylediklerinden sorumlu olmadığını iddia edebilir mi?

Yalancının temettüsü de ne ola ki?

Robert Chesney ve Danielle Keats Citron ortaya atılan liar’s dividend kavramını Türkçeye “yalancının temettüsü” olarak çevirebiliriz. Kavramın kendisi, niyeti bozuk aktörlerin kendilerine ilişkin gerçek bilgilerin de sahte olduğunu iddia ederek hakikati itibarsızlaştırılmasını sağlayabileceğini söylüyor. Böylelikle yalana yaptıkları yatırımın getirisi (veya temettüsü), kendi itibarlarını bir nebze koruyabilmeleri. Bu da günümüzde geçmişe nazaran çok daha kolay. Gerçek bir ses kaydına “montaj bu” diyerek işin içinden sıyrılmak gibi…

Yalancının temettüsü, bilgi ekosistemini fasit bir daireye hapsediyor. Kısaca şöyle düşünelim:

  • Şüpheciliğin sağlıklısı mühim. Gelişen teknolojilerle desteklenen sahte içerik üretim tekniklerinden haberdar olmak önemli ancak, doğruluğunu teyit etme çabasına girmeksizin karşımıza çıkan tüm ilgili içeriklerin yanlış olabileceği varsayımına sahip olursak bu durum yalancının temettüsü için elverişli koşulları yaratıyor.
  • Niyeti bozuk şahıslar her yerde var. Bahsettiğimiz bu sağlıksız şüphecilik halini sömürmeye gayret edeceklerdir. Kendilerine dair gerçek bilgilerin aslında uydurma olduğunu iddia edebilirler. İnsanlar sahteciliğin teknik olarak mümkün olduğunu bildiğinden bu şahıslara kolayca kanabilirler. Kanmasalar da “acaba mı?” demeleri bile kafi… Suyu bulandırmak da iş görüyor.
  • Nihayetinde yaşanan güven erozyonu neticesinde yalancının mumu yatsıdan sonra da yanıyor. Hakikat ile sahte olan arasındaki ayrımın bulanıklaşması, bilgi ekosisteminde gezinen bir virüs gibi. Bilgi ekosisteminin samimi paydaşları halka gerçeğin ne olduğunu aktarmakta güçlük çektikçe yanıltıcı bilgi elini kolunu sallayarak dolaşmaya devam ediyor.

Senaryo 3: Yapay zekayla siyasi propaganda materyali hazırlayan belediye başkan adayı Hatice

Hatice illa kötü niyetli olmak zorunda değil. Gelişen teknolojilerin farkında. Yapay zeka uygulamalarını siyasi propaganda amaçlı en etkin nasıl kullanabileceğinin yollarını aramış ve bazı şeyler bulmuş da. Kendi siyasetini farklı dillerde aktarabilmek için ses klonlama teknolojisinden faydalanan Hatice sadece Türkçe değil, klonlanmış sesiyle seçmenlerine İngilizce, Kürtçe, Arapça da sesleniyor. Çok dilli bir yaklaşım siyasette elbette mümkün. Sesinin klonlanarak farklı dillere çevrildiğini seçmenleriyle açıkça paylaştığı müddetçe Hatice’nin durumunun etik açıdan problem oluşturmadığı da savunulabilir.

Hatice’nin niyeti de izlediği siyaset de kimilerince doğru addedilebilir. Ama kendisinin izlediği yöntemi izleyen niyeti tartışmalı aktörler de çıkacaktır illa ki. Bakınız İsveç’te çıkmış bile.

İsveç’in göçmen karşıtı, sağ milliyetçi partisi İsveç Demokratlarının lideri Jimmie Åkesson, geçtiğimiz aylarda Arapça bir video yayımladı. Åkesson, Arapça biliyor değil. Partisi, kendisinin sesini klonlayarak ülkedeki Arap kökenli göçmenlere kendi dillerinde bir nevi mesaj vermek istediklerini ima ediyor. Öte yandan anlaşılır nedenlerden ötürü ülkedeki göçmenler arasında pek de popüler olmayan Åkesson’un bu çıkışıyla aslında kendi sempatizanlarına bir mesaj vermek istediği daha makul bir yorum olur muhtemelen.

Bir bilene sorduk: Bu ses klonlama gerçekte nasıl çalışıyor?

Yapay zeka ile ses klonlama uygulamalarının teknik olarak nasıl çalıştığını, bu teknolojiyi eğitim materyalleri hazırlamak için kullanan bir çevrim içi eğitim platformunda Dijital Ürün Koordinatörü olarak çalışan veri bilimci Pınar Kılıç’a sorduk. Pınar, bize bir makine öğrenmesi uygulaması tarif etti.

Burada hemen araya girelim. Basit bir makine öğrenmesi uygulaması bağımlı bir değişkenin değerini bağımsız değişkenler vasıtasıyla tahmin etmeyi amaçlıyor. Bu şu anlama geliyor: Örneğin bir arabanın ikinci el piyasasındaki değeri, arabanın markasına, modeline, üretim yılına, daha önce kaza yapıp yapmadığına ve bunlara benzer birçok değişkene bağlı olabilir. Elimizde yeteri sayıda ikinci el araba fiyatı ve bu fiyatlarla ilişkilendirilmiş bahse konu olan değişkenlerin değerleri varsa hangi değişkenin araç fiyatını ne ölçüde etkilediğini tespit edebiliriz. Aracın kazaya karışmış olması fiyatı negatif yönde etkiler. Araç daha yakın bir tarihte üretilmişse bunun pozitif yansımasını görürüz. Makine öğrenmesi kısaca sayısal olarak hangi değişkenin araç fiyatını ne ölçüde etkilediğini tahmin etmemize yardımcı oluyor.

Mesele yapay zeka ile ses klonlamaya geldiğinde esasında benzer bir sürecin yürüdüğünü anlayabiliyoruz. Pınar şöyle diyor:

Ses klonlama dediğimiz şey aslında kişinin sesinin sahip olduğu karakteristik özelliklerin tespiti ve sentezi ile alakalı. Hepimizin sesinin bir tonu, perdesi var. Aksanımız var. Kullandığımız dile bağlı olarak bazı şeyleri ifade ediş biçimimiz de değişiyor. Özünde bir sesin klonlanması, sesi yaratan tüm farklı değişkenlerin derin öğrenme algoritmaları ile tespiti ve sentezi ile mümkün oluyor. 

Bunun için ise gerekli olan şey öncelikle veri. Bu örnekte veri dediğimiz şey kişinin gerçek sesini içeren kayıtlar. Bu ses kayıtları farklı fonemler içermeli. Yani farklı kelimeler, ifadeler, vurgular… Kişinin sesindeki nüansları duyabilmeliyiz. Veri, sesin karakteristiğine dair ne kadar farklı element (ya da makine öğrenmesi dünyasında “özellik”) içeriyorsa elimizde bir makine öğrenmesi modeli eğitmek için o kadar kuvvetli bir veri seti vardır diyebiliriz.

Bu örnekte makine öğrenmesi modelini eğitmek demek, örneğin verisetinde duymadığımız “hava” kelimesinin bu ilgili karakteristiklere sahip bir ses tarafından nasıl seslendirilebileceğini tahmin edebilecek bir model geliştirmek anlamına geliyor. Eğer ağzımızdan çıkan seslerin fonetik karşılıklarını da değerlendiren nitelikli bir model geliştirebilirsek herhangi bir metni klonlanmış sese okutmamız mümkün. Ses klonlama text-to-speech (metinden sese) veya speech-to-speech (sesten sese) yöntemlerle hayata geçirilebilir.

Mükemmel bir klon oluşturmak zor bir zanaat. Ancak yeterli veri, uygun algoritma ve başarılı bir model geliştirme sürecinin ardından yürütülebilecek ekstra bir ses temizleme, düzenleme süreci ile insan kulağının ilgili sesi gerçeğinden ayırt etmesi güçleşebilir.

Pınar’ın aktardığı sürecin özellikle siyasetçiler için biraz tedirginlik verici olabileceği kolaylıkla anlaşılıyor. Nitekim tanınan siyasetçilerin yüzlerce saatlik ses kayıtları hali hazırda çevrim içi ortamlarda zaten dolanıyor.

Tabii asıl konumuz siyaset olduğundan siyasetçileri vurguluyoruz. Bu tarz kayıtlar sıradan vatandaşı içeren basit şakalara konu olabilir, gülüp geçebiliriz. Ünlü isimlerin yer almasıyla reklam veya dolandırıcılık amaçlı da üretilebilir. Jennifer Aniston size 10 dolara MacBook dağıttığını söylüyorsa o 10 doları göndermeden önce siz yine bir kez daha düşünün deriz.

Bağlantı kopyalandı!