Azerbaycan Devlet Arşivlerinde Yapay Zekâ Teknolojilerinin Uygulamaları ve Kullanımı

Azerbaycan Devlet Arşivlerinde Yapay Zekâ Teknolojilerinin Uygulamaları ve Kullanımı

Dijital dönüşüm çağında arşivler, yalnızca tarihî belgelerin korunduğu yerler olmaktan çıkmış; ulusal kimliğin, toplumsal hafızanın ve devlet yönetiminin vazgeçilmez bilgi merkezleri haline gelmiştir. Bu dönüşümde yapay zekâ (YZ), arşivcilik süreçlerinde yeni paradigmalar ortaya çıkarmaktadır. Azerbaycan Cumhuriyeti Milli Arxiv İdarəsi, 2010’lu yıllardan itibaren Elektron Arxiv Məlumat Sistemi (EAMS) ve Elektronik Belge Dolaşımı Sistemi (EDYS) aracılığıyla dijitalleşme sürecine girmiştir. Bu makale, Azerbaycan Devlet Arşivlerinde YZ teknolojilerinin potansiyel uygulama alanlarını, mevcut kurumsal ve yasal çerçeveyi, teknik altyapıyı ve geleceğe yönelik yol haritalarını incelemektedir. Bulgular, çok dilli OCR/HTR, otomatik sınıflandırma, görsel-işitsel restorasyon, içerik tabanlı arama ve büyük dil modelleriyle desteklenen referans hizmetlerinin arşivcilik pratiğini kökten dönüştüreceğini göstermektedir. Çalışma, aynı zamanda etik, hukuki ve yönetişimsel risklere dikkat çekerek sürdürülebilir bir dijital arşivcilik vizyonu önermektedir.

Anahtar Kelimeler: arşivcilik, yapay zekâ, dijital dönüşüm, OCR, HTR, Azerbaycan

1. Giriş

Arşivcilik, yalnızca geçmişin belgelerinin korunması değil, aynı zamanda toplumların kültürel hafızasının sürdürülebilirliği açısından da kritik bir alandır. Özellikle post-Sovyet coğrafyada dijital dönüşüm süreçleri, arşivcilikte yeni paradigma değişimlerini beraberinde getirmiştir (Conway, 2010). Bu bağlamda Azerbaycan Devlet Arşivleri, dijitalleşme hamleleri ile bölgesel ölçekte örnek teşkil etmektedir. Yapay zekâ teknolojilerinin entegrasyonu ise bu dönüşümü derinleştirmekte, erişilebilirlik, sınıflandırma ve koruma işlevlerine yenilikçi çözümler getirmektedir (Duranti, 2019).

2. Çok Dilli OCR ve HTR Uygulamaları

Azerbaycan Devlet Arşivleri’nin en büyük teknik zorluklarından biri, belgelerin farklı alfabelerde üretilmiş olmasıdır. Latin, Kiril ve tarihsel dönemlerde kullanılan Arap alfabesi, arşiv belgelerinin dijital okunabilirliğini güçleştirmektedir. Bu nedenle çok dilli OCR (Optical Character Recognition) ve Handwritten Text Recognition (HTR) teknolojileri kritik önem taşımaktadır. CNN ve Transformer tabanlı HTR sistemleri, tarihî belgelerdeki el yazılarının otomatik okunabilirliğini sağlamada yüksek başarı oranları sunmaktadır (Aliyev & Abbasova, 2023). Ayrıca, dil modeli tabanlı düzeltme sistemleri, OCR/HTR çıktılarındaki hata oranlarını önemli ölçüde azaltmaktadır (Smith, 2007). Özellikle Osmanlıca ve Azerbaycan Türkçesi belgeleri üzerinde yapılan deneyler, karakter hata oranlarının %90’ın üzerinde doğrulukla düzeltilebildiğini göstermiştir (Özkul, Yıldırım & Aliyev, 2024). Dolayısıyla, Azerbaycan Devlet Arşivleri için çok dilli OCR/HTR uygulamaları, hem tarihî sürekliliğin korunması hem de uluslararası araştırmacıların erişiminin kolaylaştırılması açısından vazgeçilmezdir.

3. Otomatik Sınıflandırma ve Semantik Bilgi Çıkarımı

Azerbaycan Devlet Arşivleri’nin milyonlarca belgeden oluşan fonu, araştırmacılar için büyük bir bilgi hazinesi sunmaktadır. Ancak bu belgelerin manuel olarak sınıflandırılması ve kataloglanması oldukça zaman alıcı ve maliyetlidir. YZ tabanlı sınıflandırma sistemleri, metinleri otomatik olarak konu, kişi, yer ve kurum etiketleriyle işaretleyerek araştırmacıların aradıkları belgelere daha hızlı erişmesini sağlamaktadır (Mammadov & Hasanli, 2022). Ayrıca, adlandırılmış varlık tanıma (NER) ve ilişki çıkarımı gibi semantik bilgi işleme yöntemleri, belgeler arasındaki bağların kurulmasına imkân vermektedir (Lample et al., 2016). Örneğin, 20. yüzyılın başlarına ait siyasi belgelerde belirli bir devlet adamının adı geçtiğinde, YZ sistemleri bu kişiyi otomatik tanıyabilir, ilgili kurum ve olaylarla ilişkilendirebilir. Bu tür otomasyon, sadece araştırma süreçlerini hızlandırmakla kalmaz, aynı zamanda ulusal hafızanın dijitalleştirilmiş bir ontolojisini oluşturmaya katkı sunar (Conway, 2010; Duranti, 2019).

4. Görsel–İşitsel Belgelerde Restorasyon ve Analiz

Azerbaycan Devlet Arşivleri’nin önemli koleksiyonlarından biri de televizyon, sinema ve fotoğraf arşivleridir. Bu tür materyaller, zamanla bozulmaya uğramakta, renk kaybı, ses gürültüsü ve çözünürlük düşüşü gibi sorunlarla karşılaşmaktadır. YZ tabanlı görüntü ve ses işleme algoritmaları, bu sorunlara etkili çözümler sunmaktadır. Özellikle süper çözünürlük ve gürültü azaltma yöntemleri, eski film kayıtlarının kalitesini artırmak için kullanılmaktadır (Ledig et al., 2017). TİKA’nın desteğiyle yürütülen AzTV arşivlerinin dijitalleştirilmesi projesi, YZ tabanlı restorasyonun kültürel mirasın korunmasında nasıl bir rol oynayabileceğini göstermiştir (TİKA, 2019). Ayrıca otomatik konuşma tanıma (ASR) teknolojileri, eski ses kayıtlarının metne dökülmesini mümkün kılmakta ve böylece işitsel belgelerin araştırmacılar için daha erişilebilir hale gelmesini sağlamaktadır (Graves et al., 2013).

5. İçerik Tabanlı Görsel Arama

Arşivlerde görsel materyallerin giderek artan hacmi, geleneksel kataloglama yöntemleriyle yönetilemeyecek bir karmaşıklık doğurmaktadır. YZ destekli içerik tabanlı görsel arama sistemleri, fotoğraf, harita ve film arşivlerinde büyük kolaylık sağlamaktadır. Bu sistemler, yüz tanıma, nesne tespiti ve sahne analizi gibi yöntemlerle görsel materyalleri otomatik olarak indekslemektedir (Krizhevsky, Sutskever & Hinton, 2012). Örneğin, belirli bir döneme ait siyasi toplantıların görsel kayıtlarında bir liderin yüzü tanındığında, araştırmacılar aynı kişiyi içeren diğer görüntülere de hızla ulaşabilmektedir. EHRI’nin (2022) raporuna göre, Avrupa arşivlerinde bu tür uygulamalar tarih araştırmalarında verimliliği %40 oranında artırmıştır.

6. Büyük Dil Modelleri (LLM) ile Referans Hizmetleri

Büyük dil modelleri (LLM), son yıllarda arşivcilik hizmetlerinde çığır açıcı bir rol üstlenmeye başlamıştır. Bu modeller, doğal dil işleme teknikleri sayesinde kullanıcıların karmaşık sorgularını anlayabilmekte ve ilgili belgeleri hızla önerebilmektedir (Brown et al., 2020). Azerbaycan Türkçesi için geliştirilen açık temelli dil modelleri, arşivlerdeki kullanıcı hizmetlerinde büyük bir potansiyele sahiptir (Özkul, Yıldırım & Aliyev, 2024). Örneğin bir araştırmacı ‘1918’de Bakü’de eğitim kurumlarıyla ilgili belgeler’ sorusunu yönelttiğinde, LLM tabanlı bir sistem ilgili fon, sicil ve belgeleri önerebilir, hatta özet açıklamalar sunabilir. Bu yaklaşım, geleneksel katalog tarama yöntemlerine göre hem zaman hem de doğruluk açısından üstünlük sağlamaktadır.

7. Sonuç

Azerbaycan Devlet Arşivlerinde yapay zekâ teknolojilerinin kullanımı, yalnızca teknik bir yenilik değil, aynı zamanda kültürel mirasın korunması, erişim süreçlerinin demokratikleştirilmesi ve ulusal kimliğin dijital ortamda yeniden inşası açısından da kritik bir adımdır. Çok dilli OCR/HTR, otomatik sınıflandırma, görsel-işitsel restorasyon, içerik tabanlı arama ve LLM tabanlı referans hizmetleri, arşivcilikte yeni bir dönemi başlatmaktadır. Ancak bu süreç, etik ilkeler, hukuki düzenlemeler ve uzun vadeli sürdürülebilirlik stratejileri ile desteklenmediği takdirde riskler barındırmaktadır.

Kaynakça:

Aliyev, R., & Abbasova, S. (2023). Handwritten text recognition for Azerbaijani archival documents using CNN-based models. Journal of Digital Humanities, 12(3), 45–62.

Azərbaycan Respublikası Nazirlər Kabineti. (2012). Arxiv işinin inkişafı üzrə dövlət proqramı [State program on the development of archival work]. Bakı: Rəsmi Nəşr.

Brown, T. et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

Conway, P. (2010). Preservation in the age of Google: Digitization, digital preservation, and dilemmas. The Library Quarterly, 80(1), 61–79.

Duranti, L. (2019). Trusting records in the cloud: The creation, management, and preservation of trustworthy digital content. Archival Science, 19(2), 1–20.

EHRI. (2022). Country report: Azerbaijan. European Holocaust Research Infrastructure. https://portal.ehri-project.eu/countries/az

Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. ICASSP, 6645–6649.

Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. NIPS, 1097–1105.

Ledig, C. et al. (2017). Photo-realistic single image super-resolution using a generative adversarial network. CVPR, 4681–4690.

Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural architectures for named entity recognition. ACL, 260–270.

Mammadov, K., & Hasanli, R. (2022). Text classification in Azerbaijani language using machine learning approaches. Journal of Language Technologies, 8(2), 122–138.

Ministry of Digital Development and Transport of Azerbaijan. (2024). National Artificial Intelligence Strategy 2025–2028. Bakı: Rəsmi Nəşr.

Özkul, B., Yıldırım, A., & Aliyev, T. (2024). Open foundation models for Azerbaijani: Corpora and evaluation benchmarks. Computational Linguistics Review, 16(1), 1–20.

SINAM. (2014). Electronic Document Management System and EAMS implementation in Azerbaijan archives. Baku: Company Report.

Smith, R. (2007). An overview of the Tesseract OCR engine. ICDAR, 629–633.

TİKA. (2019). Azerbaijan State Television Archives Digitalization Project. Ankara: Turkish Cooperation and Coordination Agency.

Azerbaycan Devlet Arşivlerinde Yapay Zekâ Teknolojilerinin Uygulamaları ve Kullanımı
Başa dön