Sunum: KÜTÜPHANE DİJİTALLEŞTİRME PROJELERİNDE KALİTE KONTROLDE OCR BAŞARISI KRİTERİ: DİJİTAL TARIM KÜTÜPHANESİ ÖRNEĞİ

Kütüphane, arşiv ve müzecilik alanında sektörel gelişimin hızlandırılması ve çağdaş teknolojilerin yaygınlaştırılması amacıyla düzenlenen “Kütüphane, Arşiv ve Müze Yöneticileri Kongresi ve Fuarı” (KAM’21) , 10-12 Mart 2021 tarihleri arasında çevrim içi olarak gerçekleştirildi.

Kütüphanemiz KAM’21 – Kütüphane, Arşiv ve Müze Yöneticileri Kongresi ve Fuarı’nda

T.C. Kültür ve Turizm Bakanlığı öncülüğünde düzenlenen KAM’21 – Kütüphane, Arşiv ve Müze Yöneticileri Kongresi ve Fuarı, konusunda ulusal ve uluslararası alanda uzman 76 konuşmacının katılımı ile 12-14 Mart 2021 tarihleri arasında yapıldı. Tüm dünyayı ve ülkemizi etkisi altına pandemi döneminde çevirimiçi olarak gerçekleştirilen etkinlik  dopdolu bir dijital fuar ve kongre deneyimi yaşattı. 

Bakanlığımız adına kongreye katılan Yayın ve Tanıtım Daire Başkanlığı Kütüphane Çalışma Sorumlusu Mehmet BİLİR, “Dijitalleştirme Projelerinde Kalite Kontrolde OCR Başarısı: Dijital Tarım Kütüphanesi Örneği” konulu bir sunum yaptı. 

Sunumunda Bakanlığımızdan ve kütüphane hizmetlerinden bahseden Bilir, kütüphanede tarımla ilgili 7500 temel kaynağı dijitalleştirdiklerini ve telifle ilgili süreci tamamlanan 3500 yayını erişime açtıklarını belirtti.

Yapılan dijitalleştirme işlemlerinde optik karakter tanıma (OCR) kriterini bir ihalede ilk defa kendilerinin iş bitirme kriteri olarak kendilerinin kullandıklarını ifade eden Bilir, sunumunda satır başları ile şunlardan bahsetti:

“Kütüphanemizde Yaklaşık 20 bin civarında yayın bulunmakta olup, tarım öğretiminin başlangıcı sayılan Halkalı Ziraat Mektebi kitapları da dahil olmak üzere hem tarım eğitimi ve tarımsal yayıncılık tarihine ışık tutan, hem de tarımın her alanında kaynak kitap olma özelliğinde çok sayıda yayını içermektedir.

Ülkemizde üretilen tarımsal yayınların tahmini olarak 1/3’ünü barındırması açısından,

tarımsal bilgi kaynaklarının muhafazası açısından önemli bir görev üstlenmektedir.

Pandemi ile birlikte yayınlara elektronik ortamda ulaşma ihtiyacı artmıştır. Hukuk, tıp, mühendislik, temel bilimler gibi bazı alanlarda elektronik yayınlar bu ihtiyacı karşılayabilirken, bizim alanımızda elektronik ortamda temin edilebilir Türkçe yayın sayısı çok azdır. Kütüphanemiz, tarımsal içerikli ulaşılabilir Türkçe elektronik kaynaklar açısından çok büyük önem kazanmıştır.

Zamana ve mekana bağlı kalmaksızın tüm kütüphane kaynaklarına erişim sağlanabilmesi için “Tarım kütüphanesi kurulması ve dijital ortamda erişime açılması” gibi amaçlarla başlatılmış olan kütüphanenin dijitalleştirme faaliyetleri kapsamında işlerin bir kısmı “Gıda Tarım Ve Hayvancılık Bakanlığı Merkez Kütüphanesinde Bulunan Kitapların Dijital Ortama Aktarılması ve İnternet Ortamında Hizmete Sunulması” adı altında ihale edilmiştir.

Yapılan dijitalleştirmenin amacı mevcut yayınların dijital ortamda muhafaza edilmesinin yanında yayın içeriğinin bilgisayar diline çevrilerek içinde aramalar yapılabilecek, metninin kopyalanabilecek hale getirilmesidir.

Bu çalışma ile, dijitalleştirme projelerinde karakter tanımanın kalite kontrol koşulları arasında yer almamasının sebep olacağı eksiklikleri ortadan kaldırmak amacıyla; ilgili proje kapsamında yürütülen faaliyetlerin yanında geliştirilen kalite kontrol yöntemi ve yazılımının, diğer projelere de örnek teşkil edecek şekilde kamuoyu ile paylaşılması amaçlanmaktadır. 

Şartnamede hata oranı; “Sayısallaştırılmış ve Optik Karakter Tanıma işlemine tabi tutulmuş dokümanda yer alan sözcük tanıma hataları oranı” olarak ifade edilmektedir. Görüldüğü gibi kalite kontrolde; kontrol yapılan sayfada %5 hata payı bırakılmış, %95 oranda doğruluk beklenmiştir. Bunun yanında daktilo yazısı, eski harfli Türkçe, el yazısı, silik baskı gibi teknik olarak OCR işleminin yapılamayacağı idare tarafından karara bağlanan yayınların kalite kontrol işlemine tabi tutulmayacağı da belirtilmiştir.

Bu sayede yaklaşık 7 bin yayında ve yaklaşık 1.200.000 sayfada yapılan inceleme sonucunda projenin OCR başarısı % 98’in üzerinde tespit edilmiştir. Yani yapılan taramada, her sayfada bulunan yüz kelimeden 98’i doğru olarak algılanıp kaydedilmiştir. Yani 7500 kitabın içeriğinin tamamına yakını bilgisayar tarafından okunabilir hale, daha açık ifade ile bilgisayar diline aktarılmıştır. Bu sayede ortaya çıkarılan yayınlarda tam metin içerisinde arama özelliği, arama yapılan kelime, yayının üzerinde işaretlenmiş halde gelmektedir ki bu özellik, bilhassa araştırmacılar için çok büyük bir kolaylık sağlamaktadır. 

Dolayısıyla yüksek oranda OCR başarısı, kütüphanede dijitalleştirilmiş olan bütün kaynaklarda kolay, hızlı, yüksek doğrulukta kelime bazlı içerik arama imkanı sağlamaktadır.

Belge çözünürlüğünün yüksek olmasının yanında optik karakter tanıma oranının da referans belgelerinde ve bilimsel makalelerde değinilmesi, şartnamelerde de iş bitirme koşulları arasında yer alması önermekteyiz.”

Sunum için tıklayınız..

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

Previous post linux bilgisayarın IP adresini sabitleme
Next post KAM Vaka Örnekleri: Dijital Tarım Kütüphanesi