Sıradan insanların motivasyonları bir kenara bırakılıp arşivlerde ve kütüphanelerde sayısallaştırmanın hangi amaçlarla yapıldığına bakıldığında üç temel faktörün ön plana çıktığını görülmektedir. Bunların ilki, belirgin entellektüel veya nesnesel değere sahip malzemenin korunmasına yönelik arşivsel amaçlar; ikincisi yüksek erişim talebinin mevcut olduğu durumlarda bilginin yaygınlaştırılmasına yönelik amaçlar; üçüncüsü ise çok kullanılan kolleksiyonların yıpranmasını engellemeye yönelik koruma-restorasyon amaçlarıdır. Bunlara kimi zaman, sayısallaştırılan malzemenin orijinallerinin yok edilerek yerden tasarruf amaçlarını eklemeye çalışan bir kısım cahiller bulunsa da burada bu görüşe itibar edilmeyecektir.
Archiving Information Recorded on Electronic Media) Prof. Dr. Nilüfer Tuncer Armagani. Ed. Mehmet Emin Kücük. Ankara: Turk Kutuphaneciler Dernegi, 2005: 78-100. Also, an abberviated version appeared in Arsiv Dünyasi. 5 (I.2005): 3-9.
Arşivlerde ve Kütüphanelerde Sayısallaştırma
Özet
Bilgisayar, tarayıcı ve CD yazıcıların fiyatlarındaki düşüşle bareber pek çok kişi ellerindeki malzemeyi tarayarak sayısallaştırmayı ve CD’lere kaydederek bir sayısal arşiv/kütüphane oluşturmayı düşünür olmuştur. Oysa, sayısal bir arşiv/kütüphane oluşturmak, sayısallaştırmayla beraber gelen pek çok sorunu çözmeyi gerektirdiği gibi, astronomik derecede yüksek maliyetleri karşılamayı da gerektirmektedir. Sözkonusu sorunları ve maliyet faktörlerini irdeleyen bu makale, iyi bir maliyet/yarar analizi yapılmadan böylesi bir işe kalkışıldığı takdirde, ortaya çıkan maliyetleri meşrulaştırmanın mümkün olmadığı sonucuna varmaktadır.
Giriş
Bilgisayar fiyatlarının düşmesiyle beraber, bilgisayar kullanıcısı sayısında da ciddi artışlar görülmeye başlanmıştır. Buna bağlı olarak insanlar, bilgisayar kullanarak neler yapabileceklerini öğrenmeye, özellikle de çok küçük hacimlere devasa boyutlarda bilgi sığdırabileceklerinin farkına varmaya başlamışlardır. Yaşanan inanılmaz bilgi açlığının (belki de aç gözlülüğünün) sonucunda, geleneksel ortamlarda kullanmaya alışageldiğimiz pek çok şeyi sayısallaştırarak elektronik ortamda tutma sevdası da yayılmaya başlamıştır. Özellikle tarayıcı ve CD yazıcı fiyatlarının düşmesi, hele ki bir kısım tarayıcılarla beraber ücretsiz olarak OCR (optik karakter tanıma) yazılımı verilmeye başlanması, bu eğilimi daha da körüklemiştir. Gerekli donanıma sahip hemen herkes, hayatlarının hiç değilse bir döneminde, yazılı ve görsel materyali tarayıp CD’lere yüklemek, yazılı malzemeyi OCR’dan geçirip işlenebilir metin haline getirerek bir sayısal arşiv ya da kütüphane oluşturma fikrine kapılır olmuştur.
Ancak bu iş, ilk anda göründüğü kadar kolay değildir. Sayısallaştırmanın maliyeti de başlangıçtaki basit donanım yatırımından ibaret değildir. Bu yazıda bu sorunlar irdelenmeye ve sayısallaştırmanın hangi koşullarda hedeflenmesi gerektiği ele alınmaya çalışılacaktır.
Neden Sayısallaştırma?
Sıradan insanların motivasyonları bir kenara bırakılıp arşivlerde ve kütüphanelerde sayısallaştırmanın hangi amaçlarla yapıldığına bakıldığında üç temel faktörün ön plana çıktığını görülmektedir. Bunların ilki, belirgin entellektüel veya nesnesel değere sahip malzemenin korunmasına yönelik arşivsel amaçlar; ikincisi yüksek erişim talebinin mevcut olduğu durumlarda bilginin yaygınlaştırılmasına yönelik amaçlar; üçüncüsü ise çok kullanılan kolleksiyonların yıpranmasını engellemeye yönelik koruma-restorasyon amaçlarıdır. Bunlara kimi zaman, sayısallaştırılan malzemenin orijinallerinin yok edilerek yerden tasarruf amaçlarını eklemeye çalışan bir kısım cahiller bulunsa da burada bu görüşe itibar edilmeyecektir.
Neleri Sayısallaştırma?
Sayısallaştırılan nesnelerin niteliklerine bakıldığında, bunları iki ana kategori altında toplamanın mümkün olduğunu görülmektedir: Araştırma araçları ve kolleksiyonlar. Araştırma araçlarının sayısallaştırılmasının ardında çoğu zaman kullanıcı hizmetlerinin yaygınlaştırılmasına yönelik amaçlar ön plana çıkmaktadır. Bu sürecin ilk adımı kendisini genellikle araştırma araçlarının bilgisayara yüklenmesi gibi kurum içi otomasyon faaliyetleriyle ortaya koymaktadır. Bir sonraki adım ise bilgisayara yüklenen araştırma araçlarının Internet üzerinden yayınlanmasıdır. Bu adımda, hazırlanan veri tabanını doğrudan Internet üzerinden yayınlamanın yanında, MARC, XML, EAD gibi standartların ön plana çıkmaya başladığı görülmektedir. Bu standartların ardındaki amaç ise kullanıcıların aynı anda birden fazla arşiv ya da kütüphanenin araştırma aracı sistemi içinde arama yapabilmesini sağlayacak alt yapıyı oluşturmaktır. Bu konu kendi başına çok sayıda araştırmaya konu olabilecek kadar geniş olduğu için burada ayrıca ele alınmayacaktır. Bu sebeple, bu yazıda sayısallaştırma dendiğinde bundan sonra kolleksiyonların sayısallaştırılması kastediliyor olacaktır.
Kolleksiyonların sayısallaştırılmasında ise dört ana türde malzeme göze çarpmaktadır: Elle veya daktiloyla yazılmış veya dizilmiş metinler; fotoğraf, çizim veya resim gibi sabit görüntüler; sinema filmi veya video gibi hareketli görüntüler; ve son olarak da ses kayıtları. Sayısallaştırılmış hareketli görüntü ve ses kayıtlarının dosya boyutları, dağıtım amaçları açısından fazla büyük olduğu için, bu tür malzemenin sayısallaştırılması pek popüler değildir. Daha popüler olan metin veya sabit görüntülerin sayısallaştırılmasında ise, görece daha küçük dosya boyutları kadar, kağıt üzerinde görmeye alışık olduğumuz malzemenin yaygınlığı da etkilidir.
Kolleksiyonların Sayısallaştırılmasındaki Problemler
Bunca büyük bir ilgi odağı olmasına karşın sayısallaştırmanın beraberinde getirdiği pek çok sorun mevcuttur. Bu sorunları yedi ana başlık altında toplamak mümkündür.
a. Teknik sorunlar
Sayısallaştırma işine soyunan istisnasız herkesin karşısına çıkan ilk sorun teknik ayrıntılara karar verebilmektir. Bunların başında ise sabit görüntülerin hangi çözünürlükte taranacağı gelmektedir. Günümüzde en ucuz tarayıcıların bile binlerce dpi çözünürlüğe ve 24 bit renk derinliğiyle milyonlarca renk seviyesinde ayrıntı saptayabilme yeteneğine sahip olması, insanların kafasını fena halde karıştırmaktadır. Çünkü yükselen her çözünürlük ve renk derinliği seviyesi, taranan görüntü büyüklüğünün geometrik olarak artmasına sebep olmaktadır. Bu sorunun cevabı ise pek o kadar basit değildir. Çünkü görüntünün ne amaçla tarandığına bağlı olarak farklı çözünürlükler ve renk derinliklerine ihtiyaç olmaktadır. Taranan görüntü örneğin web üzerinden yayınlanacaksa 72 dpi çözünürlük yeterli olurken, bir lazer yazıcıdan çıkış alınması düşünülüyorsa 150 dpi’ın, tercihan 300 dpi’ın üzerinde çözünürlüklere, matbaa baskısına gidecek görüntüler için ise 1200 dpi’ın, tercihan 2400 dpi’ın üzerinde çözünürlüklere yönelinmesi gerekecektir. Aşağıda ayrıntılı olarak ele alınacağı üzere, sayısallaştırmanın aşırı derecede yüksek maliyetleri gözönüne alındığında, bu işin tek seferde yapılması neredeyse bir zorunluluk halindedir. Bu nedenle, ilerideki muhtemel kullanım şekline bağlı olarak en yüksek çözünürlük ile tarama yapılması ve daha düşük çözünürlükteki görüntülerin bu nüshadan üretilmesi (çünkü tersi mümkün değildir) en makul çözüm olarak karşımıza çıkmaktadır. Aynı şekilde, web üzerinden yayınlanacak görüntüler için 8 bit (256 renk); yazıcıdan çıkış alınacak görüntülerde siyah beyaz için 8 bit (256 ton gri), renkli görüntüler için 16 bit (binlerce renk) yeterli olurken, matbaaya gidecek görüntülerde 24 bit (milyonlarca renk) düzeyinde bir renk derinliği şart olmaktadır.
Ancak, bu çözünürlük ve renk derinliğinde taranan görüntülerin her birinin, görüntünün büyüklüğüne bağlı olarak ortalama 30 ila 300 MB arasında değişen dosya büyüklüklerine sahip olduğu görüldüğünde şaşırılmamalıdır. Aynı sebeplerden dolayı bu boyutlara varan dosyalar CD’lere kaydedilmeye kalkıldığında, tek bir CD’ye 2 ila 30 görüntüden fazlasının sığdırılamaması da şaşırtıcı gelmemelidir. Üstelik, pek çok kişinin sandığının aksine, taranan görüntüyü sıkıştırıp JPEG formatında kaydederek bu sorundan kurtulmak mümkün değildir. Çünkü metinler haricinde sayısallaştırılmış herhangi bir nesneyi kayıpsız olarak sıkıştırmak pek mümkün değildir.
Aynı sorunlar ses kayıtlarında da mevcuttur: Sayısallaştırılan ses hangi düzeyde örneklenecektir? İlk müzik CD’leri piyasa çıktığında, teknoloji harikası olarak lanse edilen 8 KHz örnekleme ile sayısallaştırılmış ses kayıtları günümüzde çöp olarak kabul edilmektedir. Çünkü bugün CD kalitesi olarak kabul edilen örnekleme düzeyi 44 KHz’tir. O dönemde bu “teknoloji harikası” furyasına kendini kaptırıp orijinallerini imha edenler bugün dizlerini dövmekle meşguldür.
Ses kayıtlarının “kaliteli” kabul edilen bir seviyede sayısallaştırıldığı takdirde, ortaya çıkan ses dosyası, yukarıda sözü edilen görüntü dosyalarından kat be kat daha fazla yer kaplayacaktır. Bugün yaygın olarak kullanılan MP3 formatı ise kayıplı bir sıkıştırma algoritmasına dayanmaktadır. Sesin, insan kulağının duymadığı frekanslardaki kısmını atmak üzerine kurulu bu yöntem, arşivleme amaçları için yeterli kabul edilmemektedir.
Internet üzerinden sunulan görüntü ve sesleri düşük çözünürlük/örnekleme seviyelerinde kaydedip, üstüne üstlük ayrıca sıkıştırdıktan sonra JPEG/MP3 formatında kullanıma sunmak belki kabul edilebilir. Ama uzun vadeli saklanacak kayıtlar için bu tür yöntemler maalesef standart olarak kabul görmemektedir.
Bütün bunlar halledildiğinde, bu kez de dosyanın hangi formatta saklanacağına karar vermek gerekmektedir. Neyse ki işin bu tarafında oturmuş standartlar mevcuttur. Görüntü dosyaları için TIFF, ses dosyaları için AIFF artık endüstri standardı olarak kabul edilmiş durumdadır.
Ancak, ne yazık ki hareketli görüntüler için aynı şeyleri söylemek şu an için hala mümkün değildir. Çünkü bu alandaki formatlar savaşı hala devam etmektedir. MPEG, MPEG2, QuickTime vb. hareketli görüntü formatları arasındaki çekişme süredursun, işin içine bir de DVD’ler için üretilmiş formatlar ve codex’ler girmiştir. Görünen kadarıyla bu alandaki toz dumanın yatışması için bir süre daha beklemek gerekecektir.
b. OCR
Bilindiği üzere, tarayıcılar aracılığıyla bilgisayara aktarılan görüntü temelde bir fotoğraftan ibarettir. Bilgisayarın bu görüntü üzerindeki yazıları anlaması ve işlenebilir hale getirebilmesi için ise OCR denen bir işlemden geçirmesi gerekir. Bu işlem, taranan görüntü üzerindeki bağımsız her bir parçanın, yazılımın arşivinde kayıtlı şekillerle kıyaslanarak benzer olanların eşlenmesi ve bu sayede taranan görüntüye karşılık gelen harfin ya da karakterin tahmin edilmesi üzerine kuruludur. Bu nedenle Optical Character Recognition (Optik Karakter Tanıma) kelimelerinin baş harflerinden oluşan bu “sihirli” terim, pek çok kişinin gönlünde yatan bilgi açlığının/açgözlülüğünün ilacı gibi görünmektedir: “Kitapları tarayalım, OCR’dan geçirelim, bir sayısal kütüphanemiz olsun.” Ne yazık ki mesele bu kadar basit değildir. Çünkü OCR yazılımlarının % 1 ila 2 arasında değişen hata oranları, amatör ya da şahsi kullanımlar için yeterli olsa da profesyonel amaçlar için hala kabul edilemez derecede yüksektir.
Bu hataları daha aza indirebilecek teknolojiler elbette geliştirilmiş durumdadır. Pek çok yazım programının içinde bir imla denetçisi mevcuttur. Hatta bunların Türkçe imla denetimi yapanları dahi vardır. Ama hatalı yazılan kelimenin yerine, program tarafından önerilenler içinden bir tanesini seçmek için hala bir insana ihtiyaç duyulmaktadır. Bu soruna alternatif olarak geliştirilmiş, son derece yüksek teknoloji ürünü programlar da mevcuttur. Yapay zeka ve bulanık mantık gibi uç teknolojileri kullanarak cümle analizi yapan ve hatalı kelimenin yerine hangisinin geçmesi gerektiğine karar verebilen yazılımlar da geliştirilmiştir. Ama bunların içinde bu işi Türkçe yapabileni yoktur, çünkü Türkçe dil çözümlemesi hala tam olarak yapılabilmiş değildir. Ayrıca bu tür yazılımların fiyatı o kadar yüksektir ki yazım denetimini insanların yapması çok daha ucuza gelmektedir. Dahası, Türkiye gibi emeğin sudan ucuz olduğu ülkelerde iyi on parmak yazan birisini tutup dizgi yaptırmak, OCR’dan hem daha hızlı hem daha hatasız sonuçlar vermektedir.
c. Koruma-restorasyon konuları
Sayısallaştırma ile ilgili olarak üzerinde önemle durulması gereken bir başka konu ise sayısallaştırma işlemi sırasında orijinal belge ya da esere verilebilecek zararlardır. Bilindiği gibi, özellikle mikrofilm kameralarında kullanılan sıcak ışık kaynaklarının orijinale verdiği zararlar geçmişte epeyce tartışma yaratmıştır. Ancak, düzyatak tarayıcılarda kullanılan soğuk ışık kaynakları üzerine yapılan araştırmalar, bu cihazların sözkonusu tehlikeler açısından güvenilir olduğunu ortaya koymuştur (Vitale, 1998). Bununla beraber, örneğin büyük boyutlu malzemelerin sayısallaştırılması sırasında düzyatak tarayıcılar yerine sayısal kamera kullanılması gerekebilmektedir. Ayrıca, sayısal görüntünün yanısına mikrofilm çekilmek istendiği durumlar da olabilmektedir. Bu durumda, iki işi bir arada yürütebilen hibrid türde bir kamera kullanılması en makul yaklaşımdır. Ancak, böylesi durumlarda, kullanılan ışık kaynaklarının belge ya da esere verebileceği zararların ciddi olarak hesaba katılması ve gereken önlemlerin alınmasında fayda vardır.
Koruma-restorasyon açısından önem taşıyan bir başka nokta, ciltli eserlerin cildinin sökülüp sökülmeyeceğidir. Özellikle standart boyutlardaki kağıtları (matbaa makinalarına benzer şekilde) son derece hızlı tarayabilen rotatif tarayıcıların/kameraların kullanıldığı bazı durumlarda, ciltli eserlerin cildini söküp tek tek yapraklar halinde seri olarak sayısallaştırmak sözkonusu olabilmektedir. Ancak, nadir eserlerde ve cildin kendi başına kıymetli olduğu durumlarda bu yöntemi uygulamak tabii ki mümkün değildir.
Bu tür durumlarda başvurulan yöntem kitap çekim tablası adı verilen özel bir aparat kullanmaktır. Bu cihaz, temel olarak birbirine kıyasla yükseklikleri ayarlanabilen iki platformdan oluşmaktadır. Hassas cilde sahip eserler bu platformun üzerine yatırılmakta ve açılan sayfanın bulunduğu taraf ile diğer tarafın yükseklikleri özel olarak ayarlanarak her iki taraftaki sayfaların aynı yükseklikte tek bir yüzey oluşturması sağlanmaktadır. Sonra her iki platform birlikte hareket ettirilerek yükseltilmekte ve bir cam yüzeye alttan yaslanmaktadır. Kamera ise bu cam yüzeyin daha yukarısında bulunmaktadır. Bu sayede hem kameranın gördüğü sayfalar arasında yükselti farkı olmaması sağlanmakta, hem de cilt sırtına bindirilen yük azaltılarak cildin zarar görmesi engellenmektedir.
Hangi yöntem kullanılırsa kullanılsın hassas ve kırılgan belgelerin sayısallaştırılması sırasında özel bir ihtimam gösterilmesi şarttır. Üstelik bu özel ihtimam ihtiyacı yalnızca kağıt belgeler için geçerli de değildir. Değişken ısı ve nem koşullarında saklanması sonucu kırılgan hale gelmiş ses bantları veya nitrat tabanlı olması nedeniyle aşırı derecede yanıcı hale gelmiş sinema filmleri gibi bir kısım malzemelerin, sayısallaştırmanın ardından bir daha kullanılamaz duruma gelmesi, hatta arşivci/kütüphaneci için hayati tehlike yaratması işten bile değildir. Bu tür malzemeler için bu işin uzmanlarından yardım alınması kaçınılmaz bir gerekliliktir. Pek tabii bütün bunların getirdiği ilave bir kısım maliyetler de sözkonusu olacaktır.
Bütün bu nedenlerden dolayı, kimi zaman sayısallaştırma için ara aşamalardan geçilmesi ya da orijinal belge ya da eser yerine (varsa önceden çekilmiş mikrofilm nüsha gibi) bir kısım ikamelerin kullanılması da sözkonusu olabilmektedir. Tabii bunların da ilave maliyetleri vardır. d. Telif hakları Sayısallaştırma ile gündeme gelebilecek sorunların bir başkası telif hakları ile ilgilidir. Sayısallaştırma işlemi temel olarak, geleneksel ortamlar üzerinde kayıtlı malzemelerin elektronik ortamda nüshalarını yaratma anlamına gelir. Bu ise kelimenin tam anlamıyla bir çoğaltma işlemidir. Sözkonusu eser ya da belge sahibinin (ya da telif hakkına sahip olan kişi ya da kurumun) bu konuda verilmiş özel bir izni yoksa, sözkonusu sayısallaştırma işlemi telif haklarının ihlalinden başka bir şey olmayacaktır. Ancak yürürlükteki telif hakları mevzuatı, bu tür çoğaltmalarda telif hakkı sahibinin ticari menfaatlerini esas kabul ettiği için bir açık kapı bulma şansı vardır. Şöyle ki; sayısallaştırılan belge ya da eserin, geleneksel ortamdaki bir nüshası arşiv ya da kütüphanede zaten mevcut olduğu için, örneğin koruma-restorasyon amacıyla, orijinal yerine sayısal nüshanın araştırmaya sunulması bu konuda bir suç teşkil etmez. Ama sözkonusu sayısal nüshanın aynı anda birden fazla kişinin kullanımına sunulması (aynı anda araştırmacıların hizmetine sunulan sayısal nüshaya eşit sayıda geleneksel nüshaya sahip olunmadığı takdirde) suç teşkil eder. Bu iş bir de Internet üzerinden yapılıyorsa alenen korsan yayıncılık yapılması sözkonusu olur ki bu durumda astronomik para cezalarının yanısıra bir de ağır hapis cezalarına maruz kalınması işten ile değildir.
e. Erişim konuları
Sayısallaştırma ile gündeme gelen bir başka sorun, elektronik nüshaya erişimin mümkün kılınma şartlarıdır. Burada karşımıza öncelikle erişimle ilgili politikaların saptanması ihtiyacı çıkmaktadır. Yaratılan sayısal nüshaya kimler hangi koşullarda erişebilecektir? Bu konuda, örneğin telif hakkı, kişi özel hayatının gizliliği vb. sebeplerle getirilecek herhangi bir sınırlama var mıdır? Var ise bunların hayat içinde uygulanabilir olması nasıl sağlanacaktır? Örneğin sayısal nüshanın hacker denilen zararlı ve saldırgan bilgisayar korsanlarına karşı korunması nasıl gerçekleştirilecektir? Bu gibi konular, sayısallaştırma sonrasında karşımıza çıkacak erişim politikaları meselesinin başlıca örnekleridir ve bu gibi politikalar, elektronik nüsha yaratılmazdan önce belirlenmek zorundadır. Çünkü sonra çok geç olabilir.
Aynı şekilde, önceden düşünülüp karara bağlanması ve titizlikle uyulması gereken bir başka sorun dosya adlarıdır. DOS işletim sistemi kullanan bilgisayarlarda sekiz karakterlik dosya adları ve ilave olarak dosyanın türünü ve yaratıcısını belirten üç karakterlik uzantılar kullanılmaktaydı Ancak bunlar içinde harf ve sayı dışındaki karakterlerin hemen hiçbiri kullanılamıyordu. Buna karşın aynı dönemde Macintosh bilgisayarlarda bu tür sınırlamaların hiçbirisi olmadığı gibi 32 karakter uzunluğa kadar dosya adları kullanılabiliyor, üstüne üstlük Türkçe karakterler de herhangi bir sorun yaratmıyordu. Ama sözkonusu dosya DOS ortamına taşındığında sorunlar başlıyordu. Windows işletim sisteminin daha yeni sürümleri ile beraber dosya adlarının uzunluğu konusundaki sorun giderildi. Hatta çok daha uzun dosya adları mümkün kılındı. Ama bu kez aynı sorun tersine yaşanmaya başlandı. Platformlar arası dosya alış-verişlerinde yaşanan Türkçe karakterlerle ilgili sorun ise (karşılıklı olarak) hala giderilebilmiş değil. Bu nedenlerden dolayı dosya adlarında 8+3 formülünden çok da fazla uzaklaşılmaması ve maalesef asla Türkçe karakter kullanılmaması tavsiye edilmektedir. (Dosya adları ve elektronik ortamdaki eserler ile ilgili olarak yaşanan sorunlara örnek olabilecek bir hikaye için bkz. Woodyard.)
Yine dosya adları ile ilgili bir başka sorun, çok sayıda dosyaya farklı isimler bulabilme ihtiyacıdır. Örnek olarak bir kitabın sayısallaştırılması düşünülecek olursa, geleneksel ortamda bütün kitap tek bir isimle nitelenirken, sayısallaştırılmış nüshada her bir sayfa farklı bir dosyada yer alacak ve dolayısıyla farklı bir isimle anılacaktır. Dolayısıyla örneğin 300 sayfalık bir kitaba 300 farklı dosya adı bulmak, dahası bu dosyaların hepsini bir arada tutup aralarındaki ilişkiyi ve sayfaların sırasını da kaybetmemek gerekecektir. Takdir edileceği üzere bu pek kolay bir iş değildir; özellikle onbinlerce hatta yüzbinlerce kitabın bulunduğu büyük boyutlu bir kütüphane gözönüne alındığında.
Dosya adları, içeriği ve dosyalar arasındaki ilişkiyi ve sıralamayı yansıtabilecek kadar anlamlı bir uzunluğa sahip olmadığı sürece (ki bu fiilen hemen hiç bir zaman mümkün olmayacaktır), bir başka sorun gündeme gelmektedir: Dosya adı ile içeriği eşleştirebilecek bir araştırma aracı sisteminin bulunması ihtiyacı. Metadata’nın (yani data hakkındaki data’nın) tespit edilip bir yerlere kaydedilebilmesi gerekir ki hangi dosyada hangi belge ya da bilgilerin bulunduğu ve bunlar arasındaki ilişki ve öncelik sıraları bilinebilsin. Bunu, sayısal nüsha yaratılırken otomatik olarak yapabilecek bir sistem ise tabii en idealidir.
f. Saklama sorunları
Bütün bunlar halledildiğinde bir başka sorun gündeme gelmektedir: Yaratılan sayısal nüshayı, herhangi bir arşiv ya da kütüphane malzemesinde olduğu gibi bir kaç yüzyıl saklayabilmek. Bilgisayar dünyasında herşey ortalama beş yıl içinde bütünüyle değişmektedir. Bundan bir süre önce bilgisayarlarla uğraşmaya başlayanlar, o dönemde bütün bilgileri delikli kartlar üzerine kaydetmektelerdi. Sonra mucizevi bir ortam icat edildi: 8 inch’lik disketler. Yaklaşık bir dosya kağıdı boyutundaki bu manyetik ortama binlerce kartın alabileceği bilgiyi kaydetmek mümkün olabiliyordu. Sonra bunların boyutları ufaldı ve önce 5 1/4 inch’lik ardından 3.5 inch’lik disketler çıktı. CD’lerin yaygınlaşmasıyla beraber, küçük dosyaların transferi için disket yerine Internet kullanılmaya başlandı. Çünkü bu arada Internet kullanımı da iyice yaygınlaşmıştı. Bu nedenle bugün bir kısım bilgisayar üreticileri, artık ürettikleri bilgisayarlara disket sürücü takmamaktadır ve bu eğilim giderek yaygınlaşmaktadır. DVD’lerin yaygınlaşmasıyla beraber CD’ler yavaş yavaş ortalıktan çekilmeye başlamıştır. Bütün bunlar yetmezmiş gibi DVD’lerin yerine yeni bir alternatif icat edilmiştir: Blu-Ray (mavi ışın) teknolojisi (Bozdoğan, 2004). Tek bir diske 27 GB bilgi depolamaya imkan tanıyan bu teknoloji, her aşamada kendisinden önce gelenden çok daha yüksek kapasiteli depolama imkanı sunan gelişme çizgisinin, yalnızca bugün gelinen noktadaki son örneğidir. Bütün bu süreç, asırlar süren bir dönemin ürünüymüş gibi gelse de sözü edilen süre yalnızca 25 yıldır. Bu, bir kitap ya da arşiv belgesinin ömrüyle kıyaslandığında son derece kısa bir süredir.
Üstelik bu kadar baş döndürücü hızla değişen şeyler, yalnızca donanım ya da saklama ortamlarından ibaret de değildir. Bütün bunlara paralel olarak işletim sistemleri de aynı hızda değişmektedir. Bir zamanlar en yaygın sistem olan DOS’un yerini önce Windows 3.1, sonra Windows 95, Windows 98, Windows 2000, Windows XP almıştır. Macintosh ya da Linux dünyasında da durum farklı değildir. Başlangıçtan bu yana tek bir sistemde karar kılarak platformlar arası geçişle ilgili sorunlar bertaraf edilmeye çalışılmış olunsa dahi, aynı sistemin yeni versiyonları ile eski sürümleri arasındaki uyum sorunlarından kurtulmak mümkün değildir. Bir yerlerde mutlaka bu sorunlarla mücadele etmek gerekmiştir; en azından Türkçe karakterlerle ilgili olarak.
Hepsi bu kadarla sınırlı da değildir. Kullanılan uygulama programları ve bunların kullandığı dosya formatları da sürekli bir değişim içindedir. Bunların da yeni sürümleri ile eski versiyonları arasında her zaman tam bir uyum bulmak mümkün olamamaktadır. Daha kötüsü, kullanılan programı üreten firma kapanıp piyasadan çekildiğinde, eldeki dosyaları başka bir formata dönüştürme imkanı mevcut değilse, bu malzeme için idam fermanı imzalanmış demektir.
Bütün bu sayılanları tanımlayan terim, sistem eskimesi (obsolescence) adıyla anılmaktadır. Bu, elektronik ortamdaki bilgi ve belgelerin uzun vadeli saklanmasında karşılaşılan bir numaralı sorundur. İki numaralı sorun ise daha karmaşık ve çok daha çetrefil çözümler gerektirmektedir: Yaratılan sayısal nüshanın orijinalliğinin ve yasal delil olabilme vasfının uzun vadede korunabilmesi. Birilerinin sisteme girip yaratılan sayısal bilgi ya da belgeyi değiştirmediği, kendi çıkarı için tahrif etmediği nereden bilinecektir? Bundan nasıl emin olunabilecektir? Bu konuda başkalarını ikna etmek mümkün olabilecek midir? Yeterli kanıt bulmak mümkün müdür?
Bütün bunlar yeryüzünde bilgi ya da belge saklama işiyle uğraşan herkesi bekleyen en muhtemel sorunlardır. Bu yüzden dünyanın pek çok yerinde bu sorunların üstesinden gelmek için çok ciddi bilimsel araştırmalar yürütülmektedir. Tek bir kişi ya da grubun araştırmasıyla bu kadar devasa sorunların üstesinden gelinemeyeceği açıktır. Bu nedenle, bu araştırmalar dünyanın pek çok yerinden bilim adamlarının ve kadınlarının katıldığı uluslararası projeler halinde sürdürülmektedir. Doğaldır ki bu konudaki sorunlar ve çözümü için atılan adımlar burada ayrıntılı olarak ele alınamayacak kadar geniştir ve Ataman (2004) tarafından ayrıntılı olarak ele alınmış olduğu için burada ayrıca tartışılmayacaktır.
g. Maliyet
Buraya kadar sayılan onca sorun, pek tabii külliyetli bir maliyeti de beraberinde getirmektedir. Bu rakam o kadar yüksektir ki sözkonusu rakama etki eden faktörler ayrıntılı olarak ele alınmadığı takdirde pek çok kişiye inandırıcı gelmeyecektir. Bu yüzden burada uzun bir parantez açılarak sözkonusu maliyet faktörleri teker teker ele alınıp açıklanacaktır.
Maliyet Faktörleri
Sayısallaştırma ile ilgili maliyet faktörlerini on ayrı başlık halinde gruplandımak mümkündür.
a. Malzemenin miktarı
Doğal olarak maliyeti etkileyen faktörlerin başında malzemenin miktarı gelmektedir. Sayısallaştırılan malzeme miktarı ne kadar çoksa maliyet de o kadar artar.
b. Malzemenin boyutları
Maliyete etki eden ikinci temel faktör ise malzemenin boyutlarıdır. Ebatlar büyüdükçe sayısallaştırmanın maliyeti de artmaktadır. Çünkü standart dışı boyutlar için özel ekipman kullanma ihtiyacı ortaya çıkmaktadır. Örneğin A4 ebadındaki malzemeleri rotatif kamera kullanarak çok hızlı bir şekilde taramak mümkünken, A3 ebadına kadar olan malzemeler için düz yatak tarayıcılar kullanılması gerekecektir. A3’ten daha büyük malzemeler için ise mikrofilm kameralarına benzer kameralar kullanma ihtiyacı baş gösterir. İlginçtir ki çok büyük malzemeler kadar çok küçük malzemeler de maliyetin artmasına sebep olabilmektedir. Tarama işlemi sabit kameralarla yapılıyorsa, çok küçük belgeleri taramak için makro çekim yapabilecek objektifler kullanmak gerekecektir. Düz yatak tarayıcı kullanılıyorsa, bu kez standart ayarların dışına çıkıp belgeyi daha yüksek çözünürlükle taramak sözkonusu olacaktır.
c. Orijinallerin seçimi ve hazırlanması
Sayısallaştırma ile ilgili bir başka maliyet unsuru, orijinallerin seçimi ve hazırlanmasıdır. Sayısallaştırmaya tabi olacak malzemenin hangileri olacağına karar vermek başlı başına entellektüel bir süreçtir. Dolayısıyla bu sürecin yarattığı bir eleman maliyeti sözkonusudur.
Malzemenin, seçildikten sonra sayısallaştırma işlemi için hazırlanması (örneğin zımbaların sökülmesi), gerekiyorsa belgenin diğerlerinden ayrılması (örneğin ayırdedici bir kimlik olarak barkod eklenmesi) yine benzer nitelikli maliyetlerdir.
Bu tarzdaki son maliyet ise malzemenin eski haline getirilmesidir (örneğin yeniden zımbalanması, sökülmüşse yeniden ciltlenmesi, vb.).
d. Niteleme, kataloglama, indeksleme
Sayısallaştırmaya tabi olacak malzeme, sayısallaştırma işleminden önce nitelenip, katalog ve indeksleri hazırlanmış olsa dahi, sayısal nüshaya ait kimlik bilgilerinin ayrıca bir yerlere işlenmesi gerekecektir. Bu, mevcut araştırma araçlarına sayısal nüshanın kimlik bilgilerinin işlenmesi şeklinde olabileceği gibi, kendi başına bir araştırma aracı haline de dönüşebilir. Yukarıda dosya adları ile ilgili sorundan bahsederken sözettiğimiz gibi, tek bir kitabın sayısallaştırılmış nüshası, kitapta yer alan sayfa sayısı kadar ayrı dosyadan oluşabilir. Bunların birbiriyle ilişkilerinin ve sıralarının kaydedilip korunması dahi başlı başına bir sorun haline gelebilir. Bu kadar yoğun entellektüel emek gerektiren bir işin belirli bir eleman maliyetinin olması da kaçınılmaz olacaktır.
e. Koruma-restorasyon
Yukarıda sayısallaştırma ile ilgili problemlerden bahsederken, sayısallaştırma sürecinin orijinale verebileceği zararlardan bahsedilmiş ve kırılgan veya hassas bir kısım belgeler için özel ihtimam gerekebileceğinden sözedilmişti. Bu tür malzemenin seri bir şekilde taranması veya kameraya alınması mümkün olmadığı gibi bazılarının sayısallaştırma işlemlerine sokulmazdan önce tamir edilmesi veya başka bir kısım koruma-restorasyon önlemlerine tabi tutulması gerekebilir. Bütün bunların da ilave bir maliyet getirmesi kaçınılmaz bir durumdur.
f. Ara aşamalar ve ikamelerin üretimi
Yine koruma-restorasyon önlemlerine bağlı olarak başvurulması gerekebilecek muhtemel bir yöntem, sayısallaştırmanın orijinal yerine, mikrofilm veya benzeri bir başka nüsha kullanılarak yapılması ya da gerekiyorsa bir kısım başka ara aşamalardan geçirilmesidir. Tabii bunlar da ilave bir kısım maliyetler anlamına gelecektir.
g. Sayısallaştırma süreci
Bu kadar ilave maliyetten sözederken işin asli maliyetlerini gözden kaçırmamak gerekir. Sayısallaştırma işleminin kendisinin de belirli bir maliyeti vardır. Kullanılan format ve çözünürlüğe bağlı olarak hem sayısallaştırma işleminin süresi hem de depolama maliyetleri farklılaşacaktır. Elde edilen sayısal nüsha üzerinde ayrıca bir kısım işlemler uygulanması (örneğin taranan görüntünün OCR’dan geçirilmesi, sayısallaştırılan sesin parazitlerinin filtre edilip temizlenmesi vb.) gerekiyorsa, bunlar da maliyete etki edecektir. Bütün bu işlemlerin kurum içinde ya da taşeron marifetiyle yapılıyor oluşuna bağlı olarak ödenmesi gereken rakam da farklılaşacaktır.
h. Görüntü, ses ve datanın kalite kontrolü
Mikrofilm görüntülerinin kalite kontrolünden geçirilmesi zorunluluğu uzunca bir süredir bilinen bir gerçektir. Aynı zorunluluk sayısallaştırılmış görüntü, ses ya da hareketli görüntüler için de geçerlidir. Dahası, bu süreçte üretilen metadata, ya da OCR sonucunda elde edilen metin verilerinin kontrolü ve düzeltilmesi de ayrıca hesaba katılması gereken bir zorunluluktur.
i. Çıktı ve dağıtım
Bütün bu süreçlerden geçilip malzeme sayısallaştırıldıktan sonra eldeki sayısal nüshanın ne tür bir ortama kaydedileceği ve nasıl dağıtılacağı üzerine düşünülmesi ve bunların maliyetlerinin hesap edilmesi gerekmektedir. Elektronik nüsha CD’ler üzerinde mi, kurum içinde dahili bir network üzerinden mi, yoksa Internet üzerinden mi dağıtılacaktır? Kurumun network altyapısı bu işler için yeterli midir yoksa sayısallaştırılmış nüshaları dağıtırken tıkanıp başka işlerin yapılmasına engel mi olacaktır? Altyapının güçlendirilmesi ve kapasitesinin arttırılması gerekiyorsa bunun getireceği ilave maliyet ne kadar olacaktır? Aynı şekilde, Internet sunucuları ve mevcut bant genişliğ bu kadar büyük dosyaların dağıtımını karşılayabilecek kapasitede midir? Çok sayıda kullanıcı talebi olduğunda çökmeden ayakta kalabilecek midir? Bunların kapasitesinin yükseltilmesi ne kadarlık ilave bir yük getirecektir? Bütçede bu yük için ayrılmış bir pay var mıdır? Bu pay yeterli olacak mıdır?
j. Sayısal nüshanın sürekli bakımı
Disket üzerine kaydedilip yedeklenen bir dosyanın bir süre sonra yeniden kullanılması gerektiğinde, disket bozulduğu için okunamadığı durumlar pek çok kişinin başına gelmiştir. Bunca sorun aşılıp bunca paralar harcanarak sayısallaştırma yapıldıktan sonra, eldeki hazinenin bir kaç yıl içinde uçup gitmesi ya da durduğu yerde buharlaşması istenen bir durum değildir. Bu yüzden, kayıtlı dosyaların belirli aralıklarla kalite kontrolünden geçirilmesi ve taşıyıcı ortamın bozulması veya sistem eksimesi sorunlarına karşı önlem olarak, belirli aralıklarla başka ortamlara (gerekiyorsa farklı formatlara) aktarılması unutulmamalıdır. Bütün bunlar yapılırken, yapılan her işin ayrıntılı bir kaydı tutulması, olası saldırılara karşı sistem güvenliğinin sağlanması, sisteme yapılan tüm erişimlerin ve sistem üzerinde yapılan tüm işlemlerin tespit edilip güvenli bir log üzerine kaydedilmesi de ihmal edilmemelidir. Çünkü bunlar yapılmadığı takdirde eldeki sayısal nüshanın orijinalliğinden emin olabilmek mümkün değildir. Elbette bütün bunların da oldukça yüklü bir maliyeti vardır.
Maliyetlerin Toplamı
Sayısallaştırmanın toplam maliyeti üzerine arşivler bazında yapılmış araştırmalar, tüm kalemler içinde kaba bir hesapla yaklaşık üçte bir maliyetin sayısal dönüşüm işlemlerinin kendisine, üçte bir maliyetin niteleme, kataloglama ve benzeri metadata oluşturma faaliyetlerine ve geri kalan üçte birin ise kalite kontrol ve diğer idari masraflara sarfedildiğini ortaya koymaktadır. Görüntü başına maliyetin tam rakamları şöyledir:
Sayısal dönüşüm: |
9,35 $
|
Niteleme, kataloglama, metadata oluşturma: |
10,60 $
|
Kalite kontrol vb. idari masraflar: |
11,40 $
|
Toplam |
31,35 $
|
Seri çekim vb. yöntemlerle aşağı çekilmiş maliyetlerin ulaşabildiği en alt sınır görüntü başına 1,55 $’da kalırken, özel ihtimam gerektiren belgeler vb. koşullarda ulaşılan en üst sınır ise görüntü başına 96,45 $ olarak saptanmıştır (Puglia, 1999).
A. B. D. Kongre Kütüphanesi’nde yapılan araştırmaların sonucuna göre kütüphanelerdeki sayısallaştırmanın toplam maliyeti ise görüntü başına ortalama 8,33 $’dır. Bir kitabın ortalama 300 sayfa tuttuğu varsayıldığında sayısallaştırmanın maliyeti kitap başına ortalama 2500 $ civarında bir rakama ulaşır. (Puglia, 1999).
Burada dikkat edilmesi gereken nokta, buraya kadar sözünü edilen maliyetlerin dağıtım ve uzun süreli saklama maliyetlerini içermemesidir. Network altyapısı ve sayısal verilerin ilk on yıldaki kurulum, personel ve sürekli bakım maliyeti, sayısallaştırma için ilk aşamada yapılan yatırımın beş katına ulaşmaktadır. (Puglia, 1999). Sözkonusu ilk yatırım hakkında bir fikir vermesi için ülkemizden bir örneğe bakılabilir: Devlet Arşivleri Genel Müdürlüğü, Bilgi-İşlem Departman Şefi Nizamettin Oğuz tarafından verilen bilgiye göre, Süleymaniye Kütüphanesi’ne kurulan sayısallaştırma laboratuarının ilk aşamadaki donanım ve yazılım maliyeti 250.000 $’dır. Bu durumda sayısallaştırılmış malzemeyi dağıtmak ve korumak için, ilk on yıl boyunca toplam 1.250.000 $’lık bir ek harcama yapılacağını kestirmek güç değildir.
Bu maliyetler mikrofilm ile kıyaslandığında durum nedir? Bu konuda, taşeron olarak sayısal görüntü saklama hizmeti sunan OCLC’nin ve piyasada mevcut hard disklerin fiyatlarını baz alarak hareket eden Chapman’ın (2003) araştırmasına göre, kitap sayfalarından alınma sıkıştırılmamış sayısal görüntünün saklama maliyeti—ki görüntünün neden sıkıştırılmaması gerektiği yukarıda sayısallaştırma ile ilgili problemlerden bahsedilirken anlatılmıştı—mikrofilmin on katına varan bir rakama ulaşmaktadır. Kitap sayfalarından sayısal görüntü alınması durumunda, pek çok kalem standardize edilebildiği için, maliyetin arşiv malzemesine kıyasla oldukça düşük kalacağını hatırlatmakta fayda vardır. Dolayısıyla arşivler için bu rakamın daha da yüksek olacağı akıldan çıkarılmamalıdır.
Madalyonun Diğer Yüzü
Bunca sorun ve yüksek maliyet faktörü peşpeşe sıralandıktan sonra, sayısallaştırmaya kesinlikle karşı olunduğu ve hiç bir faydası olmadığına inanıldığı gibi bir izlenim oluşabilir. Yazının baş tarafında “Neden Sayısallaştırma” başlığı altında verilen üç gerekçeden en önemlisi olan “bilginin yaygınlaştırılması ile ilgili amaçlar”a geri dönülüp, buradan sağlanan faydalar irdelenirse, bu izlenimin yanlışlığını ortaya koymak mümkün olacaktır. Kütüphanelerde yapılan sayısallaştırma ve Internet üzerinden yaygınlaştırma örneği olarak Kongre Kütüphanesi’nin verilerine bakıldığında, fiziki nesneler için bir yılda yapılan iki milyon talebe karşın, sayısal dosyalar için bu rakama bir günde ulaşıldığı görülmektedir. Arşivler cephesine bakıldığında da durum farklı değildir. Amerikan Milli Arşivi NARA’nın web sayfası ayda 6,7 milyon hit almaktadır. Bunun yaklaşık üçte biri sanal sergi salonunu gezen ziyaretçilerdir. Okuma salonundaki durum Kongre Kütüphanesi’nde olduğu kadar çarpıcı olmasa da kayda değerdir: NARA’nın web sayfaları kanalıyla her ay 46.000 arama oturumu açılmakta ve her oturumda ortalama on iki belge aranmaktadır. Buna karşın okuma salonlarındaki aylık arama oturumu sayısı 6400’dür. Bunlara her ay sözlü olarak sorulan 35.000 ve yazılı olarak sorulan 31.000 soruyu da eklemek gerekecektir (Hughes, 2003).
Sonuç
Araştırmaların ortaya koyduğu astronomik rakamlara bakıldığında ortaya çıkan tek bir sonuç vardır: Gerçek anlamda bir sayısallaştırma, bir bilgisayar, tarayıcı ve CD yazıcı satın alabilen herkesin ya da her kurumun harcı değildir. Bu yüzden, yalnızca çok sayıda kullanıcısı olan milli kütüphane veya milli arşiv düzeyindeki kurumlar için önerilebilen bir yöntemdir. Bu tür kurumlarda dahi, sayısallaştırma faaliyeti yalnızca çok kullanılacak malzeme ile sınırlı tutulduğu takdirde anlamlıdır. Aksi takdirde ortaya çıkan maliyetleri meşrulaştırmak mümkün değildir. Bu nedenle çok iyi bir maliyet/yarar analizi yapılmadan böyle bir işe kalkışılıyorsa ya devletin/kurumun parası ve çalışanların onca emeği düşüncesizce sokağa atılıyor ya da bunun ardında gayrımeşru bir çıkar hesabı var demektir.
Kaynakça
- Ataman, B. K. (2004). “Elektronik Ortamdaki Bilginin Arşivlenmesi.” Prof. Dr. Nilüfer Tuncer’e Armağan. Haz. M. E. Küçük. Ankara: Türk Kütüphaneciler Derneği. [Basılacak]
- Bozdoğan, B. (2004). “Blu-Ray: Optik Teknolojide Renk Değişimi.” Byte Türkiye : 88-89.
- Chapman, S. (2003). “Counting the Costs of Digital Preservation: Is Repository Storage Affordable?” ournal of Digital Information , 4(2): [Çevrimiçi], Elektronik adres: http://jodi.ecs.soton.ac.uk/Articles/v04/i02 /Chapman/. [24.5.2004].
- Hughes, L. (2003). “The Price of Digitization: New Cost Models for Cultural and Educational Institutions: Symposium Report.” NINCH SYMPOSIUM: April 8, 2003, New York City . [Çevrim içi], Elektronik adres: http://www.ninch.org/forum/price.report.html. [24.5.2004].
- Puglia, S., (1999). “The Costs of Digital Imaging Projects.” Research Libraries Group (RLG) DigiNews , 3(5). [Çevrimiçi], Elektronik adres: http://www.rlg.org/preserv/diginews/diginews3-5.html. [24.5.2004].
- VITALE, T. (1998). “Light Levels Used in Modern Flatbed Scanners.” Research Libraries Group (RLG) DigiNews , 2(5). [Çevrimiçi], Elektronik adres: http://www.rlg.org/preserv/diginews2-5.html#technical. [24.5.2004].
- Woodyard, D. “Farewell my Floppy: A strategy for migration of digital information.” [Çevrimiçi], Elektronik adres: http://www.nla.gov.au/nla/staffpaper/valadw.html. [24.5.2004].
[*] Doç. Dr., Marmara Üniversitesi Bilgi-Belge Yönetimi Bölümü
Küçük veya Büyük firma olmanız önemli değil… “Bilgi Güçtür”
-Bilgi rekabette %100 başarı getirir.
-Kurumsal hafızanızı düzenli tutmuyorsanız aynı günü tekrar ediyorsunuzdur.
-Karar almada bilginin önemi %90 dır.
-Bilgi personellerin kafasında ise o gidince yanlız kalırsınız.
-Arşivini kaybeden kurumların %70 bir yıl içerisinde batmışlardır.