Hakkımızda Ürünler Örnek Projeler Basın Odası İnsan Kaynakları Referanslar İletişim
 » Ana Sayfa  » Basın Odası  » Basında KETS
Site Haritası
 Bilgi istek formu Bilgi istek formu
 Yazdırmaya uygun gösterim Yazdırmaya uygun gösterim
İlgili Linkler
Basında KETS
Tekrar Yazmakla Vakit Kaybetmeyin OCR Yazılımlarıyla Bilgisayara Aktarın



01 Ekim 2001
Büyütmek için tıklayınız     

Hiç kağıt üzerindeki bir dokümanı yazarak bilgisayara aktarmak zorunda kaldınız mı?

Bunu yapmamış olsanız da, ne kadar zaman alıcı ve sinir bozucu olduğunu tahmin edebilirsiniz. Oysa bilgisayarınız ve tarayıcınız varsa, tüm dokümanlarınızı zahmetsizce bilgisayarınıza aktarabilir ve düzenleyebilirsiniz.


P
ek çok işyerinde bilgisayarda yazılan belgelerin fakslandığını ve bu faksın alındığı diğer işyerinde de tekrar klavyeyle bilgisayara girildiğine şahit oldum. Sizce de bu çok aptalca değil mi? Hani bilgisayarlar hayatımızı kolaylaştıracaktı! Dergilerde bile, bazı yazarlar yazılarını bilgisayarda yazdıktan sonra kuryeyle yayıncılarına iletiyorlar veya fakslıyorlar, orada da bir kişi bu yazıyı tekrar elle diziyor! (Tabii bunlar derginiz PCnet'te asla ol-mayacak şeyler ;) Bizler yıllardan beri e-posta kullanıyoruz. )

Bu problemin temel nedeni, bazı işyerlerinin ve kişilerin bilgisayar teknolojisini benimsemekte geç kalması yüzünden, bilgisayardaki verilerin bir yerlerde tekrar kağıt ortamına geri dönmesi. Tabii, bu durumda elinizdeki kağıttaki verileri tekrar sayısal hale getirmeniz gerekiyor. Cevabınızı duyar gibiyim: 'Tararsınız ve bilgisayara alırsınız' (Gerçekten bu kadar kolay mı?). Aslında cevap doğru, ancak bu iş o kadar basit değil. '

Bir tarayıcınız varsa, bir belgeyi tarayarak bilgisayara aktarabileceğiniz doğru. Ancak, bilgisayar ve tarayıcı ikilisi için, kağıdın üzerindeki yazılar bir resimden daha fazla bir şey değildir. Yani, Photoshop'ta veya Windows Paint'te belgenin bir resmini açarak üzerine şekiller çizecekseniz, bunun için başka bir yazılıma gerek duymazsınız. Bir belgeyi tarayarak Word'e aktaracak, üzerinde 'yazarak' değişiklikler yapacak veya düzenleyecekseniz, bir OCR yazılımına gerek duyacaksınız.

Nedir Bu OCR?
OCR, Optical Character Recognition kelimelerinin kısaltmasıdır ve 'optik karakter tanıma' anlamına gelir. OCR yazılımları, bir sayfadaki (örneğin, bir dergi sayfası) kelimeleri ve resimleri tarayıp çeşitli algoritmalar kullanarak kelimelere ve harflere kadar analiz eder. Son dönüştürmede, ister Microsoft Word formatı isterse basit metin formatı kullanılsın, OCR bir görüntünün içeriğini bir dizi harfe dönüştürür; harfler kelimeler, kelimeler cümleler, vb. olarak birleştirilir. Böylece metni harf harf düzenleyebilirsiniz. Yani, kağıt üzerindeki belge, Word'de sizin veya bir başkasının hazırladığı bir belgeyle aynı hale gelir. Bir OCR sistemini değerlendirmede en sık kullanılan ölçü doğruluktur, bu hatasız aslına uygunluk anlamındadır. %99'luk tutarlılık kulağa hoş gelsede, gerçekte bir sorun olabilir. %99 tutarlılık ortalama % 1 hata oranı demektir. Bu da, bir veya daha fazla hatanın oluşacağı, bunları düzeltmek için de bir insanın çalışması gerektiği anlamına gelir. Büyük belgelerde bu çok zahmetli olabilir. OCR yazılımları geçen yıllar boyunca büyük bir gelişme gösterdi, llk çıktıklarında OCR programlarının doğruluk oranları son derece düşüktü ve yoğun bir elle düzeltme işlemini gerektiriyorlardı. Ayrıca, İngilizce'den başka dili desteklemeyen bu yazılımlar, Türkçe karakterlerde acayip bir şekilde çuvallıyor, elde ettiğiniz dokümanda tuhaf karakterlerin görünmesine neden oluyordu. Günümüzde OCR yazılımları çok sayıda farklı dili ve karakter setlerini destekliyor, tanıma oranları son derece yüksek ve bu programları 'eğiterek' tanıma oranlarını daha da artırabiliyorsunuz!
Bu yazıda, uzun zamandır gelişimini izlediğim ve sevdiğim iki OCR yazılımını sizlerle paylaşacağım: ABBY FineReader Office 5.0 ve Recognita Plus 5.0. Her iki programın deneme sürümlerini bu ayki PCnet CD'nizde bulabilirsiniz.

ABBY FineReader Office 5.0
Rus programcıların geliştirdiği bu OCR yazılımı, kullanım kolaylığı ve çeşitli dilleri tanımadaki üstün başarısıyla göz dolduruyor. PCnet CD'sinden FineReader'ı kurduktan sonra, Türkçe için destek dosyalarını da FineReader'ı kurduğunuz dizine açmanız gerekiyor. Yani, FineReader'ı C:\Program Files\ABBYY FineReader 5.0 Office Try&Buy\ klasörüne kurduysanız, Turkish.zip isimli dosyanın içinden çıkan Turkish.amd ve Turkish.amn isimli iki dosyayı da bu dizine açmanız gerekiyor. Bu sayede, FineReader Türkçe belgeleri de tanıyabiliyor. OCR programlarını kullanabilmek için, tarayıcınızı ve tarayıcınızın çalışması için gerekli yazilımları kurmuş olmalısınız. Bu yazılımlardan en önemlisi, çeşitli uygulamaların tarayıcıyı kullanabilmesini sağlayan TWAIN sürücüsüdür. Yazıcınızı bilgisayarınıza taktığınızdan beri en az bir kez başarıyla kullandıysanız, TWAIN sürücüsünü de kurmuşsunuz demektir. Şimdi dilerseniz FineReader'da bir OCR uygulamasını adım adım yapalım.

FineReader ile Doküman Aktarma
1)
FineReader'ı çalıştırın ve tarayıcınıza taramak istediğiniz bir kitap sayfasını veya belge sayfasını yerleştirin. Sonra sol üst köşede gördüğünüz Scan&Read düğmesine tıklayın. OCR'da kullanılacak görüntünün nereden alınacağını soran bir iletişim kutusu açılır. Tarayarak alacağımız için, From Scanner'ı seçiyoruz. Sonraki iletişim kutusu ise bir hatırlatma mahiyetinde. Birazdan tarayıcınızın yazılımına ait TWAIN iletişim kutusu açılacak. Burada çözünürlüğü 300 dpi'a, parlaklığı %50'ye ayarlamanız gerekiyor. Orijinali kaliteli olan dokümanlar için siyah-beyaz modunu, dokümanların çoğu için gri tonlama modunu, orijinal dokümandaki resimleri ve renkleri korumak için renkli tarama modunu seçebilirsiniz.

2) Bu adımda tarayıcınıza ait TWAIN iletişim kutusu açılmış olmalı. Ekranda göreceğiniz iletişim kutusu, tarayıcınızın kullandığı yazılıma bağlı olarak burada gördüğünüz iletişim kutusundan farklı olabilir. Dikkat etmeniz gereken en önemli şey, tarayacağınız belgenin tarayıcının cam yüzeyine tam olarak oturmasını ve herhangi bir yerinin havaya kalkmamasını sağlamak. Ayrıca, doküman siyah-beyazsa boşu boşuna renkli tarama yapmamalısınız, Çünkü bu durumda tarama sırasında aktarılması gereken veri miktarı artar ve daha fazla beklemeniz gerekir. Üstelik, bu size herhangi bir kalite kazancı sağlamaz. Karakterlerin normal boyda olduğu belgelerle OCR uygulamalarında, genellikle 300 dpi yeterlidir. Eğer taradığınız şeydeki yazılar çok küçükse, 400-600 dpi gibi daha yüksek çözünürlükte tarama yaparak hassasiyeti artırabilirsiniz. Bir gazete kupürü gibi arkasını gösteren bir kağıdı tarayacaksanız, varsa bu iletişim kutusundaki Descreen seçeneklerini ayarlamanız daha iyi sonuç almanızı sağlayabilir. Bildiğiniz gibi, ince kağıtlar arkasındaki yazıların da görünmesine neden olur ve bu yüzden karakter tanıma oranlarını kötü etkileyebilir. Descreen seçeneği, kağıdın dokusundaki düzensizlikleri ayıklamaya çalışır. Gerekli ayarlamaları yaptıktan sonra, Scan düğmesine tıklayın. Buradaki ayarlarla ilgili daha fazla bilgiye ihtiyaç duyarsanız, tarayıcınızla birlikte gelen kullanım kılavuzuna göz atmanın tam zamanıdır.

3) Taradığınız doküman FineReader penceresinde belirir ve taradığınız dokümanın dilini seçmeniz istenir. Daha önce belirttiğim gibi Türkçe destek dosyalarını FineReader'ı kurduğunuz klasöre açmadıysanız, seçenekler arasında Türkçe'yi (Turkish) göremezsiniz. Bundan sonra Next'e tıklayarak tanıma işlemini başlatabilirsiniz.

4) Dil seçimini yaptığınızda, FineReader dokümanı tanımaya başlar. Tanıma bittikten sonra, dokümanın tanınmasında az veya çok fazla hatanın olduğunu belirtmeniz istenir. İkinci seçeneği seçerseniz, tarama ve tanıma kalitesini artırmayla ilgili bazı öneriler alabilirsiniz. Benim durumumda ise, hatalar kabul edilebilir düzeyde olduğu için birinci seçeneği seçtim ve İleri'ye tıkladım.

5) Karakter tanıma hatalarını düzelterek, dokümanı hatasız bir şekilde kaydetmek istiyorsanız, bir sonraki iletişim kutusunda Yes'i seçin. Böylece Türkçe sözlük kullanarak dokümanda maviyle gösterilen kısımların üzerinden geçeceksiniz. Program, doğru tanıdığı halde sözlüğünde bulunmayan kelimeleri de şüpheli anlamında mavi renkle işaretler. Kelimenin doğru tanınmışsa, Ignore'a tıklayarak atlayabilir, Ignore All'a tıklayarak geçtiği her yerde o kelimeyi atlayabilir veya Add'a tıklayarak kelimeyi programın sözlüğüne ekleyebilirsiniz. Replace seçeneği ise, kelimeyi iletişim kutusunun alt panelinde seçtiğiniz kelimeyle değiştirir; Replace All, o kelimeyi geçtiği her yerde seçtiğiniz kelimeyle değiştirir. Pencerenin alt tarafında, o anda bulunduğunuz yerin büyütülmüş bir görüntüsünü görerek, tanınan karakteri orijinal dokümanla daha rahat karşılaştırmanız sağlanır.

6) Yazım denetimini tamamladığınızda, artık karakterlerden oluşan dokümanı istediğiniz formatta kaydedebilmeniz veya aktarabilmeniz için seçenekler göreceksiniz. DOC, RTF, PDF, HTM, TXT, DBF, CSV formatlarından birinde dosya olarak kaydedebileceğiniz gibi, doğrudan Word'e Excel'e aktarabilir,
e-postayla gönderebilir, Pano'ya kopyalayabilir veya Web tarayıcısında açabilirsiniz. Yeni başlayanlar için, FineReader'ı Scan&Read düğmesine tıklayarak sihirbaz modunda kullanmak son derece kolay. Daha fazla seçenek isteyenler ise, 1-2-3-4 numaralı düğmelere tek tek tıklayarak ilerlemeli. Scan, Read, Check Spelling ve Save düğmelerinin yanlarında ufak okların bulunduğuna dikkat edin. Bu oklara tıklayarak daha fazla seçeneğe ulaşabilirsiniz.

Recognita Plus 5.0
Recognita, bir Macar firması ve Recognita Plus da OCR pazarındaki en köklü yazıllmlarlardan biri. PCnet CD'nizden Recognita Plus'ı kurmak için, önce sıkıştırılmış kurulum dosyasının içeriğini sabit diskinizdeki bir klasöre açmanız gerekecek. Bunun için sabit diskinizde bol miktarda boş yerin bulunduğundan emin olmalısınız, çünkü bu dosyalar açıldığında toplam boyu 88 MB'ı buluyor! Şimdi, dosyaları açtığınız klasöre geçin ve SETUPOCR.EXE isimli kurulum programını çalıştırın. Programın kurulumu sırasında gösterilen seri numarasını değiştirmeyin, bu ürünün deneme sürümü olduğunu belirten bir seri numarası. Programın tipik kurulumu 65 MB tutuyor, kurulumu yaptıktan sonra az önce sabit diskinize açtığınız kurulum dosyalarını silebilirsiniz, Recognita'nın kurulumu sırasında bazı seçimler yapmanız gerekecek. Kurulum tamamlandığında karşınıza Options iletişim kutusu gelmeli. Burada Accuracy sekmesinden listeye Türkçe'yi eklememiz gerekecek. Bunun için Customize Languages'a tıklayın. karşınıza gelen iletişim kutusunda Turkish'i seçip Add'a tıklayın. Böylece Recognita Türkçe karakterleri de tanıyabilir. Bu seçenek karşınıza gelmeden önce bilgisayarı yeniden başlatmanız istenirse, bilgisayarınızı yeniden başlatın ve daha sonra Recognita Plus'ı çalıştırın. Menüden Tools, Options'ı seçerek bu ayarı yapın.

Recognita Plus'ın en güçlü yönü, hemen her şeyin otomatikleştirilmiş olması. Örneğin, kurulum sırasında Enable Direct Connection seçeneğini işaretlediyseniz, Word'de çalışırken görev çubuğunun sağında görülen R ikonuna tıklıyorsunuz ve açılan menüden Recognize froın Scanner'ı seçiyorsunuz. Tarayıcıya koyduğunuz doküman bir anda taranıyor ve çalışmakta olduğunuz Word belgesine ekleniyor. Güzel değil mi? Recognita'yı çalıştırdığınızda, en üst araç çubuğunda en soldaki düğmeye tıklayarak kaynağı seçiyorsunuz (tarayıcı veya daha önce taradığınız bir resim dosyası). Daha önce ayarlamadıysanız, dil açılır listesinden Turkish'i seçerek dokümanın dilini Türkçe olarak ayarlamayı da ihmal etmeyin. Sonra ikinci düğmeye tıklayarak dokümanın taranmasını sağlıyorsunuz. Doküman bir anda taranıyor ve karakterleri tanınıyor. Bundan sonra size düşen şey, üzerinde dürbün resmi bulunan düğmeye tıklayarak şüpheli harfleri/kelimeleri gözden geçirmek. Training seçeneğine tıklayarak, o harfin/kelimenin doğrusunu programa tanıtmanız da mümkün. Ne yazık ki, deneme sürümünde Türkçe için sözlük dosyaları yer almıyor; bu yüzden sadece harf temelinde düzeltmeler yapabileceksiniz.

Düzeltmelerinizi de tamamladıktan sonra, File menüsünden Save Text As'i seçerek dokümanınızı pek çok farklı formatta kaydedebilirsiniz. Word veya RTF gibi resimleri de destekleyen bir format seçerseniz, sayfanın mizanpajını koruyarak resimleriyle birlikte aktarma şansına sahip olabilirsiniz. Recognita Plus'ın farklı fiyat ve özelliklere sahip Recognita Plus 5.0, Recognita Plus 3.2, Recognita Plus for LAN sürümleri var.

Bu yazıda 'temel' bir OCR uygulamasının nasıl yapılacağını FineReader örneği üzerinde anlatmaya çalıştım. OCR ile yapabilecekleriniz sadece tarayıcıyla sınırlı değil; faks almak için PC'nizi kullanıyorsanız, size gönderilen faksları tarayıcıya gerek kalmadan OCR programıyla faks dosyasından okutarak Word gibi bir kelime işlemciye aktarabilirsiniz. OCR yazılımlarının tek marifeti salt metinden oluşan dokümanları tanımak değil, sayfalarda tablolar, resimler de yer alabilir. Recognita Plus ve FineReader Office'i, belirli paternleri (harf veya harf grupları) tanıyacak şekilde 'eğitmeniz' de mümkün. Bu sayede, aynı fontla yazılmış bol miktarda dokümanı tararken, tanıma yüzdelerini maksimuma çıkarabilir ve kullanıcı müdahalesini en aza indirebilirsiniz. CD'nizde OCR kısmında iki ürün daha bulacaksınız. Bunlardan Readiris Pro 6'nın demo sürümü ne yazık ki sadece İngilizce'yi destekliyor (Türkçe karakterleri tanımıyor). Kleptomania isimli küçük program ise, çeşitli iletişim kutularındaki, menülerdeki, kısaca ekranda herhangi bir yerdeki yazıları yakalayarak, metin halinde kopyalamanızı ve bir dokümana yapıştırabilmenizi sağlıyor. Ne yazık ki bu programın da Türkçe karakter desteği yok.

 
GeriBaşa dön
 
Hakkımızda | Ürünler | Örnek Projeler | Basın Odası | İnsan Kaynakları | Referanslar | İletişim

© 2007 KETS Ltd. Şti. Tüm hakları saklıdır.
Tel : 0212 232 56 66
kets@kets.com