Metin çözümlemeyi gerçekleştirmede konular ve teknikler
Giriş
Metin çözümleme, yapılandırılmamış veya yarı-yapılandırılmış makina-okunabilir belgelerden bir bilgi çıkarma işlemidir. Metin çözümleme yazılımı, belgelerin kolleksiyonuna dayalı olarak, varlık çıkarma ve ilişki buluşu verir, böylece son kullanıcılara (genellikle analistlere) yardım etmek, gerekli bilgiyi sabırla seçip ayırır ve karar verirler.
Metin çözümleme yazılımının nasıl iyi olduğunun önemi yok, bununla beraber, o, sistem yöneticisidir, bilgi işçisidir, ve metin çözümleme yazılımı ile “kullanılır” belgelerin çok geniş sayıların yapan yazılım sistem mühendisidir. Onlar, son kullanıcı ile ilgili sonuçları, ve kusursuz iş akışı yapar.
Bilgi yönetim profesyoneli için, açıklayacağımız bilgi keşfini gerçekleştirme teknikleri, metin çözümleme ve bilgi çıkarma kavramlarına aşinadır. Biz, aynı zamanda, bilgi çıkarma iş akışını ve çözümler teklif etmeyi gerçekleştirmeye engel olabilen problemlere ve görünmez tehlikelere işaret edeceğiz.
Önceden işleme konuları
Bilgi çıkarma iş akışında ilk adım, derleme ve çıkarmak istediğiniz bilgiyi içeren bir belgeler koleksiyonu standardizasyonudur.
Belgelerin koleksiyonlarını verimli biçimde ve tutarlı olarak , analiz etmek için metin çözümleme yazılımı için, belgeler standart bir formatta olmalıdır. Metin çözümleme topluluğunun çoğu,standart belge formatı olarak XML’yi (Genişletilebilir İşaretleme Dili) uyarladı. XML formatı (biçimi), etiketlerle (tags) ASCII metin olmasından dolayı, XML etiketleri eklenilmeden önce, belgeler ASCII formatında olması gerekir.
Belgeden mevcut olan şeyleri, ilişkileri ve gerçekleri çıkarmak için, metin çözümleme yazılımı, yoğun bir şekilde dilin gramerine güvenen çıkarım kurallarını (daha sonra tartışıldı) kullanılır. Bilgi çıkarma yazılımı için ideal belge, dilbilgisel olarak doğru bir ASCII metin hikaye belgesidir.
Maalesef, belgelerin çoğunluğu bu yolla gelmez. Belgeler, Adope PDF, MS Word, HTML, EXCEL, ve PowerPoint gibi değişik biçimlerde saklanır. Birçok belge, web siteleri dahil farklı kaynaklardan kesme ve yapıştırma sonucu olarak yaratılır. Çok sayıdaki belge, kötü OCR (optiksel karakter tanıma) ) süreci ile sonuçlanan kötü bir şekilde taranır. Bu belgelerin, metin çözümleme etiketleme makinelerine gönderilmeden önce ASCII’ye ve ondan sonra XML’ye çevrilmesi gerekir.
Metin çözümleme yazılım paketlerinin birçoğu, kendi metin dönüştürücüleriyle gelse bile, bu dönüştürücüler, her zaman en iyisi değildir. Çoğu kez, okunamaz karakterler veya anlamsız metin katarları belgeleri ASCII metne dönüştürmekten sonuçlanır ve ek “temizlik yapmak” gerekli olabilir.
İlaveten, belge koleksiyonunda istenmeyen karakterleri veya katarları bulmak ve değiştirmek için “yığın düzeltme” önerilebilir. Bazı metin çözümleme yazılım paketleri, özü etiketlemekten önce tüm koleksiyon üzerinde “bul ve değiştir” kuralları belirterek belgeleri daha önceden işlemek için araçları sağlar. Eğer bu kasasite yoksa, genel bir metin editöründe “bul ve değiştir” tutarlı-boyutlu metin koleksiyonunda yardım edebilir.
“Bul ve değiştir” işlemi için, kötü tarama/OCR işlemi yüzünden bir belgenin parçası olmayan fakat metinde görünen olası adaylar “<” veya “>” karakter kombinasyonlarıdır. Onlar, XML dönüşümlerinde sık sık hatalara neden olur. Ç.ünkü onlar XML etiketlerini kuşatan “<” ve “>” karakterleri olarak yorumlarlar.
Bazen, 100-200M taranmış belgeleri işlemek için gereklidir. (Karşılaştırma içinde, Savaş ve Barış PDF formatında sadece 6M veya ascıı metin içinde 3M dir. Bir çözüm, tüm ASCII olmayan dosyayı, ASCII metne dönüştürmektir. ASCII metin dosya, genellikle, bazı içerik ile bir PDF dosyasının yarısıdır.
İşleme Konuları
İş akışında sonraki adım, yazılım çıkarma kullanarak bir belgeden veya belgelerden bir koleksiyon , özleri ve gerçekleri çıkarmaktır. Bu noktada meydan okuma, son kullanıcı veya analistin ihtiyaçlarına uygun olan bilgiyi çıkartmaktır.
Bilgi çıkarma sürecinin kalitesi, doğruluk ve geri çağırma ile ölçülür.
Doğruluk, geri alınan ilgili varlıkların bir belge veya belgelerin bir koleksiyonu içinde geri alınan tüm varlıklara oranıdır. Geri çağırma, geri alınan ilgili varlıkların bir belge veya belgeler koleksiyonu içinde ilgili tüm varlıklara oranıdır. Bu ölçübilim ne kadar yüksekse, son kullanıcılara o kadar faydalı olacaktır.
Çoğu analistler, doğruluğu (hassasiyeti), geri çağırmaya göre tercih eder. Çünkü onu yanlış getirmek yerine bir parça bilgi elde etmemekten daha iyi olduğunu hisseder.
Metin çözümleme yazılımı, bir belgeden bilgi çıkarmak için , bilgi çıkarma kuralları kullanır. Bilgi çıkarma kuralları, dil gramerine, metin kalıplarına, belirli kısıtlara, ve veri sözlüklerine dayandırılan bilgi aramak ve çıkarmak için kullanılan algoritmalardır.
Bir metin çözümleme yazılımı paketi içinde “kutu-dışında” içeren çıkarma kuralları yeterli olmadığı anlar vardır. İlgili meselesinin konusu, özgün olabilir ve böylece bu konu için bilgi çıkarma kuralları mevcut değildir. Bir belgenin içeriği PowerPoint sunularındaki veya Excel çalışma sayfaları içindeki metin gibi ayrı ibareler veya kelimelerden oluştuğu zaman, gramer tabanlı bilgi çıkarma kuralları etkin değildir. Bu durumlar, genişletilmiş veri sözlükleri, listeleri hariç tutma , sözlük etiketleme teknikleri ve kavramlar dizini kullanarak kısmen çözülür.
Veri Sözlükleri
Bir veri sözlüğü, basit bir varlık tipi için bir kelime bilgisi sağlayan kelimelerin bir listesidir. Örneğin, “meyve” tipindeki varlık için sözlük, “elma,muz,portakal” gibi bir liste olabilir. Etiketleme motoru, bir belge içinde “elma” kelimesini görür ve onu “meyve” tipi olarak etiketler.
Belirli konu meselesi varlıklarının özel-gelişmiş veri sözlükleri hem doğruluk hem de çıkarılmış bilgiyi geri çağırma iyileştirecektir. Bununla beraber, onlar, aynı zamanda problemlere neden olabilir.
Bazen, isim çıkarmayı iyileştirmek için bir sözlük olarak insanların son isimlerinin bir listesi kullandığı zaman problemler ortaya çıkabilir. Eğer, önceden tanımlanmış “insan” çıkarma kuralları sözlükte yerini alırsa, varlık çıkarma yazılımı, insanların son isimleri için ortak kelimeleri yanlış tanıyabilir. Örneğin, eğer bilinen isimlerin bir listesinde Tilki ve Kahverengi gibi son isimli insanlar varsa, “tilki” veya “kahverengi” gibi isimler olarak yorumlanılabilir.
Uygunluk Konuları
Uygun etiketleme, sonuçların; kullanıcının bilgi ihtiyaçlarını nasıl karşıladığından bahseder. “konuyla ilgili” bir varlığın veya gerçeğin neyi oluşturduğunun tanımı özneldir. Eğer bir çıkarma makinası “kısmi” bir varlığı geri getirirse (örneğin, bir kişinin ilk ve son ismi, fakat orta ismi değil) bir hit oluşturur mu? Eğer analist, sadece, varlık ilgisinin belge içinde yerleştiği yerin bir fikrini elde etmek istiyorsa o olabilir, fakat eğer analist veri tabanında veya diğer havuzda içinde tüm varlığı dahil etmek için bu oluşu düzeltmesi gerekirse, o olmayabilir.
Bilgi çıkarma motoru tarafından doğru bir şekilde belirlenmiş ve çıkarılmış olsa bile bazı varlıklar, kullanıcıyı ilgilendirmez. Daha kötüsü, bazen, yararlı büyüklükler olarak, onlara aynı belge içinde sahip olmak hatalı ilişkiler sağlar. Örneğin, bir belgenin Al-Qaeda’yi araştıran Department of Homeland Security’ye yineleme referansı vardır. Al-Qaeda hakkındaki bilgi bir analiste uygun olsa bile, onun “linki” Department of Homeland Security’ye uygun değildir.
Neyin “uygun” olduğu, bilgi çıkarma sürecini tasarlamadan önce karar verilmesi gerekir. Öyle ki belge işleme tutarlı olsun.
Uygunluk karar konusuna yardım etmenin bir yolu, dışında bırakma listeleri yaratmaktır. Yani, bir belge içinde etiketlenilmeyen varlıkların listeleri. Bu dışında bırakma listeleri, bilgi çıkarma sürecinde, bilgi çıkarma kurallarını müşteri isteğine göre değiştirerek kullanılabilir.
Bir tip varlık için (kişi) neyin uygun olduğu diğerine uygun olmayabilmesinden dolayı (organizasyon) , bir varlık tipi (kişi, organizasyon) için bir hariç tutma listesi olması gerekir. Örneğin, Thompson (kişi) , son kullanıcıya uygun olabilir; Thompson (organizasyon) ilgisiz olabilir.
Diğer ikilemin çözülmeye ihtiyacı vardır: Eğer varlığın kendisi amaca uygun değilse, onun ilişkisi diğer varlıklarla uygun olabilecek mi? Eğer yanıt evet ise, bu varlık, bir ilgili ilişkiyi elemeyecek şekilde, hariç tutma listesinde olmamalıdır.
Daha ileri iyi ayarlama için, hariç tutma listeleri, belirli kullanıcı grupları (bireysel kullanıcılar için bile) ve muhtemelen belgelerin bir koleksiyonu için yaratılabilir.
Bilgiyi çıkarma işlemini iyi-ayarlamak için kullanılabilecek daha fazla teknik vardır. Gelecek hafta yayımlanacak bu makalenin ikinci kısmında, daha iyi doğruluk ve geri çağırma için sözlük etiketlemeyi ve kavram dizinleri kullanmayı inceleyeceğiz. Biz, aynı zamanda, son ürünü postalama sürecini tartışacağız.
*Bilgisayar Programcısı, Sistem Analizi Yüksek Mühendisi Naim Uygun tarafından Victoria Loewengart’ın makalesi İngilizce’den tercüme edilmiştir.
Web sitesi: http://www.pekiyi.150m.com
E-posta: [email protected]