Anasayfa > İş Zekası > ETL Nedir?

ETL Nedir?

Informatica ETLDatawarehouse in en temel operasyonu olan ve implemetasyonda en büyük bütçeyi alan kısım ETL ( Extraction, Transformation, Loading) olarak adlandırılır. Aslında çok derin uzmanlık isteyen ve göründüğü kadar kolay olmayan bu süreç kısaca: Kaynak database veya diğer ortamlardan datanın alınması, belli bir işlemden geçirilerek ve düzeltmeler yapılarak DW yapısına uygun hale getirilmesi ve DW database içerisine yüklenmesidir.

  • E: Burada temel amaç birçok kaynaktan alınan datayı olabildiğince unified bir formata dönüştürmektir. Bu işlem data içeriğini anlamlı bir şekilde parçalayıp bir formata uyup uymadığını kontrol etmeyi de içerir. Örneğin alınan tarih bilgisi hiçbir parsing işlemine uymuyorsa o data extraction işlemine dahil edilmez. Bu işlem kaynak datalar bir alana alındıktan sonra yapılacığı gibi, işin kolaylığına göre direkt on-the-fly da yapılabilir.
  • T: Transfromation adımında temel olarak yapılan iki adet işlem vardır. Bunların birisi tarih/zaman eklemek – ki bu sayede datalara zaman boyutu katılmış olur- ikincisi ise denormalization olarak adlandırdığımız parçalı tablolardaki verilerin DW sorgulamalarını daha etkin yapabilmek amacıyla tek tablolara aktarılabilecek hale getirilmesidir. Bunun dışında yapılan en temel diğer işlemler kısaca:
    • Aynı tanımı taşıyan dataların tek formata dönüştürülmesi
    • Gerektiği durumlarda dataların belli kriterlere göre sıralanması
    • Kolon değerlerinin birleştirilmesi ve tek kolon yapılması veya tam tersinin uygulanması
    • Sürekli yapılacağı görülen hesaplamaların zaman kaybı olmaması açısından yüklenmeden önce yapılarak ayrı bir kolon olarak eklenmesi
  • L: Bu aşamada daha önce yapılmış olan mapping algoritmasına uygun olarak kaynak database lerden gelen datalar DW yüklenir. Yükleme ilk defa yapılabileceği gibi zaten yüklenmekte olan dataların delta – yani fark – ının da içeri atılması şeklinde olabilir. Yükleme de önemli olan konu hangi aralıklarla data nın içeriye atılacağıdır ki, bu da genellikle bir iş kuralıdır. Yani iş birimleri hangi güncellikte data ile rapor almak istiyor? Sorusunun cevabı. Diğer bir önemli konu, ilerde raporlamada zorda kalmamak amacıyla yükleme işleminin auditlerinin tutulmasıdır. Yoksa geçmişe yönelik bazı sorgulamalarda eksik çıkan dataların hangi aktarım sırasında oluşan hatalardan kaynaklandığı bulunamaz.

Diğer önemli bir konu ETL işleminden sonra aşağıdaki testlerin mutlaka yapılması gerekliliğidir:

  • Datalar tamamen yüklendi mi?
  • Data transformasyon işlemleri hatasız tamamlanmış mı?
  • İçeri atılan datanın kalitesi – operasyonel data kalitesi değil, DW data kalitesi – istenen seviyeyi yakalıyor mu?
  • Data miktarı arttıkça sorgularda ki değişim nedir? Yani sorgu performansları ne durumda?
  • Yükleme performansı kabul edilebilir seviyede mi, değilse nasıl bir iyileştirme gerekli?
  • Depolamada ne durumdayım? Gelecek yüklemelere ne kadar hazır DW?

ETL çalışmaları genelde aşağıdaki nedenlerden dolayı zor geçebilir. O yüzden bu konuları E açamasına geçmeden önce değerlendirmekte fayda var:

  • Kaynak dataların olduğundan basit olması varsayımı. Data yapılarının tamamını inceleyerek karmaşıklığı kesinleştirmek şart.
  • Yine kaynak data kalitesi hakkında yanlış varsayımlar. Bazen kaynak datalardaki kirliliği temizlemek sandığınızdan çok daha fazla zaman alabilir.
  • Yükleme sonrası yapılan validasyon ve constraint check işlemlerinin yüklenen data kirliliği yüzünden sürekli fail etmesi. Bu yüzden transformation adımında iş kuralları ve algoritmaların çok temiz yazılmış olması gerekli.

Bir ETL uygulamasından neler beklemeliyim?

  • Kompleks mapping ve transformasyon fonksiyonaliteleri
    • Data temizleme – cleansing
    • Data alanlarını yeni formatlara göre yapılandırma
    • Alanlar üzerinde hesaplama
    • Seçme ve filtreme özellikleri
    • Tabloları denormalize edebilme özelliği – summarization
    • Data validasyonu fonksiyonları
    • Indexleme ve partitioning
    • Paralel bulk yükleme
  • Birçok data formatını okuyabilme özelliği
  • Metadata yönetimi : Kısaca DW mimarisini yönetebilme özelliği
  • Real-time veya real-time a yakın istenen şekilde data aktarabilme
  • Değişiklik yakalama özelliği – OLTP ile DW arasında
  • Uygulamanın kendisinin administrasyonunun kolay olması

ETL vendor ları kimler? Rastgele sırayla

  • IBM
  • Oracle
  • Ab Initio
  • Informatica
  • SAP
  • Microsoft
  • SAS
  • Adeptia
  • ETI
  • iWay
  • Jaspersoft – open source

Data Warehouse data depolama alanları ve data tutma seviyeleri

Bir DW da temel olarak 3 adet data depolama alanına ihtiyacınız var:

  • Geçiş alanın dediğimiz datanın transformasyon amacıyla ilk extract edildiği alan.
  • DW ana depolama alanı ki, buraya load ile dataları aktarıyoruz.
  • Database multi-dimensional analizi için kullanılan boyutları tutan göreceli olarak küçük bir database alanı

DW da dataları ayrıntı seviyesine göre farklı seviyelerde tutuyoruz. Bunlar genelde:

  • En yüksek ayrıntıda: Açıkçası bunun için ne var ne yok, transactionlardan tutunda, tek müşteri seviyesinde bağlı olan tüm ürünlere kadar ayrıntının yer aldığı seviye
  • Orta seviye: Genelde pazarlama ve satış birimlerinin çalışacağı bilgileri içeren yukarıdaki bilgilerin daha toparlanmış hali. Burada toparlamadan kasıt, bazı dataların ayrıntılarını kaybedecek ve örneğin 10 satır kayıttan tek satır kayıt oluşturacak şekilde toplanmasıdır. Örneğin bir müşterinin fatura bilgilerini tek tek kalem bazında değil de fatura toplamı bazında tuttuğumuzu düşünelim. Database i oluştururken bu kalemleri değil o faturaya ilişkin toplamı aktarıyoruz. Burada kalem tutarları kaybetmiş oluyoruz ama yapılacak sorgularda artık toplamlar direkt elimizde olduğundan sorgu zamanından kazanmış oluyoruz.
  • En üst seviye: Bu seviye üst düzey yöneticiler içindir ve genelde artık müşteri bazında bile değil bölgeler veya şehirler bazında toplanmış datalar gösterilir.

Bu yazı;www.entdun.com/?page sitesinden alıntıdır.

  1. Nisan 24, 2013, 7:45 am

    Reblogged this on yasarnorman.

    • safiye
      Mayıs 5, 2014, 8:57 am

      teşekkürler..

      • Mayıs 5, 2014, 1:56 pm

        Rica ederiz…Daha fazla ve kaliteli yazılarla devam edeceğiz…

  1. No trackbacks yet.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Google+ fotoğrafı

Google+ hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Connecting to %s

%d blogcu bunu beğendi: