Talend Data Fabric Platform Entegrasyon Bileşenleri
Bu yazı serisiyle, veri yönetimi platform olan Qlik Talend'in platformda bulunan bileşenlerini ayrıntılı bir şekilde ele almayı amaçlıyoruz. Öncelikle, Qlik Talend'in veri kavramıyla nasıl ilişkilendirildiğine kısaca değineceğiz. Ardından, bu yazının teknik içeriği olan veri entegrasyonuna odaklanacağız.
Veri yönetimini aşağıdaki kavramlar bağlamında ele aldığımızda:
• Veri Entegrasyonu
• Veri Kalitesi
• Veri Yönetişimi
• Uygulamalar arası entegrasyon ve API Yönetimi
• Veri Kataloğu
Veri yönetimi ihtiyaçları kapsamında, lisanslı, açık kaynak veya özel (in-house) olarak geliştirilmiş araçlar, kurumların ihtiyaçları ve her yıl değişen hedefler, trendler doğrultusunda güncel yetkinliklere sahip olmalıdır. Bu gereksinimleri temel başlıklar altında alttaki gibi sıralayabiliriz.
• Merkezi ve tek bir noktadan yönetim
• Veri kalitesinin uçtan uca takip edilebilmesi
• Yazılım, iş ve yönetimsel rollerin ürün üzerinden yönetebilmesi
• Self servis uygulamalar
• Üretken yapay zeka desteği
Bu ihtiyaçlar kapsamında, Qlik Talend, Gartner tarafından lider olarak belirlenen Data Fabric Platform ile uçtan uca, bu kavramları ve değişen gereksinimleri karşılayan modüler bir veri yönetimi platform çözümü sunmaktadır.
Qlik Talend'in veri yönetimi platformuna kısaca değindikten sonra, şimdi Veri Entegrasyonu çözümünü detaylandırabiliriz. Entegrasyon kavramıyla ilişkilendirilen başlıklar şunlardır:
• ETL (Extract, Transform, Load), ELT (Extract, Load, Transform)
• Büyük Veri Yönetimi, Toplu(Batch) veri işleme, Gerçek zamanlı veri işleme ve akışı (Streaming)
• Yapısal olmayan dosyalar, XML, JSON vs..
• Veritabanı, Veri Ambarı, Veri Gölü ve benzeri gibi veri depolama sistemlerine entegre olma ihtiyacı ( bağlanabilirlik ).
Qlik Talend, hem bulutta hem de kurum içi sistemler üzerinde konumlanabilen çözümlerinde entegrasyonun yanı sıra, veri kalitesi ve veri sahipliği hizmetlerini temel bileşenleri olarak sunmaktadır. Dolayısıyla, Talend için veri yönetimi, verinin işlenme sürecinin başlangıcından itibaren önem taşır. Self servis bir çalışma ortamı yaratarak platform dahilinde modüler olarak bulunan “Data Preparation” ve “Data Stewardship” hizmetlerini kullanır.
Herhangi bir veri entegrasyonu projesi kapsamında, iş birimleri veya yazılım ekipleri tarafından kullanılmak üzere, veri entegrasyon aracından beklenen öncelikli özellikler şunlardır:
• Zengin bağlantı sağlayabilme yeteneği
• Sürükle-bırak, no code/low code kullanım kolaylığı, özelleştirilebilirlik esnekliği
• Batch ve Stream veri akışları oluşturma ve yönetme
• Hata ve versiyon yönetimi
• Metadata ve context yönetimi
• Veri entegrasyonu tasarımı sırasında uygulama üzerinden her adımda yetkiler dahilinde veri görüntüleme yapılabilmesi.
• Operasyon takibi, monitoring.
Şimdi, bu özelliklere daha yakından bakalım ve Qlik Talend'in kullanıcı dostu “client” uygulaması olan Talend Studio üzerinden devam edelim.
1. Components
“Component”, Talend içindeki iş akışlarını oluşturmamızı sağlayan fonksiyonel birimlerdir. 900’ün üzerindeki component’iyle birçok sisteme bağlantı sağlanıp o sistemlere özel iş akışlarının oluşturulması mümkündür. Talend Studio’da aylık gelen güncellemelerle yeni component veya component eklentileri ücretsiz olarak eklenebilir.
Örneğin aşağıdaki görselde sadece SAP component’lerini filtrelediğimizde, yapılacak işe özel “native component”ler olduğunu görebiliriz.
Aynı şekilde görselin sağ tarafında, bulut sağlayıcılarından Amazon filtrelendiğinde, Amazon içindeki veri tabanı ya da diğer sistemlere özelleşmiş component’ler mevcuttur.
LinkedIn tarafından öneriliyor
2. Teknik Modelleme
Component’ler sürükle bırak özelliğiyle tasarım sayfasında birleştirilebilir ve iş akışları oluşturulabilir. Aşağıdaki görselde Talend Studio aracında oluşturulmuş bir iş akışı mevcut. Sağdaki Palette bölümünde component’ler fonksiyonlarına göre sınıflandırılmış. Sol tarafta “Repository” bölümünde Git üzerinde konumlanan “BiDemo” isimli projenin bileşenlerini görüyoruz. Ortadaki Designer, yani iş tasarım bölümünde ürün, satış ve bölge tabloları kullanılarak bir join, filtreleme ve aggregate adımları uygulanıp bir ürün raporu veri tabanına yazılmıştır. Alt taraftaki sekmelerle de bu component’ler ve işin parametreleri belirlenmektedir.
3. Context
Yazılım yaşam döngüsündeki DEV-TEST-UAT-PROD ortamlarında kullanılacak parametrelerin yönetimi iş içerisinde veya “Repository” bölümü altında tanımlanabilir.
Dolayısıyla yeni oluşturacağımız bir iş içerisinde, tanımlı context’lere hızlı ve etkin bir şekilde erişmeye olanak veriyor. Aynı şekilde parametrede bir güncelleme varsa, bunu ister tüm job’larda, istersek sadece geçerli job içerisinde uygulayabilme esnekliği veriyor. Örneğin aşağıdaki iş için önceden tanımlanmış “Default” ortamındaki “File_Directory” parametresi kullanılmıştır.
4. Versiyon Yönetimi
Aynı işin farklı versiyonlarını tanımlayabilir ve karşılaştırabiliriz. Aşağıdaki görselde iki farklı versiyonun hem teknik modellemesini, hem de çıktılarını karşılaştırabileceğimiz “Compare Result” özelliği gösterilmiştir.
5. Hata Yönetimi
Tasarlanan işler arası bağımlılıkları yönetebilmek için iş grupları arasında “OnSubjob”, component grupları arasında ise “OnComponent” linkleri mevcuttur. Dolayısıyla akış esnasında meydana gelebilecek hatalar için belirlenecek aksiyonlar, bu linkler aracılığıyla sağlanmaktadır. Aşağıdaki örnekte üstteki iş grubu (Subjob) doğru şekilde çalışırsa, diğer iş grubunun başlatılmasını sağlayan “OnSubjobOk” linki kullanılmıştır. Ayrıca bu link üzerinde olası bir hataya karşı “Recovery Checkpoint” oluşturulmuştur.
6. Veri Ön Görüntüleme
Bir veri işleme aracı içerisindeki iş yükünü arttıran unsurlardan biri de veriyi görmek için başka bir editöre gidilmek zorunda kalınmasıdır. Talend Studio Data Preview özelliğiyle, iş akışından çıkmadan veriyi görmeyi sağlamaktadır.
Aşağıdaki örnekte Mysql veri tabanındaki “Customers” tablosu iş içerisinde girdi olarak kullanılıyor. Ve Studio içerisinde kalarak Data Preview ile işi çalıştırmadan önce verileri görebiliyoruz.
7. Etki Analizi
Tablo veya parametrelerin hangi işlerde kullanıldığı ve hangi sistemleri beslediği görülebilir. Böylece bir tabloda değişiklik yapıldığında neleri etkileyebileceği takip edilebilir. Aşağıdaki örnekte “Customers” tablosunun hangi job’lar içerisinde kullanıldığı ve hangi tabloları beslediğinin analizi, görselin sağ tarafında çıkartılmıştır.
8. Gerçek Zamanlı Operasyon İzleme
İş akışlarını gerçek zamanlı ve kapsamlı bir şekilde takip edebilmek için hem Studio içerisindeki AMC (Activity Monitoring Console) ekranlarını kullanabilir hem de Talend Admin Center ekranlarını kullanarak iş takip süreçlerini gözlemleyebiliriz.
Aşağıdaki görselde bütün işlerin durumu, çalışma saati, sürelerini görebileceğimiz izleme ekranı bulunmaktadır.
Yukarıdaki başlıklarda, veri yönetiminin en önemli bileşenlerinden olan veri entegrasyonunu, Qlik Talend’in temel özelliklerinden birisi olarak ele almış olduk.
Entegrasyon tasarımları kapsamında, mevcut, yeni sistemlere, kuruma özel bileşenlerle bağlanabildiğimiz, iş akışlarının yazılım yaşam döngüsü içerisinde süreçlerin kolaylıkla yönetilebildiği, Talend’in eclipse tabanlı bir client’i olan Studio kullanılmaktadır . Studio yetkinlikleri kapsamında bulunan Integration, Quality, Mapper, Monitoring perspektifleriyle uçtan uça operasyonlar yürütülebilmektedir. Self Service olarak cloud ve “onpremise” içerisindeki Data Preperation ve Data Stewardship servislerini kullanabiliriz.
Talend TrustScore özelliğiyle, her aşamada verilerin kalite metriklerini ölçmek, iyileştirme süreçlerini farklı ekiplerin katılımı ile tasarlamak, sonuçları takip edebilmek ve verinin kurum genelindeki sağlığını en üst seviyeye çıkarmak mümkün olmaktadır.
Sonuç olarak, Qlik Talend burada bize, ister yazılım geliştirici, ister iş kullanıcısı olarak, entegrasyonu, operasyonu , yönetimsel ve veri kalitesi başlıklarıyla bir arada yapabildiğimiz merkezi bir veri yönetim aracı sunmaktadır. Self servis hizmetleriyle de entegrasyonu destekleyip ara katmanlarda veya iş akışı esnasında veri kurallarının hızlı bir şekilde uygulanabilmesini sağlamaktadır.
Bu konularla ilgili sorularınız için linkedin BI Technology sayfamız üzerinden veya info@bitechnology.com mail adresinden bizlere ulaşabilirsiniz.