Azure ML - 2
Azure Machine Learning üzerinde Data Input and Output sekmesinin altında Reader ile verilerimizi okuyabiliriz. Burada birkaç farklı veri kaynağından veri okumamıza olanak sağlanmaktadır. Bunlar:
• Http
• SqlAzure
• AzureTable
• AzureBlobStorage
• HiveQuery
• Power Query
Gün geçtikçe açık veri (open data) kaynaklarımız artmaktadır. Özellikle sağlık kuruluşları, istatistik kurumları, finansal şirketler, meteoroloji gibi çok fazla kullanıcısı olan organizasyonlar verilerini tamamen açık olarak sunabiliyor. Örneğin aşağıdaki linkten NASA’ya dair bir veri seti elde edebilirsiniz. https://www.echo.nasa.gov/ingest/holdings/operations/public/public_GHRC.csv bu veri setini Azure ML modelinde kullanmak için Reader nesnesi sürükleyelim ve property alanında gerekli bilgileri girelim. Veri kaynağı olarak http yöntemini seçtikten sonra url adresini vermemiz gerekiyor. Sonrasında ise iki tane çok basit seçenek var. İlk satırın başlık olup olmadığı ile ilgili bir özellik ve kullandığımız veri canlı bir veri olabilir. Buradaki güncellemelere karşı verisetimizin duyarlılığı ile ilgili bir özellik. Bunları belirttikten sonra veri setimiz kullanıma hazır.

AzureBlobstorage Azure hesabında bizim verilerimizi tutmak için tahsis edilen yapının ismi. Buraya verilerimizi yükledikten sonra Azure ML projemizde veri kaynağı olarak burayı gösterebiliriz. Storage kısmına veri yüklemenin çeşitli yöntemleri var fakat sanırım şu ana kadar kullandığım en kullanışlı yapı 3. Parti olarak bilgisayarınıza indirdiğiniz Azure Storage Explorer. https://azurestorageexplorer.codeplex.com/ Uygulamayı indirdikten sonra bağlantı yapacağınız Azure hesabı için Storage Account Name ve Storage Account Key değerlerini istiyor. Azure hesabınızı yönettiğiniz web sayfasında ilgili storage ı seçtiğinizde altta karşınıza çıkan Manage Access Keys ile bu verilere erişebilirsiniz.

Azure ML kısmına geldiğinizde sizden Azure hesabınıza bağlı olan containerin içeriğini seçmenizi talep edecek. Eğer ayarlarınızı private olarak yapmışsanız Account Name ve Account Key (yukarıda nasıl elde edeceğinizi belirtmiştim) public seçerseniz container’ın içerisinde bulunan okuma yapılacak dosyaya ait url bilgisini isteyecektir.

Bildiğiniz gibi Azure üzerinde sanal bir makine kurulumu yaparak burada galeriden seçeceğiniz herhangi bir SQL Server ürünü üzerinde verilerinize erişebilir işlem yapabilirsiniz. Bunun haricinde Azure üzerinde direk SQL veritabanı oluşturabilir, Azure ML üzerinden bu veritabanındaki verilerinize erişebilirsiniz. Şimdi bu konu üzerine bir örnek yapalım. Bunun için ilk önce SQL Azure veritabanımızı oluşturalım.

Kurulum kısa sürecektir. Sonrasında seçmiş olduğunuz SQL veritabanının Dashboard sekmesinde sunucunuzun tam adı mevcut. Buradan isterseniz SQL Server Management Studio ile veritabanınıza bağlanabilirsiniz. Konumuza geri dönecek olursak Reader nesnesinin property alanından gerekli tanımlamaları yaparak Azure üzerinde bulunan veritabanınıza bağlanıp oradaki herhangi bir veri setini Machine Learning projenizde kullanabilirsiniz.

Bu zamana kadar bahsetmiş olduğum Reader nesnesi üzerinden veri okuma işlemi yapmak içindi. Fakat hatırlarsanız Azure ML menüsünün üst kısmında Saved Datasets diye bir kısım vardı ve burada hali hazırda örnekler bulunmaktaydı. Eğer buraya yeni bir dosya yüklemek isterseniz studio.azureml.net üzerinden sol alt köşede bulunan New seçeneğinden Dataset seçip sonrasında localinizden csv, nh.csv, tsv, txt, svmlight, arff, zip veya Rdata formatlarındaki dosyalarınızı yükleyebilirsiniz.