Academia.eduAcademia.edu
2nd International Conference on Data Science and Applications (ICONDATA’19), October 3-6, 2019, Balıkesir, TURKEY Daha Hızlı Bölgesel-Evrişimsel Sinir Ağları ile Biyomedikal Görüntüler Üzerinde Organ Tanıma Emre DANDIL1, Emre GÜLTEKİR1 1 Bilecik Şeyh Edebali Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Bilecik, TÜRKİYE Özet Görüntü işleme ve bilgisayarlı görü alanlarındaki teknolojik gelişmelere bağlı olarak bilgisayar destekli tespit sistemlerinin gelişmesi ile anatomik görüntüler üzerinde organlar hakkında bilgi almak son yıllarda yaygın olarak tercih edilmektedir. Bu nedenle, biyomedikal görüntüler üzerinde organların tanınması, hastalıkların tespiti açısından son derece önemlidir. Bu çalışmada, derin öğrenmenin başarılı modellerinden birisi olan, Daha Hızlı Bölgesel-Evrişimsel Sinir Ağları (DHB-ESA, Faster R-CNN) kullanılarak durağan 2B ve 3B görüntüler ve akan video üzerinde abdominal organların tanınması gerçekleştirilmiştir. GPU üzerinde gerçekleştirilen deneysel çalışmalarda, tüm organlar için ortalama %87 tanıma başarımı elde edilmiştir. Sonuç olarak, her gün çok fazla tıbbi görüntüyü yorumlayan radyologlara yardımcı olmak ve verimliliği artırmak için görüntülerin otomatik analizini yapabilecek ikincil bir araç geliştirilmiştir. Anahtar Kelimeler: Derin Öğrenme, Organ Tanıma, Biyomedikal Görüntü, Daha Hızlı Bölgesel-Evrişimsel Sinir Ağları Organ Recognition on Biomedical Images using Faster RegionalConvolutional Neural Networks Abstract Depending on the technological developments in the fields of image processing and computer vision, the development of computer-assisted detection systems and obtaining information about organs on anatomical images are widely preferred in recent years. Therefore, recognition of organs on biomedical images is extremely important for the detection of diseases. In this study, recognition of abdominal organs on stationary 2D and 3D images and flowing video is performed using Faster R-CNN which is one of the successful models of deep learning. Experimental studies on GPU are obtained an average recognition rate of 87% for all organs. As a result, a secondary tool is developed that can perform automated analysis of images to assist radiologists who interpret a lot of medical images every day and to improve efficiency. Keywords: Deep Learning, Organ Recognition, Biomedical Image, Faster R-CNN 1 Giriş Görüntü işleme alanındaki teknolojik gelişmelere bağlı olarak bilgisayar destekli tespit sistemlerinin gelişmesi ile anatomik görüntüler üzerinde organlar hakkında bilgi almak son yıllarda yaygın olarak tercih edilmektedir. Görüntüler üzerinde elde edilen anatomik bilgiler, bir uzman hekimin eşliğinde bir bilgisayar destekli otomatik karar destek sistemi tarafından kullanılabilmektedir. Her gün çok fazla tıbbi görüntüyü yorumlayan radyologlara yardımcı olmak ve verimliliği artırmak için görüntülerin otomatik analizi gerekli olmaktadır [1]. Tıbbi görüntüler üzerinde organ tanıma, tıbbi verilerin analizinde önemli bir adımdır ve tanı, anatomik yapı çalışmaları, tedavi planlaması ve bilgisayarla bütüncül cerrahi gibi birçok görüntüleme uygulamasında hayati aşamadır [2]. Medikal görüntüler üzerinde organ/nesne tanımada farklı yaklaşımlar bulunmaktadır. Bu yaklaşımlar görüntü bölütleme, görüntü kümeleme ve sınıflandırma tabanlı olabilmektedir [3]. Bu çalışmaların birçoğu bölütleme tabanlı olsa da, sınıflandırıcılar ile elde edilen sonuçların daha başarılı olduğu söylenebilir. Özellikle görüntüler üzerinde nesne tanımada oldukça başarılı olan bölgesel tabanlı derin öğrenme modellerinin, son e-ISBN: 978-605-031-662-9 304 2nd International Conference on Data Science and Applications (ICONDATA’19), October 3-6, 2019, Balıkesir, TURKEY yıllarda hem daha başarı sonuçlar sunduğu hem de yaygın olarak tercih edildiği görülmektedir. Literatürde tıbbi görüntüler üzerinde organ tanıma için farklı metotlara sahip çalışmalar önerilmiştir. Petlenkov vd. [4] çalışmalarında, yapay sinir ağları kullanarak abdominal ameliyat sırasında, endoskopik görüntüler üzerinde bir organ tanıma yaklaşımı önermişlerdir. Kaneko vd. [5] ise çalışmalarında, bilgisayarlı tomografi (BT) görüntüleri üzerinde 3B matematiksel morfoloji kullanarak karaciğer, dalak, böbrek ve mide gibi organların tanıma işlemini gerçekleştirmişlerdir. Furst vd. [1] ise çalışmalarında, çoklu organ bölütlemeye dayalı bölütleme tabanlı bir yaklaşım sunmuşlardır. BT görüntüleri üzerinde yürütülen çalışmada, böl-ve-birleştir bölütleme yönteminden yararlanılmıştır. Bölütleme tabanlı bir diğer çalışmada, Campadelli vd. [6] çalışmalarında, 3B abdominal BT görüntüleri kullanarak karaciğer, dalak ve böbrek organlarının tanınmasını ve bölgesel işaretlenmesini sağlamışladır. Varshney [7] ise, BT görüntüleri üzerinde organ bölütlemesi için kullanılan yöntemleri bir derleme çalışması olarak sunmuştur. Bu çalışmada ise, derin öğrenmenin başarılı modellerinden birisi olan, Daha Hızlı BölgeselEvrişimsel Sinir Ağları (DHB-ESA) kullanılarak durağan 2B ve 3B görüntüler ve akan video üzerinde abdominal organların tanınması gerçekleştirilmiştir. Çalışmanın sonraki kısımları şu şekilde organize edilmiştir: İkinci bölüm Materyal ve Metot bölümü ile ilgili bilgi sunmaktadır. Üçüncü bölümde çalışma kapsamında gerçekleştirilen uygulama prosedürleri ve deneysel çalışmalar açıklanmıştır. Son bölümde ise bulgular ve elde edilen sonuçlar değerlendirilmiştir. 2 Materyal ve Metot Bu çalışmada, karaciğer, mide ve böbrek gibi organlara ait 2B ve 3B biyomedikal görüntülerin tanınması için DHB-ESA kullanılmıştır. DHB-ESA uygulamaları açık kaynak kodlu bir derin öğrenme kütüphanesi olan TensorFlow [8] kütüphanesi üzerinde gerçekleştirilmiştir. Uygulamalar Python programlama dili ile yazılmış olup, veriseti üzerindeki eğitim ve test işlemleri GPU üzerinde uygulanmıştır. Ayrıca GPU üzerindeki işlemleri hızlandırmak için CUDA ve cuDNN [9] teknolojilerinden yararlanılmıştır. Eğitim görüntülerinin etiketlenmesi için ise LabelImg [10] yazılımı kullanılmıştır. 2.1 Görüntü Veriseti Çalışmada organların 2B ve 3B görüntüleri kullanılmıştır. 2B abdominal görüntüler ise Sincan Nafiz Körez Devlet Hastanesinden alınan görüntülerden ve [11] kaynağından alınan bazı görüntülerden elde edilmiştir. 3B görüntüler için ise, [12-14] kaynaklarından elde edilen görüntüler kullanılmıştır. Ayrıca video üzerinden organ tanıma işlemi yapmak içi [12] kaynağından 3B organ videoları elde edilmiştir. Oluşturulan veriseti için hem 2B abdominal görüntüler hem de 3B organ modellerine ait görüntü örnekleri Şekil 1 (a, b, c, d)’ de sunulmuştur. Şekil 1. Verisetinden örnek 2B ve 3B görüntüler (a, b, c, d) 2.2 TensorFlow Kütüphanesi TensorFlow, özellikle makine öğrenmesi ile derin öğrenme uygulamaları için yaygın olarak kullanılan, ücretsiz ve açık kaynak kodlu bir yazılım kütüphanesidir [15]. TensorFlow derin öğrenme modelleri oluşturmak için yaygın olarak kullanılmaktadır. TensorFlow ile çoklu CPU ve GPU üzerinde çalışabilmektedir ve Windows, Android, Linux, macOs ve iOS gibi işletim sistemi platformlarında işletilebilmektedir. 2.3 CUDA ve CuDNN CUDA (Compute Unified Device Architecture), GPU üzerinde paralel hesaplama için NVDIA tarafından e-ISBN: 978-605-031-662-9 305 2nd International Conference on Data Science and Applications (ICONDATA’19), October 3-6, 2019, Balıkesir, TURKEY dağıtılan, C++ programlama dili ile bir eklenti olarak geliştirilmiş mimaridir [16]. CUDA’ nın işletilmesi için bir GPU ve güncel sürücüler gerekli olup, CUDA G8X, GeForce, Quadro ve Tesla altyapılarını içeren GPU mimarilerinde çalışabilmektedir. CUDA Derin Sinir Ağı (cuDNN, CUDA Deep Neural Network) ise, derin sinir ağları ile yapılan uygulamaları işletmek için GPU aracılığıyla hızlandırılmış bir kütüphanedir [17]. Derin öğrenme modelleri üzerinde, özellikle Evrişimsel Sinir Ağlarında, ileri-geri evrişim, havuzlama ve normalizasyon işlemlerin için algoritmalar içermektedir. 2.4 LabelImg LabelImg, grafiksel arayüze sahip, üzerinde hem serbest seçim hem de çokgen biçimli seçim işlemlerine olanak sağlayan, Python programlama dili ile geliştirilmiş bir görüntü etiketleme aracıdır. Görüntüler üzerindeki nesnelerin etiketlemesi dışarı XML formatından aktarılabilmektedir. Bu çalışmada da biyomedikal görüntülerin etiketlenmesi için LabelImg [10] kullanılmıştır. 2.5 Daha Hızlı Bölgesel-Evrişimsel Sinir Ağları (DHBESA) Derin öğrenme çok büyük verisetlerinden özellik çıkarımı için kullanılan katmanlı mimarilere sahiptir. En yaygın kullanılan derin öğrenme yöntemi ise Evrişimsel Sinir Ağları(ESA)’dır. ESA ileriye yönelik işlem yapan ve özellik çıkarıcı katmanlarıyla bir hiyerarşik yapıya sahip olan derin öğrenme yöntemidir. ESA bir görüntüyü kullanarak uçtan uca öğrenme sağlayabilmektedir [18]. ESA’nın yapısında, konvolüsyon (evrişim) katmanı, havuzlama katmanı, aktivasyon katmanı, tam bağlı katman ve softmax gibi kendine özgü görevleri olan ayrı katmanlar bulunmaktadır. Klasik bir ESA mimarisi Şekil 2’de gösterilmiştir. Giriş Görüntüsü Konvolüsyon Katmanı Maksimum Maksimum Maksimum Havuzlama Konvolüsyon Havuzlama Maksimum Havuzlama Katmanı Havuzlama Tam Bağlantılı Katman Sınıf Çıkışı Şekil 2. Klasik ESA mimarisinin çok katmanlı genel mimarisi Bir ESA genellikle görüntü sınıflandırması için kullanılırken, Bölgesel-Evrişimsel Sinir Ağları (BESA) ise nesne tespiti için tercih edilmektedir [19]. Görüntüler üzerinde nesne tanıma işlemleri son yıllarda B-ESA temelinde ilerlemektedir. Nesne tespitindeki son gelişmeler, bölge önerme yöntemlerinin B-ESA’ya çok fazla katkı sunduğunu göstermektedir [20]. B-ESA’lar, başlangıçta da geliştirildikleri gibi hesaplama olarak fazla maliyetli olmasına rağmen, teklifler arasında katlanmaların paylaşılması sayesinde, Hızlı BESA’larda olduğu gibi maliyetleri büyük ölçüde düşürülmüştür [21]. Hızlı B-ESA’larda, çok derin ağları kullanılmasıyla gerçek zamanlı uygulamalara yakın oranlar elde edilmektedir. Tam da bu noktada ağın daha etkin ve hızlı çalışmasını sağlayan DHB-ESA devreye girmektedir. DH B-ESA, B-ESA’dan geliştirilmiş bir ESA tipidir [22]. DHBESA, bölge öneri ağları ve Hızlı B-ESA’nın birleşiminden oluşmakta olup, aday bölgelerden rastgele seçim yapılarak sınıflandırma işlemi gerçekleştirilir. DHB-ESA, ESA ile ortaya çıkan aynı sonuçların elde edilmesi problemini ortadan kaldırarak hesaplama süresini büyük ölçüde azaltmaktadır. 3 Önerilen Sistemin Gerçekleştirilmesi Biyomedikal görüntülerin tanınması için önerilen sistemde, öncelikle sistem için gerekli kurulumların tamamlanmasından sonra, oluşturulan verisetinde bulunan görüntülerin DHB-ESA’nın eğitim aşaması için etiketlenmesi gerçekleştirilmiştir. Etiketlenen görüntüler üzerinde eğitim işlemi tamamlandıktan sonra hem durağan 2B ve 3B görüntüler hem de akan video üzerinde abdominal organların tanınması sağlanmıştır. Görüntü verisetinin %70’i eğitim, %30’u ise test işlemi için kullanılmıştır. Çalışmada gerçekleştirilen deneysel çalışmalar i7 7700 GHz işlemci, 16GB RAM, üzerinde 4GB dahili e-ISBN: 978-605-031-662-9 306 2nd International Conference on Data Science and Applications (ICONDATA’19), October 3-6, 2019, Balıkesir, TURKEY RAM bulunan NVidia GTX 1050 GPU’ya sahip bir taşınabilir bilgisayar kullanılarak yapılmıştır. 3.1 Görüntülerin Etiketlenmesi Nesne tanımada en önemli aşamalardan birisi eğitim aşamasıdır. Burada elde edilecek başarılı/başarısız çıktılar doğrudan sonuca yansımaktadır. Eğitim aşamasının ilk adımı ise görüntülerin etiketlenmesidir. Bu çalışmada 2B ve 3B organ görüntülerinin etiketlenmesi için LabelImg [10] yazılımı kullanılmıştır. Şekil 3’te bu yazılım ile gerçekleştirilen bir etiketleme işlemi gösterilmiştir. Tüm görüntülerin etiketlenmesi tamamlandıktan sonra, etiketleme ile ilgili veriler LabelImg yazılı ile XML olarak dışarı aktarılabilmektedir. 3.2 Eğitim Aşaması Görüntülerin etiketlenmesi tamamlandıktan sonra, oluşturulan eğitim XML dosyası ile DHB-ESA kullanılarak görüntülerin eğitim işlemi tamamlanmaktadır. Bu çalışmada, ön-eğitimli bir ağ kullanılmayıp, verisetindeki görüntüler ile GPU üzerinde yeniden bir eğitim işlemi işletilmiştir. Eğitim işleminde, kullanılan GPU donanımının kapasitesi, kullanılan eğitim görüntü sayısı ve adım sayısı sistemin başarımı ile doğru orantılıdır. Sistemin eğitim aşamasındaki başarımını gösteren kayıp grafikleri Şekil 5’te gösterilmiştir. Şekil 5. Eğitim aşamasında sistemin kayıp değerlerine ait grafik eğrileri Şekil 3. LabelImg yazılımı üzerinde görüntü etiketleme DHB-ESA ile hangi nesnenin hangi organ olduğunun tanınması işleminde kullanılacak etiket haritası ise Şekil 4’te sunulmuştur. Şekil 4. Etiket haritasının oluşturulması Bu çalışmada eğitim süreci 60.000 adıma kadar ilerletilmiştir. TensorFlow'un GPU versiyonu ile yapılan bu işlem yaklaşık olarak 18 saat sürmüştür. Eğitim aşamasının tamamlanmasını gösteren grafik Şekil 6’da sunulmuştur. Şekil 6. Eğitim sürecinin tamamlanması e-ISBN: 978-605-031-662-9 307 2nd International Conference on Data Science and Applications (ICONDATA’19), October 3-6, 2019, Balıkesir, TURKEY 3.3 Deneysel Çalışmalar Önerilen sistemde eğitim aşaması tamamlandıktan, başarım değerlendirmesi üç farklı prosedür ile görselleştirilmiştir. Bunlardan birincisi, sistemin bir kameradan akan videodan organların tanınması işlemidir. Şekil 7’ de gerçek zamanlı olarak akan bir videodan organ tanıma örneği gösterilmiştir. Buradan da görülebileceği gibi, mide organının video üzerinde %84 başarım ile tanındığı tespit edilmiştir. Şekil 7. Akan videodan gerçek zamanlı organ tanıma İkinci prosedürde ise, durağan bir görüntüde organların tanınması işlemi uygulanmıştır. Bunun için 2B abdominal görüntülerde organların tanınması Şekil 8’deki gibi gerçekleştirilmiştir. Buradan da görülebileceği gibi, 2B abdominal görüntüde mide, karaciğer ve akciğer organları yüksek başarım ile tanınmıştır. Şekil 8. Durağan 2B abdominal görüntülerde organ tanıma Üçüncü test prosedüründe ise durağan 3B video üzerinde organ modellerinin tanınması gerçekleştirilmiştir. Şekil 9’da videoda bulunan organ modellerinin tanınmasına ilişkin sonuçlar sunulmuştur. Buradan da görülebileceği gibi akciğer, kalp, bağırsak, karaciğer ve mide organlarının tanınması yüksek başarım ile elde edilmiştir. Şekil 9. Durağan videoda organ modellerinin tanınması 4 Sonuçlar Bu çalışmada, derin öğrenmenin başarılı modellerinden birisi olan, Daha Hızlı BölgeselEvrişimsel Sinir Ağları (DHB-ESA) kullanılarak durağan 2B ve 3B görüntüler ve akan video üzerinde abdominal organların tanınması gerçekleştirilmiştir. GPU üzerinde gerçekleştirilen deneysel çalışmalarda, tüm organlar için ortalama %87 tanıma başarımı elde edilmiştir. Öğrenme aşaması 18 saat sürmüş olup, toplamda 700'den fazla biyomedikal görüntü ve video kullanılmıştır. Eğitim aşaması 60.000 adım ilerletilmiştir. Deneysel çalışmaların, 450 görüntü kullanarak CPU ile ilerletilmesi durumunda 12 saat süren eğitim sürecinde 9000 adım ancak ilerlenebilmiştir. Yapılan testlerde ise organ tanımlama işlemi %65 civarlarında kalmıştır. Buradan yetersiz veriseti ve düşük sayıda eğitim adımı, organ tanımlamasında düşük başarıma sebebiyet verdiği sonucuna ulaşılabilir. Çalışmada biyomedikal görüntüler üç farklı prosedür şeklinde tanınmıştır. Bunlar; kameradan anlık organ tanıma, durağan görüntü üzerinden organ tanıma ve videodan organ tanımadır. Çalışmada, biyomedikal görüntüleri algılama konusunda daha başarılı olmak için mevcut sayıdaki verilerin sayısı ve eğitim adımı arttırılabilir. Eğitim süresini azaltmak için bilgisayarın mevcut GPU sürümü yükseltilerek bu sürecin biraz daha kısa sürmesi sağlanabilir. e-ISBN: 978-605-031-662-9 308 2nd International Conference on Data Science and Applications (ICONDATA’19), October 3-6, 2019, Balıkesir, TURKEY Teşekkür Bu çalışmada kullanılan 2B abdominal görüntüleri sağlayan Sincan Nfiz Körez Devlet Hastanesine, 3B organ modellerine ait görüntü ve videoların kullanıldığı [11-14] kaynaklarına teşekkür ederiz. Kaynaklar [1] Furst, J.D., R. Susomboom, And D.S. Raicu. Single Organ Segmentation Filters For Multiple Organ Segmentation. In 2006 International Conference Of The IEEE Engineering In Medicine And Biology Society. 2006. IEEE. [2] Olabarriaga, S.D. And A.W. Smeulders, Interaction In The Segmentation Of Medical Images: A Survey. Medical Image Analysis, 2001. 5(2): P. 127-142. [3] Pham, D.L., C. Xu, And J.L. Prince, Current Methods In Medical Image Segmentation. Annual Review Of Biomedical Engineering, 2000. 2(1): P. 315-337. [4] Petlenkov, E., Et Al. Restricted Connectivity Neural Network Structure For Organ Recognition By Analysis Of Endoscopic Images During Surgical Operation. In 2008 11th International Biennial Baltic Electronics Conference. 2008. IEEE. [5] Kaneko, T., L. Gu, And H. Fujimoto. Abdominal Organ Recognition Using 3D Mathematical Morphology. In Proceedings 15th International Conference On Pattern Recognition. ICPR-2000. 2000. IEEE. [6] Campadelli, P., Et Al., Automatic Abdominal Organ Segmentation From CT Images. ELCVIA: Electronic Letters On Computer Vision And Image Analysis, 2009. 8(1): P. 1-14. [7] Varshney, L.R., Abdominal Organ Segmentation In CT Scan Images: A Survey. ^ Eds, 2002. [8] Tensorflow. 01.09.2019]; Available From: Https://Www.Tensorflow.Org. [9] CUDA. 01.09.2019]; Available From: Https://Developer.Nvidia.Com/CudaToolkit. [10] Labelimage. Labelimage. 13.07.2019]; Available From: Https://Github.Com/Tzutalin/Labelimg. [11] Startradiology. 01.09.2019]; Available From: Http://Www.Startradiology.Com/Interns hips/General-Surgery/Abdomen/CtAbdomen-General/. [12] Turbosquid. 01.09.2019]; Available From: Https://Www.Turbosquid.Com/3dModels. [13] 3dexport. 01.09.2019]; Available From: Https://Tr.3dexport.Com/3dmodelInternal-Organs-106486.Htm. [14] Anatomybodydiagram. 01.09.2019]; Available From: Https://Anatomybodydiagram.Com. [15] Abadi, M., Et Al. Tensorflow: A System For Large-Scale Machine Learning. In 12th {USENIX} Symposium On Operating Systems Design And Implementation ({OSDI} 16). 2016. [16] Harris, M., Optimizing Parallel Reduction In CUDA. Nvidia Developer Technology, 2007. 2(4): P. 70. [17] Chetlur, S., Et Al., Cudnn: Efficient Primitives For Deep Learning. Arxiv Preprint Arxiv:1410.0759, 2014. [18] Krizhevsky, A., I. Sutskever, And G.E. Hinton. Imagenet Classification With Deep Convolutional Neural Networks. In Advances In Neural Information Processing Systems. 2012. [19] Girshick, R., Et Al. Rich Feature Hierarchies For Accurate Object Detection And Semantic Segmentation. In Proceedings Of The IEEE Conference On Computer Vision And Pattern Recognition. 2014. [20] Uijlings, J.R., Et Al., Selective Search For Object Recognition. International Journal Of Computer Vision, 2013. 104(2): P. 154-171. [21] Girshick, R. Fast R-Cnn. In Proceedings Of The IEEE International Conference On Computer Vision. 2015. [22] Ren, S., Et Al. Faster R-Cnn: Towards Real-Time Object Detection With Region Proposal Networks. In Advances In Neural Information Processing Systems. 2015. e-ISBN: 978-605-031-662-9 309