Minik Cipsler, Büyük Baş Ağrıları

Bakec

Member
Bir an için, dünyanın en büyük veri merkezlerine güç sağlayan sunucuların içindeki milyonlarca bilgisayar yongasının nadir, neredeyse tespit edilemeyen kusurlara sahip olduğunu hayal edin. Ve kusurları bulmanın tek yolu, bu çipleri sadece on yıl önce düşünülemeyecek olan devasa hesaplama problemlerine atmaktı.

Bilgisayar çiplerindeki küçük anahtarlar birkaç atom genişliğine küçüldükçe, çiplerin güvenilirliği dünyanın en büyük ağlarını yöneten insanlar için başka bir endişe haline geldi. Amazon, Facebook, Twitter ve diğer birçok site gibi şirketler geçen yıl şaşırtıcı kesintiler yaşadı.

Kesintilerin, programlama hataları ve ağlardaki tıkanıklık gibi çeşitli nedenleri oldu. Ancak, bulut bilişim ağları daha büyük ve daha karmaşık hale geldikçe, en temel düzeyde hala daha az güvenilir ve bazı durumlarda daha az tahmin edilebilir olan bilgisayar çiplerine bağımlı olduklarına dair artan bir endişe var.

Geçen yıl, hem Facebook hem de Google’daki araştırmacılar, nedenlerinin belirlenmesi kolay olmayan bilgisayar donanımı arızalarını açıklayan çalışmalar yayınladılar. Sorunun yazılımda olmadığını savundular – çeşitli şirketler tarafından yapılan bilgisayar donanımında bir yerdeydi. Google, çalışması hakkında yorum yapmayı reddetti, Facebook ise çalışması hakkında yorum taleplerinde bulunmadı.


Stanford Üniversitesi’nden bilgisayar donanımını test etme konusunda uzmanlaşmış bir elektrik mühendisi olan Subhasish Mitra, “Aslında temeldeki donanımdan gelen bu sessiz hataları görüyorlar” dedi. Dr. Mitra, insanların üretim hatalarının, kolayca yakalanamayan bu sözde sessiz hatalara bağlı olduğuna giderek daha fazla inandıklarını söyledi.


Facebook’un Prineville, Ore’deki veri merkezi. Büyük veri merkezlerinde, kısmen çip hatalarının sonucu olabilecek kesintiler yaşandı. Kredi… The New York Times için Leah Nash

Araştırmacılar, sistemlerini beklenmedik şekillerde strese sokan daha büyük ve daha büyük bilgi işlem sorunlarını çözmeye çalıştıkları için nadir görülen kusurlar bulduklarından endişe ediyorlar.

Büyük veri merkezleri işleten şirketler, on yıldan uzun bir süre önce sistematik sorunları bildirmeye başladı. 2015 yılında, mühendislik yayınında IEEE Spectrum , Toronto Üniversitesi’nde donanım güvenilirliği üzerine çalışan bir grup bilgisayar bilimcisi, her yıl Google’ın milyonlarca bilgisayarının yüzde 4’ünün tespit edilemeyen ve beklenmedik bir şekilde kapanmalarına neden olan hatalarla karşılaştığını bildirdi.

Milyarlarca transistöre sahip bir mikroişlemcide veya her biri 1 veya 0 depolayabilen trilyonlarca küçük anahtardan oluşan bir bilgisayar bellek kartında, en küçük hata bile artık her saniye rutin olarak milyarlarca hesaplama yapan sistemleri bozabilir.


Yarı iletken çağının başlangıcında mühendisler, kozmik ışınların ara sıra tek bir transistörü çevirme ve bir hesaplamanın sonucunu değiştirme olasılığı konusunda endişeliydiler. Artık anahtarların kendilerinin giderek daha az güvenilir hale gelmesinden endişe ediyorlar. Facebook araştırmacıları, anahtarların yıpranmaya daha yatkın hale geldiğini ve bilgisayar belleklerinin veya işlemcilerinin ömrünün daha önce inanıldığından daha kısa olabileceğini bile iddia ediyor.

Her yeni nesil çip ile sorunun daha da kötüleştiğine dair artan kanıtlar var. Yonga üreticisi Advanced Micro Devices tarafından 2020’de yayınlanan bir rapor, o zamanki en gelişmiş bilgisayar bellek yongalarının önceki nesle göre yaklaşık 5,5 kat daha az güvenilir olduğunu buldu. AMD, raporla ilgili yorum taleplerine yanıt vermedi.

Mountain View, California’da yapay zeka uygulamaları için tasarlanmış yeni bir işlemci türü üreticisi olan Esperanto Technologies’in başkanı ve kurucusu olan kıdemli bir donanım mühendisi olan David Ditzel, bu hataların izini sürmenin zor olduğunu söyledi. Pazara yeni ulaşan , 28 milyar transistörden yapılmış 1.000 işlemciye sahipti.

Çipi, tüm Amerika Birleşik Devletleri’ni kaplayacak bir apartman binasına benzetiyor. Bay Ditzel’in metaforunu kullanan Dr. Mitra, yeni hatalar bulmanın, o binadaki bir apartman dairesinde, yalnızca yatak odası ışığı açıkken ve apartman kapısı açıkken arızalanan tek bir akan musluk aramaya benzediğini söyledi.

Google’ın Council Bluffs, Iowa’daki veri merkezi. Google araştırmacıları, işlemci çekirdeklerinin yalnızca belirli koşullar altında hata ürettiğini buldu. Kredi… Brian Snyder/Reuters

Şimdiye kadar bilgisayar tasarımcıları, çiplere hataları düzelten özel devreler ekleyerek donanım kusurlarını gidermeye çalıştılar. Devreler, hatalı verileri otomatik olarak algılar ve düzeltir. Bir zamanlar son derece nadir bir sorun olarak kabul edildi. Ancak birkaç yıl önce Google üretim ekipleri, teşhis edilmesi çıldırtıcı derecede zor olan hataları bildirmeye başladı. Raporlarına göre, hesaplama hataları aralıklı olarak meydana geliyordu ve yeniden üretilmesi zordu.

Bir grup araştırmacı, sorunun izini sürmeye çalıştı ve geçen yıl bulgularını yayınladılar. Şirketin milyonlarca işlemci “çekirdeğine” dayalı bilgisayar sistemlerinden oluşan geniş veri merkezlerinin, muhtemelen birkaç faktörün birleşimi olan yeni hatalar yaşadığı sonucuna vardılar: fiziksel sınırlara yaklaşan daha küçük transistörler ve yetersiz test.


Google araştırmacıları, “Sayılmayan Çekirdekler” başlıklı makalelerinde, sorunun yeterince zor olduğunu ve bunu çözmek için onlarca yıllık mühendislik zamanına eşdeğer bir zaman ayırdıklarını belirttiler.

Modern işlemci yongaları, görevleri parçalamayı ve paralel olarak çözmeyi mümkün kılan motorları hesaplayan düzinelerce işlemci çekirdeğinden oluşur. Araştırmacılar, nadiren ve yalnızca belirli koşullar altında yanlış sonuçlar veren çekirdeklerin küçük bir alt kümesini buldular. Davranışı sporadik olarak tanımladılar. Bazı durumlarda, çekirdekler yalnızca hesaplama hızı veya sıcaklığı değiştirildiğinde hatalar üretebilir.

Google’a göre, işlemci tasarımındaki artan karmaşıklık, başarısızlığın önemli bir nedeniydi. Ancak mühendisler, daha küçük transistörlerin, üç boyutlu yongaların ve yalnızca belirli durumlarda hata yaratan yeni tasarımların soruna katkıda bulunduğunu da söylediler.

Geçen yıl yayınlanan benzer bir makalede, bir grup Facebook araştırmacısı, bazı işlemcilerin üreticilerin testlerini geçeceğini, ancak daha sonra sahadayken başarısızlıklar sergilemeye başladığını belirtti.

Uzmanlar, işlemcilerin önceden düşünülenden daha kısa bir ömre sahip olabileceğini ve bunun hesaplama hatalarına katkıda bulunan bir faktör olabileceğini söylüyor. Kredi… Yoshikazu Tsuno/Agence France-Presse — Getty Images

Intel yöneticileri, Google ve Facebook araştırma makalelerine aşina olduklarını ve donanım hatalarını tespit etmek ve düzeltmek için yeni yöntemler geliştirmek için her iki şirketle birlikte çalıştıklarını söyledi.

Intel’in veri platformları grubunun başkan yardımcısı Bryan Jorgensen, araştırmacıların iddialarının doğru olduğunu ve “sektöre karşı yaptıkları meydan okumanın gidilecek doğru yer olduğunu” söyledi.


Intel’in yakın zamanda veri merkezi operatörleri için standart, açık kaynaklı yazılım oluşturmaya yardımcı olacak bir proje başlattığını söyledi. Yazılım, çiplerdeki yerleşik devreler tarafından algılanmayan donanım hatalarını bulmalarını ve düzeltmelerini mümkün kılacaktır.

Geçen yıl, Intel’in birkaç müşterisi, sistemlerinde yaratılan algılanmayan hatalar hakkında sessizce uyarılar yayınladığında, bu zorluğun altı çizildi. Dünyanın en büyük kişisel bilgisayar üreticisi Lenovo, müşterilerine, Intel’in Xeon işlemcilerinin birkaç neslindeki tasarım değişikliklerinin, çiplerin önceki Intel mikroişlemcilerinden daha fazla düzeltilemeyecek kadar çok sayıda hata üretebileceği anlamına geldiğini bildirdi.

Intel konu hakkında kamuoyuna açıklama yapmadı, ancak Bay Jorgensen sorunu kabul etti ve şimdi düzeltildiğini söyledi. Şirket o zamandan beri tasarımını değiştirdi.

Bilgisayar mühendisleri, bu zorluğa nasıl yanıt verecekleri konusunda ikiye bölünmüş durumda. Yaygın bir yanıt, donanım hatalarını proaktif olarak izleyen ve sistem operatörlerinin donanımı bozulmaya başladığında çıkarmalarını mümkün kılan yeni tür yazılımlara yönelik taleptir. Bu, veri merkezlerinde altta yatan çiplerin sağlığını izleyen yazılımlar sunan yeni start-up’lar için bir fırsat yarattı.

Böyle bir operasyon, Los Gatos, California’da donanım kesintilerini en aza indirmeye çalışan şirketler için özel yazılımlar yapan TidalScale şirketidir. CEO’su Gary Smerdon, TidalScale ve diğerlerinin heybetli bir zorlukla karşı karşıya olduğunu öne sürdü.

“Bir uçak hala uçarken biraz motor değiştirmek gibi olacak” dedi.
 
Üst