Teksti on alunperin julkaistu MikroPC-lehden numerossa 14/1999, 1.10.1999.

English version


CERN korvaa superkoneet Linux-klustereilla

Linux-pc:t valtaavat superkoneilta tilaa tieteellisen laskennan sovelluksissa. CERNissä, maailman suurimmassa hiukkasfysiikan tutkimuskeskuksessa valmistaudutaan jo pystyttämään tuhansia pc:itä Linux-klustereiksi.

Sveitsissä Genevessä toimivan CERNin tutkimus perustuu hiukkaskiihdyttimillä tehtäviin törmäyskokeisiin. Kokeiden avulla tutkitaan aineen perimmäistä rakennetta ja maailmankaikkeuden syntyprosessin, alkuräjähdyksen vaiheita. Tutkimus asettaa kovia vaatimuksia tietotekniikalla, sillä kokeissa syntyy erittäin paljon dataa.

1,2 petatavua tietoa

Tutkimusasemilta virtaa dataa 30 megatavua sekunnissa, tyypillisen pc:n 6-gigainen kiintolevy täyttyisi siis noin kolmessa minuutissa. Tieto tallennetaan 1,2 petatavun keskitettyyn nauhavarastoon, joka täydentyy tällä hetkellä 200 teratavun vuosivauhdilla. Pelkkää kiintolevytilaa välitallennusta ja prosessointia varten on noin 20 teratavua.
Nauhasiilot Jokaisessa neljässä tornissa on 6000 paikkaa 50 gigatavun nauhoille. Jos oman siilon asemat loppuvat kesken, älykkäät robotit osaavat ojentaa nauhoja myös toisilleen seinissä olevista raoista.

Järjestelmää käyttäville fyysikoille ei ole merkitystä, missä bitit sijaitsevat. He lähettävät "hae Delphi-kokeen elokuun data" -tyyppisiä komentoja, jolloin tiedostot poimitaan nauhoilta levypalvelimille nopeammin saataville. Prosessointityöt lähetetään keskitetysti jonoon, josta tulokset saadaan takaisin laskennan päätyttyä.

Suurin osa atk-keskuksen palvelinten tuhannesta suorittimesta onkin valjastettu puhtaasti numeronmurskaukseen, kapasiteetti riittää noin 200 miljardiin laskutoimitukseen sekunnissa.

Varmuuskopio puuttuu

Datan liikuttelun ytimenä toimii itse kehitetty RFIO-järjestelmä (Remote File I/O), jolla muodostetaan nopea tiedonsiirtoyhteys minkä tahansa palvelinten välille. Laitteet ryhmitellään loogisiksi klustereiksi siten, että kalliita ylimmän tason kytkimiä tarvitaan mahdollisimman vähän, yleensä yhden laskentatehtävän parissa askartelee 20-30 konetta. Tarvittaessa rooleja ja rakennetta on helppo vaihtaa.

Raa'asta tutkimusdatasta säilytetään vain yhtä kopiota, kunnolliseen varmuuskopiointiin eivät resurssit riitä. Tallennusjärjestelmistä vastaavan Bernd Panzerin mukaan noin yksi tuhannesosa datasta menetetään vuosittain nauhojen laatuongelmien vuoksi, mutta se ei vielä haittaa - koejärjestelyjen omista ongelmista johtuva hävikki on paljon suurempi. Valmiita tuloksia luonnollisesti säilytetään huolellisesti.

Linux vaatii omia asiantuntijoita

CERNissä on luovuttu jo lähes kokonaan keskus- ja supertietokoneista, joita perinteisesti käytetään tieteellisessä laskennassa. Muutamia on vielä käytössä vanhoissa pitkäaikaisissa tutkimusprojekteissa. Suurin yksittäinen kone on 28-suorittiminen Silicon Graphics Origin 2000. Suomessa CSC Tieteellinen laskenta Oy:n vastaava 128 suorittimen malli ja vanhempi CRAY T3E jättävät sen helposti taakseen.

"Laitteiston pääosa on nyt keskiraskaita unix-palvelimia, mutta suuntaus on vahvasti pc-rautaa kohti", sanoo tietohallintopäällikkö Harry Renshall.

Cernin konesalissa hyrrää jo noin 200 Linux- ja 50 NT-konetta. Ne vaativat ongelmiin uudenlaista lähestymistapaa. Ohjelmien on rinnakkaistuttava hyvin, koska suuriin moniprosessorikoneisiin verrattuna suorittimien välinen kommunikointi on hidasta.
Linux-klusteri Beowulf-klusteriohjelmisto on varsin kevyt lisäys perus-Linuxin päälle. Koneet yhdistetään toisiinsa nopealla, vähintään 100 megabitin Ethernet-verkolla.

NT:n etuna ovat paremmat oliopohjaiset ohjelmankehitystyökalut, mutta Linuxiin on muuten helpompi siirtyä, koska vanhat ohjelmat ovat unix-pohjaisia. Lisäksi sen etähallinta on helpompaa.

"Linux on nyt vakaudeltaan ja toiminnallisuudeltaan jo lähellä kaupallisia Unixeja, vuosi sitten tilanne oli vielä aivan toinen", Renshall sanoo.

"Isot Unix-talot tarjoavat hinnakasta, mutta laadukasta tukea. NT ja Linux ovat sen sijaan CERNin erikoiskäytössä samalla viivalla - apua haetaan omista asiantuntijoista ja Internetin uutisryhmistä", hän jatkaa.

Linuxin avoimuuden ansiosta laiteohjaimia voi tarvittaessa tehdä itsekin. CERN tunnetaankin muun muassa nopeiden verkkokorttien ajurien kehittäjänä.

10 000 PC:tä

Sekä NT- että Linux-kokeilut ovat onnistuneet, mutta uushankinnat ovat lähes pelkästään Linux-PC:itä. Niiden ostohinta jää noin kymmenesosaan superkoneiden ja kolmasosaan kaupallisten Unix-ratkaisujen hinnasta. Käyttöä pyritään parhaillaan laajentamaan numeronmurskauksesta levy- ja nauhapalvelimiin, joissa saavutetaan suurimmat säästöt.

"Korkeammat ylläpitokulut nostavat kokonaiskustannuksia, mutta Linux-PC:t ovat silti meille edullisin ratkaisu", Renshall sanoo.

Vuonna 2005 valmistuvaksi suunniteltu uusi LHC-kiihdytin (Large Hadron Collider) vaatii neljän petatavun vuosittaista tallennuskapasiteettia ja suunnatonta laskentatehoa.

Projektissa lasketaan sen varaan, että hinnat laskevat ja suorituskyky kasvaa jatkuvasti. It-väen suunnitelmissa tietokonekeskuksen pääsali täyttyy 5000 - 10000 pc:llä sekä levy- ja nauhajärjestelmillä. Suurin huolenaihe on nauhatallennuksen hinta, se kun ei halpene samaa tahtia kuin muut komponentit.

Takaisin artikkeliluetteloon


Copyright Arto Teräs <ajt@iki.fi> 1999.
Edelleenlevitys muuttamattomana sallittu missä tahansa mediassa, kunhan tämä tekijänoikeusmaininta säilytetään.

Viimeinen päivitys 3.7.2000