Car-tech

Heftiest supercomputers ay nahulog na mahirap, ang tagapagpananaliksik ay nagpapahiwatig

ay nahulog

ay nahulog

Talaan ng mga Nilalaman:

Anonim

Habang lumalaki ang mga supercomputer, lalago din sila sa kabiguan, dahil sa nadagdagang halaga ng built-in na componentry. Ang ilang mga mananaliksik sa kamakailang SC12 conference noong nakaraang linggo sa Salt Lake City, Utah, ay nag-aalok ng mga posibleng solusyon sa lumalaking problema.

Ang mga sistema ng mataas na pagganap ng computing (HPC) ngayon ay maaaring magkaroon ng 100,000 node o higit pa-sa bawat node na binuo mula sa maramihang mga bahagi ng memory, processor, bus at iba pang circuitry. Ayon sa istatistika, ang lahat ng mga sangkap ay mabibigo sa isang punto, at huminto sila sa mga operasyon kapag ginawa nila ito, sinabi ni David Fiala, isang mag-aaral sa Ph.D. sa North Carolina State University, sa isang pahayag sa SC12.

Ang problema ay hindi isang bago, siyempre. Nang ang 600-node ng ASCI (Accelerated Strategic Computing Initiative) ng Lawrence Livermore National Laboratory ay nagpunta sa online noong 2001, ito ay isang oras sa pagitan ng mga pagkabigo (MTBF) ng limang oras lamang, salamat sa bahagi sa pagkabigo ng bahagi. Ang mga pagsisikap ng susunod na pag-tune ay napabuti ang MTBF ng ASCI White sa 55 oras, sinabi ni Fiala.

Ngunit habang lumalaki ang bilang ng mga supercomputer node, gayon din ang problema. "May isang bagay na dapat gawin tungkol dito, lalong lalakas ito habang lumalabas kami," sabi ni Fiala, na tumutukoy sa kung paano ang mga supercomputers ng susunod na dekada ay inaasahang magkaroon ng sampung beses ang computational power na ngayon ang mga modelo.

Mga diskarte sa ngayon para sa pagharap sa kabiguan ng sistema ay maaaring hindi maayos na sukat, sinabi ni Fiala. Binanggit niya ang checkpointing, kung saan ang isang running program ay pansamantalang itinigil at ang estado nito ay naka-save sa disk. Kung ang programa ay bumagsak, ang sistema ay maaring i-restart ang trabaho mula sa huling checkpoint.

NCSUDavid Fiala Ang problema sa checkpointing, ayon sa Fiala, ay ang bilang ng bilang ng mga node na lumalaki, ang halaga ng sistema ng overhead kailangan upang gumawa ng checkpointing lumalaki pati na rin-at lumalaki sa isang pagpaparami rate. Sa isang 100,000-node supercomputer, halimbawa, mga 35 porsiyento lamang ng aktibidad ang sasali sa pagsasagawa ng trabaho. Ang natitira ay dadalhin sa pamamagitan ng checkpointing at-dapat na isang sistema ng pagbawi-operasyon ng pagbawi, Fiala tinatantya

Dahil sa lahat ng mga karagdagang hardware na kinakailangan para sa exascale system, na maaaring binuo mula sa isang milyong o higit pang mga bahagi, ang sistema ng pagiging maaasahan ay magkakaroon ng upang mapabuti ang 100 beses upang mapanatili sa parehong MTBF na supercomputers ngayon enjoy, Fiala sinabi.

Old, magandang payo: back up ng data

Fiala iniharap teknolohiya na siya at kapwa mga mananaliksik na binuo na maaaring makatulong na mapabuti ang pagiging maaasahan. Ang teknolohiya ay tumutukoy sa problema ng tahimik na katiwalian ng data, kapag ang mga sistema ay gumagawa ng mga error na hindi sinasadya na sumusulat ng data sa disk.

Karaniwang, ang diskarte ng mga mananaliksik ay binubuo ng pagpapatakbo ng maramihang mga kopya, o "clones" ng isang programa, sabay at pagkatapos ay paghahambing ng mga sagot. Ang software, na tinatawag na RedMPI, ay tumatakbo kasabay ng Mensahe Passing Interface (MPI), isang library para sa pagbubukas ng mga application na tumatakbo sa maraming mga server upang ang iba't ibang bahagi ng programa ay maisakatuparan sa magkapareho.

RedMPI intercepts at mga kopya ng bawat MPI mensahe na nagpapadala ng isang application, at nagpapadala ng mga kopya ng mensahe sa clone (o clone) ng programa. Kung ang ibang mga clone ay nagkakalkula ng iba't ibang mga sagot, ang mga numero ay maaaring muling kinalkula sa fly, na kung saan ay makatipid ng oras at mga mapagkukunan mula sa pagtakbo muli ang buong programa.

"Ang pagpapatupad ng kalabisan ay hindi mahal. Maaaring ito ay mataas sa bilang ng mga pangunahing bilang na kinakailangan, ngunit ito ay nag-iwas sa pangangailangan para sa mga muling pagsusulat na may mga pag-restart ng checkpoint, "sabi ni Fiala. "Ang alternatibo ay, siyempre, upang muling pag-ulit ng mga trabaho hanggang sa sa tingin mo mayroon kang tamang sagot."

Inirerekomenda ni Fiala ang dalawang backup na kopya ng bawat programa, para sa triple redundancy. Kahit na ang pagpapatakbo ng maramihang mga kopya ng isang programa ay magsisimula sa higit pang mga mapagkukunan, sa paglipas ng panahon maaaring ito ay talagang mas mahusay, dahil sa ang katunayan na ang mga programa ay hindi na kailangang i-rerun upang masuri ang mga sagot. Gayundin, ang checkpointing ay maaaring hindi kinakailangan kapag maraming mga kopya ay tumatakbo, na makakatipid din sa mga mapagkukunan ng system.

UCSCEthan Miller

"Sa tingin ko ang ideya ng paggawa ng kalabisan ay talagang isang magandang ideya. [Para sa] napakalaking computations, na kinasasangkutan ng daan-daang libu-libong mga nodes, tiyak na isang pagkakataon na ang mga error ay magkakalat," sabi ni Ethan Miller, propesor sa science sa computer sa University of California Santa Cruz, na dumalo sa presentasyon. Ngunit sinabi niya na ang diskarte ay maaaring hindi angkop na ibinigay ang halaga ng trapiko sa network na maaaring magawa ng gayong kalabisan. Siya ay iminungkahi na patakbuhin ang lahat ng mga aplikasyon sa parehong hanay ng mga node, na maaaring mabawasan ang trapiko sa internode.

Sa isa pang pagtatanghal, si Ana Gainaru, isang mag-aaral ng Ph.D mula sa University of Illinois sa Urbana-Champaign, ay nagpakita ng isang pamamaraan ng pagsusuri ng log ang mga file upang mahulaan kapag ang mga pagkabigo ng sistema ay magaganap.

Ang trabaho ay pinagsasama ang pagtatasa ng signal sa data mining. Ang pagtatasa ng signal ay ginagamit upang makilala ang normal na pag-uugali, kaya kapag nangyari ang pagkabigo, madali itong makita. Hinahanap ng pagmimina ng data para sa mga ugnayan sa pagitan ng magkahiwalay na mga pagkabigo ng iniulat. Ipinakita ng iba pang mga mananaliksik na ang maramihang mga kabiguan ay may kaugnayan sa isa't isa, dahil ang kabiguan sa isang teknolohiya ay maaaring makaapekto sa pagganap sa iba, ayon kay Gainaru. Halimbawa, kapag ang isang network card ay nabigo, ito ay lalong madaling panahon ay hobble iba pang mga proseso ng system na umaasa sa komunikasyon sa network.

Natuklasan ng mga mananaliksik na ang 70 porsyento ng mga magkasala na mga pagkakamali ay nagbibigay ng window ng pagkakataon na higit sa 10 segundo. Sa ibang salita, kapag ang unang tanda ng isang kabiguan ay napansin, ang sistema ay maaaring magkaroon ng hanggang 10 segundo upang i-save ang kanyang trabaho, o ilipat ang trabaho sa isa pang node, bago ang isang mas kritikal na kabiguan ay nangyayari. "Ang kabiguan ng hula ay maaaring ipagsama sa iba pang mga pamamaraan ng pagbibigay ng kasalanan," sabi ni Gainaru.

Sinasaklaw ni Joab Jackson ang software ng enterprise at ang pangkalahatang teknolohiya ng breaking balita para sa Ang IDG News Service. Sundin si Joab sa Twitter sa @Joab_Jackson. Ang e-mail address ni Joab ay [email protected]