Heftiest supercomputers ay nahulog na mahirap, ang tagapagpananaliksik ay nagpapahiwatig

ay nahulog

Talaan ng mga Nilalaman:

Old, magandang payo: back up ng data

Habang lumalaki ang mga supercomputer, lalago din sila sa kabiguan, dahil sa nadagdagang halaga ng built-in na componentry. Ang ilang mga mananaliksik sa kamakailang SC12 conference noong nakaraang linggo sa Salt Lake City, Utah, ay nag-aalok ng mga posibleng solusyon sa lumalaking problema.

Ang mga sistema ng mataas na pagganap ng computing (HPC) ngayon ay maaaring magkaroon ng 100,000 node o higit pa-sa bawat node na binuo mula sa maramihang mga bahagi ng memory, processor, bus at iba pang circuitry. Ayon sa istatistika, ang lahat ng mga sangkap ay mabibigo sa isang punto, at huminto sila sa mga operasyon kapag ginawa nila ito, sinabi ni David Fiala, isang mag-aaral sa Ph.D. sa North Carolina State University, sa isang pahayag sa SC12.

Ang problema ay hindi isang bago, siyempre. Nang ang 600-node ng ASCI (Accelerated Strategic Computing Initiative) ng Lawrence Livermore National Laboratory ay nagpunta sa online noong 2001, ito ay isang oras sa pagitan ng mga pagkabigo (MTBF) ng limang oras lamang, salamat sa bahagi sa pagkabigo ng bahagi. Ang mga pagsisikap ng susunod na pag-tune ay napabuti ang MTBF ng ASCI White sa 55 oras, sinabi ni Fiala.

Ngunit habang lumalaki ang bilang ng mga supercomputer node, gayon din ang problema. "May isang bagay na dapat gawin tungkol dito, lalong lalakas ito habang lumalabas kami," sabi ni Fiala, na tumutukoy sa kung paano ang mga supercomputers ng susunod na dekada ay inaasahang magkaroon ng sampung beses ang computational power na ngayon ang mga modelo.

Mga diskarte sa ngayon para sa pagharap sa kabiguan ng sistema ay maaaring hindi maayos na sukat, sinabi ni Fiala. Binanggit niya ang checkpointing, kung saan ang isang running program ay pansamantalang itinigil at ang estado nito ay naka-save sa disk. Kung ang programa ay bumagsak, ang sistema ay maaring i-restart ang trabaho mula sa huling checkpoint.

NCSUDavid Fiala Ang problema sa checkpointing, ayon sa Fiala, ay ang bilang ng bilang ng mga node na lumalaki, ang halaga ng sistema ng overhead kailangan upang gumawa ng checkpointing lumalaki pati na rin-at lumalaki sa isang pagpaparami rate. Sa isang 100,000-node supercomputer, halimbawa, mga 35 porsiyento lamang ng aktibidad ang sasali sa pagsasagawa ng trabaho. Ang natitira ay dadalhin sa pamamagitan ng checkpointing at-dapat na isang sistema ng pagbawi-operasyon ng pagbawi, Fiala tinatantya

Dahil sa lahat ng mga karagdagang hardware na kinakailangan para sa exascale system, na maaaring binuo mula sa isang milyong o higit pang mga bahagi, ang sistema ng pagiging maaasahan ay magkakaroon ng upang mapabuti ang 100 beses upang mapanatili sa parehong MTBF na supercomputers ngayon enjoy, Fiala sinabi.

Old, magandang payo: back up ng data

Fiala iniharap teknolohiya na siya at kapwa mga mananaliksik na binuo na maaaring makatulong na mapabuti ang pagiging maaasahan. Ang teknolohiya ay tumutukoy sa problema ng tahimik na katiwalian ng data, kapag ang mga sistema ay gumagawa ng mga error na hindi sinasadya na sumusulat ng data sa disk.

Karaniwang, ang diskarte ng mga mananaliksik ay binubuo ng pagpapatakbo ng maramihang mga kopya, o "clones" ng isang programa, sabay at pagkatapos ay paghahambing ng mga sagot. Ang software, na tinatawag na RedMPI, ay tumatakbo kasabay ng Mensahe Passing Interface (MPI), isang library para sa pagbubukas ng mga application na tumatakbo sa maraming mga server upang ang iba't ibang bahagi ng programa ay maisakatuparan sa magkapareho.

RedMPI intercepts at mga kopya ng bawat MPI mensahe na nagpapadala ng isang application, at nagpapadala ng mga kopya ng mensahe sa clone (o clone) ng programa. Kung ang ibang mga clone ay nagkakalkula ng iba't ibang mga sagot, ang mga numero ay maaaring muling kinalkula sa fly, na kung saan ay makatipid ng oras at mga mapagkukunan mula sa pagtakbo muli ang buong programa.

"Ang pagpapatupad ng kalabisan ay hindi mahal. Maaaring ito ay mataas sa bilang ng mga pangunahing bilang na kinakailangan, ngunit ito ay nag-iwas sa pangangailangan para sa mga muling pagsusulat na may mga pag-restart ng checkpoint, "sabi ni Fiala. "Ang alternatibo ay, siyempre, upang muling pag-ulit ng mga trabaho hanggang sa sa tingin mo mayroon kang tamang sagot."

Inirerekomenda ni Fiala ang dalawang backup na kopya ng bawat programa, para sa triple redundancy. Kahit na ang pagpapatakbo ng maramihang mga kopya ng isang programa ay magsisimula sa higit pang mga mapagkukunan, sa paglipas ng panahon maaaring ito ay talagang mas mahusay, dahil sa ang katunayan na ang mga programa ay hindi na kailangang i-rerun upang masuri ang mga sagot. Gayundin, ang checkpointing ay maaaring hindi kinakailangan kapag maraming mga kopya ay tumatakbo, na makakatipid din sa mga mapagkukunan ng system.

UCSCEthan Miller

"Sa tingin ko ang ideya ng paggawa ng kalabisan ay talagang isang magandang ideya. [Para sa] napakalaking computations, na kinasasangkutan ng daan-daang libu-libong mga nodes, tiyak na isang pagkakataon na ang mga error ay magkakalat," sabi ni Ethan Miller, propesor sa science sa computer sa University of California Santa Cruz, na dumalo sa presentasyon. Ngunit sinabi niya na ang diskarte ay maaaring hindi angkop na ibinigay ang halaga ng trapiko sa network na maaaring magawa ng gayong kalabisan. Siya ay iminungkahi na patakbuhin ang lahat ng mga aplikasyon sa parehong hanay ng mga node, na maaaring mabawasan ang trapiko sa internode.

Sa isa pang pagtatanghal, si Ana Gainaru, isang mag-aaral ng Ph.D mula sa University of Illinois sa Urbana-Champaign, ay nagpakita ng isang pamamaraan ng pagsusuri ng log ang mga file upang mahulaan kapag ang mga pagkabigo ng sistema ay magaganap.

Ang trabaho ay pinagsasama ang pagtatasa ng signal sa data mining. Ang pagtatasa ng signal ay ginagamit upang makilala ang normal na pag-uugali, kaya kapag nangyari ang pagkabigo, madali itong makita. Hinahanap ng pagmimina ng data para sa mga ugnayan sa pagitan ng magkahiwalay na mga pagkabigo ng iniulat. Ipinakita ng iba pang mga mananaliksik na ang maramihang mga kabiguan ay may kaugnayan sa isa't isa, dahil ang kabiguan sa isang teknolohiya ay maaaring makaapekto sa pagganap sa iba, ayon kay Gainaru. Halimbawa, kapag ang isang network card ay nabigo, ito ay lalong madaling panahon ay hobble iba pang mga proseso ng system na umaasa sa komunikasyon sa network.

Natuklasan ng mga mananaliksik na ang 70 porsyento ng mga magkasala na mga pagkakamali ay nagbibigay ng window ng pagkakataon na higit sa 10 segundo. Sa ibang salita, kapag ang unang tanda ng isang kabiguan ay napansin, ang sistema ay maaaring magkaroon ng hanggang 10 segundo upang i-save ang kanyang trabaho, o ilipat ang trabaho sa isa pang node, bago ang isang mas kritikal na kabiguan ay nangyayari. "Ang kabiguan ng hula ay maaaring ipagsama sa iba pang mga pamamaraan ng pagbibigay ng kasalanan," sabi ni Gainaru.

Sinasaklaw ni Joab Jackson ang software ng enterprise at ang pangkalahatang teknolohiya ng breaking balita para sa Ang IDG News Service. Sundin si Joab sa Twitter sa @Joab_Jackson. Ang e-mail address ni Joab ay [email protected]

Ang aking pinakamalaking problema sa RAM memory optimization software - hindi mahalaga kung sino ang nag-market ito - ay lamang na hindi mo ito kailangan. Ang $ 20 na SuperRam ay nagpapahiwatig, bagaman hindi ito lumalabas at sinasabi ito, na gagawing mas mabilis ang iyong computer. Habang technically ito ay maaaring totoo (kung ikaw ay nagkaroon ng iyong computer sa para sa mga araw sa pagtatapos sa mga programa na tumatakbo na walang pinag-aralan tungkol sa pagbabalik hindi nagamit na memorya)

Iyon ay sinabi, kung kailangan mo lang mahanap ito para sa iyong sarili, SuperRam ay madaling gamitin. Sa aking pagsubok, ito ay may kaunting negatibong epekto sa pagganap ng system (anumang programa na tumatakbo sa background ay gagamit ng ilang memory at CPU cycles). Gayunpaman, kung nakatulong ang SuperRam sa pagganap, ito ay lampas sa aking kakayahang makilala.

Maraming mga monitor na nakakuha ng napakalaking apela sa mga nakaraang taon, at hindi mahirap makita kung bakit. Ang pagkakaroon ng isang pangalawang monitor ay nagpapahintulot sa iyo na i-reference ang isang bagay habang ang pagmamanipula ng data sa isa pa. Ang mas maraming mga screen ang mas mahusay na sinasabi ko.

Ang isang magaan na tablet na maaaring kumilos bilang pangalawang monitor ay perpekto para sa mga propesyonal sa mobile na nangangailangan ng sobrang real estate. Dahil ito ay batay sa iPhone, ang hardware nito ay magiging mas magaan at mas payat kaysa kung ito ay batay sa platform ng Intel Core 2. Ang pangkalahatang aparato ay dapat na tungkol sa bilang portable bilang umiiral na portable monitor usb tulad ng mga sa pamamagitan ng Mimo. Sa pamamagitan ng paggawa ng tablet manipis at liwanag, an

Ang isang bagong pagtatantya ay nagpapahiwatig na ang bilang ng mga Android app ay maaaring malampasan ang mga application ng iOS at pindutin ang 1

Ang isang bagong pagtatantya ay nagpapahiwatig na ang bilang ng mga Android apps ay maaaring malalampasan ang mga application ng iOS at pindutin ang 1 milyong marka sa Hunyo.

Heftiest supercomputers ay nahulog na mahirap, ang tagapagpananaliksik ay nagpapahiwatig

ay nahulog

Talaan ng mga Nilalaman:

Old, magandang payo: back up ng data

Ang isang bagong pagtatantya ay nagpapahiwatig na ang bilang ng mga Android app ay maaaring malampasan ang mga application ng iOS at pindutin ang 1

Kagiliw-giliw na mga artikulo

Pinakamahusay na Mga Tool sa Programming para sa Pagtuturo sa mga Bata

3 Pinakamahusay na GUI-Enabled USB Image Writer Tools sa Linux

10 Pinakamahusay na Mga Kapaki-pakinabang na Gutenberg Blocks Plugin para sa WordPress

3 Higit pang VoIP Alternatibo sa Skype

Academix GNU/Linux

Mga Tool para I-access ang Linux File System mula sa Windows

Pinakamahusay na Mga Tool sa Programming para sa Pagtuturo sa mga Bata

3 Pinakamahusay na GUI-Enabled USB Image Writer Tools sa Linux

10 Pinakamahusay na Mga Kapaki-pakinabang na Gutenberg Blocks Plugin para sa WordPress

Pinakamahusay na Mga Tool sa Programming para sa Pagtuturo sa mga Bata

3 Pinakamahusay na GUI-Enabled USB Image Writer Tools sa Linux

10 Pinakamahusay na Mga Kapaki-pakinabang na Gutenberg Blocks Plugin para sa WordPress

Heftiest supercomputers ay nahulog na mahirap, ang tagapagpananaliksik ay nagpapahiwatig

ay nahulog

Talaan ng mga Nilalaman:

Old, magandang payo: back up ng data

Inirerekumendang

Kagiliw-giliw na mga artikulo