Windows

Mga plano sa malaking data ng Facebook kasama ang warehouses, mas mabilis na analytics

Saksi: National broadband plan, gagawin ng DICT sa tulong ng Facebook

Saksi: National broadband plan, gagawin ng DICT sa tulong ng Facebook
Anonim

Maaaring kayamanan ng Facebook ang data na mayroon nito sa isang bilyong-plus na mga gumagamit para sa mga nagbabalik sa advertising nito, ngunit Ang pag-aaral ng site ay gumaganap sa na data ay inaasahan na patuloy na magpose ng maraming mga hamon sa mga darating na taon, sinabi ng isang engineer.

Ang mga problema, kung saan Facebook ay sapilitang upang makipagbuno sa "mas maaga kaysa sa mas malawak na industriya," isama ang pag-uunawa mas mahusay na paraan upang maproseso ang pag-uugali ng gumagamit sa site, kung paano mas mahusay na ma-access at pagsama-samahin ang iba't ibang uri ng data sa maraming mga sentro ng data ng Facebook, at nag-devise ng mga bagong open source software system upang maproseso ang data na iyon, Ra vi Murthy, na namamahala sa analytics infrastructure ng Facebook, sinabi Martes.

"Ang Facebook ay isang kumpanya ng data, at ang pinaka-halatang bagay na iniisip ng mga tao sa harap na iyon ay ang pag-target sa mga ad," sinabi niya sa isang kumperensya sa industriya sa San Francisco, sa panahon ng isang makipag-usap sa back-end na imprastraktura ng Facebook, analytics ng data at mga proyekto ng open source.

[Karagdagang pagbabasa: Ang pinakamahusay na serbisyo sa streaming ng TV]

"Ngunit mas lumalalim ito kaysa dito." Ang likod ng mga eksena sa trabaho ay may kinalaman sa analytics infrastructure ng Facebook, na idinisenyo upang mapabilis ang pag-unlad ng produkto at pagbutihin ang karanasan ng gumagamit sa pamamagitan ng malalim na pag-aaral ng lahat ng magagamit na data, kung binubuo ito ng mga pagkilos ng mga gumagamit sa site tulad ng pag-post ng mga update sa katayuan o ang mga application na ginagamit nila sa loob ng Facebook sa iba't ibang mga device.

Kasalukuyang gumagamit ang Facebook ng maraming iba't ibang mga open source software system na kilala bilang Hadoop, Corona at Prism upang maproseso at suriin ang data nito, na kung saan ang kumpanya ay tumutuon sa paggawa mas mabilis at mas mahusay sa paglipas ng susunod na anim hanggang labindalawang buwan, sinabi ni Murthy.

Marami sa mga hamon ng kumpanya ay nakatali sa kung ano ang tinutukoy ng Facebook bilang bodega ng data nito, na pinagsasama ang data mula sa maraming mga mapagkukunan sa isang database kung saan maaaring pag-aralan ang aktibidad ng user sa kabuuan, tulad ng sa pamamagitan ng pagbibigay ng pang-araw-araw na ulat sa bilang ng mga larawan na na-tag sa isang partikular na bansa, o pagtingin sa kung gaano karaming mga gumagamit sa isang partikular na lugar ang nakatuon sa mga pahina na inirerekomenda sa kanila. ay idinisenyo upang i-optimize ang mga karanasan ng gumagamit at malaman kung anong mga gumagamit ang gusto at hindi gusto, ngunit ito rin ay nagiging mas pagbubuwis ng Facebook ay maaaring ma-access ang higit pa at higit pang data tungkol sa mga gumagamit nito, sinabi Murthy. Sa kasalukuyan, ang bodega ng Facebook ay tumatagal ng 500 terabytes ng bagong data araw-araw, o 500,000 gigabytes. Ang bodega ay lumaki nang halos 4000 beses sa loob ng nakaraang apat na taon, "nangunguna sa paglago ng user ng Facebook," sabi ni Murthy.

Upang harapin ang mga isyung ito, na binuo ng Facebook ang sistema ng software na Prism nito, na idinisenyo upang maisagawa ang mga key analysis functions sa mga sentro ng data ng kumpanya sa buong mundo, at hinati ang pinag-aaralan sa "mga chunks," sabi ni Murthy. Sa ganitong paraan, ang pagsasagawa ng pag-aaral sa, sabihin nating, ang ilang sukatan na may kaugnayan sa mga feed ng balita ng mga gumagamit ay hindi ma-bihira ang warehouse nang higit pa.

"Kami ay lalong nag-iisip kung paano makuha ang data na ito," sabi niya. > Ang kumpanya ay nagtatrabaho din sa isang sistema na tumatagal ng isang ganap na iba't ibang mga diskarte sa query sa bodega upang bigyan ng oras ng pagtugon sa loob ng isang bagay na segundo, sinabi Murthy.

Ang isa pang lugar Facebook ay patuloy na naghahanap sa pagpapabuti ay ang "transaksyon imprastraktura, "Na humahawak sa mas basic, pang-araw-araw na pagpoproseso ng data ng, sabihin, gusto, komento at mga update sa katayuan upang panatilihin ang mga social network na tumatakbo nang maayos. Ang ilan sa mga tanong na hinahanap ng mga inhinyero at analyst ng kumpanya ay kasama ang pag-uunawa kung paano mag-forecast ng aktwal na pag-unlad sa ganitong uri ng data, at kung magkano ang computing Facebook ay dapat na talagang maglaan para dito, sinabi ni Murthy.

"Maaari ba nating mahulaan kung ano ang magiging anim na buwan mula ngayon?" Samantala, ang Facebook ay kasangkot din sa isang pangmatagalang pagsisikap upang gawing mas mahusay ang mga pisikal na server nito. Ang kumpanya ay nagsimula nito sa Buksan Compute Project noong 2011, na may layunin ng pagdidisenyo ng mga server ng modularized na nagbibigay ng mas higit na kontrol sa mga customer sa networking, memorya, suplay ng kuryente at iba pang mga sangkap na pumupunta sa kanilang mga server. Ito ay pinalawak upang isama ang mga processor ng ARM sa Enero.