Web Scraping in Node.js using Cheerio, Puppeteer, and Fetch
Ang mga web site tulad ng mga boards ng trabaho ay nakaharap sa isang persistent na problema: ang kanilang data ay patuloy na kinutya ng mga awtomatikong bot.
Ang data ay nagtatapos sa iba pang mga kumpetisyon ng mga board ng trabaho, na ninakaw ang nilalaman. Ito ay isang problema na sinasadya ang anumang Web site na ang mga intelektuwal na ari-arian ay dapat na ipublikasyong libre para sa libre, o maging sa mga may mga modelo ng subscription.
Ngunit ang isang kumpanya sa seguridad na nakabatay sa Atlanta na dalubhasa sa mga bot ng pagtuklas ay nakabuo ng software na maaaring makakita ng screen-scraping at mga data-mining bots.
[Karagdagang pagbabasa: Paano tanggalin ang malware mula sa iyong Windows PC]Pangunahing produkto ng Pramana, HumanPresent, nakita ang mga awtomatikong bot na, halimbawa, magpasok ng spam sa mga form na batay sa Web o magrehistro nang libre Ang mga e-mail account ay gagamitin para sa spam.
Pramana ay nakagawa na ngayon ng isang module na tinatawag na "data mining at screen scraping prevention" para sa HumanPresent. Ito ay gumagana sa marami sa mga parehong mga prinsipyo bilang pangunahing produkto ngunit binago para sa mga sitwasyon ng pagmimina ng data, sinabi David Crowder, CEO ng Pramana.
HumanPresent ay maaaring makakita ng mga bot sa pamamagitan ng pagtingin sa mga pagkakaiba sa paraan ng isang tao ay karaniwang makipag-ugnayan sa isang Web pahina at pagkakaiba na sa kung paano gumagana ang mga bot. Tinitingnan nito ang higit sa 30 mga sukatan, tulad ng mga stroke ng keyboard, mga pag-click ng mouse at ang tiyempo ng mga pagkilos na iyon.
HumanPresent ay tumitingin sa iisang mga transaksyon, ngunit ang modyul ng pagmimina ng data ay binago upang tingnan ang isang inorasan na panahon kung alinman sa bot o ang tao ay nasa site, sinabi ng Crowder.
Mga bot ng data-pagmimina ay may posibilidad na lubusang mapigil ang user interface ng browser. Halimbawa, ang isang bot ay maaaring humiling ng isang Web page na may maraming at maraming data, ngunit hindi kailanman mag-scroll o mag-click sa isang pahina. Kung ang isang serye ng mga pahina ay binuksan at tiningnan sa ganoong paraan, maaaring ito ay nangangahulugang isang bot ng pagmimina ng data ay dumating.
Pramana ay nagtatalaga ng isang natatanging ID sa bisita, at pagkatapos na pag-aralan ang pag-uugali ng bisita, maaaring gumawa ng desisyon kung sa label ang bisita ay isang bot o hindi. Mayroong maraming iba't ibang mga paraan na maaaring piliin ng isang operator ng Web site upang harapin ang sitwasyon.
Ang IP (Internet Protocol) na address ng computer ng bot ay maaaring permanenteng i-block. Ang isang Web site ng auction car na nagpapatotoo sa module ng pagmimina ng data ng Pramana ay nagpasya na ilipat ang mga pinaghihinalaang mga bot sa isang "sandbox" kung saan ito ay ganap na pinaghahatian ng maling data.
"Ang mga ito talaga ang pagmimina ng data - ito ay patay na lang," sabi ni Crowder..
Iba pang mga opsyon ay kasama ang pagdikta sa bisita ng Web site na may isang hamon o gawain, na kung saan ang ilang mga bot ay hindi kaya ng pagkumpleto.
Ang pagmimina ng data ay nagkakahalaga ng mga kumpanya ng mahal. Ang mga kumpanya na nagbebenta ng data ng premium ay makakahanap na ang kanilang kakumpitensya ay bibili ng isang subscription at pagkatapos ay gamitin ang mga awtomatikong bot upang magnakaw ng data para sa kanilang sariling mga site. Sa isang halimbawa, ang isang Web site na may gigabytes ng data sa ginamit na mga presyo ng kotse ay natagpuan na ang kanilang data ay na-scrap na at para sa pagbebenta sa eBay.
"Ang mga ito ay aktwal na nakikipagkumpitensya sa kanilang sariling nilalaman," sabi ni Crowder. Ang mga web site ay may mga mahihirap na disenyo na gumagawa ng pag-scrap ng data na mas madali. Ang ginamit na site ng kotse ay may mga URL (Uniform Resource Locators) na maaaring sunud-sunod na binago upang ibunyag ang higit pang data, Sinabi ni Crowder.
Ang module ng pagmimina ng data ay balot sa produkto ng HumanPresent para sa ngayon, ngunit maaga sa susunod na taon ang plano ng Pramana na ibenta ito hiwalay, sinabi ng Crowder. Ang Pramana ay nag-aalok ng HumanPresent alinman bilang isang in-premise na appliance o bilang isang software-bilang-service-configuration.
Para sa SaaS (software bilang isang serbisyo), ang teknolohiya ng Pramana ay isinama sa isang Web application at ang impormasyon ng session ay ipinadala pabalik sa Pramana para sa pagtatasa. Sinabi ng Crowder na ang Pramana ay maaaring makabuluhang bawasan ang latency time sa pinakabagong bersyon nito. Para sa mga customer na nangangailangan ng karagdagang bilis, ang appliance ay magagamit.
Ang US Federal Trade Commission ay nagpadala ng mga babala sa 10 mga operator ng Web site na nagawa na ang tinatawag ng ahensya na "kaduda-dudang" ay sinasabing ang mga produkto na kanilang ibinebenta ay maaaring maiwasan, gamutin o gamutin ang H1N1 flu, na madalas na tinatawag na swine flu. Ang FTC, sa mga titik na ipinadala noong nakaraang linggo, ay nagsabi sa mga operator ng Web site ng US na maliban kung mayroon silang pang-agham na patunay upang i-back up ang kanilang mga claim,
Ang FTC ay naghanap ng mga claim sa swine flu product bilang bahagi ng Ang ika-11 na Internet Sweepstage ng Pagpapatupad ng International Consumer Protection Network, na naganap mula Setyembre 21 hanggang 25. Sa panahon ng paglilinis, ang mga ahensya sa proteksyon ng mga mamimili sa buong mundo ay naka-target na mabilis na lumalawak na mapanlinlang at mapanlinlang na pag-uugali sa Internet, na may isang espesyal na diin sa mga produkto o serbisyo sa pagsasamantala
Ang kumpanya ay na-update ang parehong Oracle Endeca Impormasyon Discovery at ang Oracle Business Intelligence Foundation Suite, ilalabas ang bagong bersyon s ng software kasabay ng Collaborate, isang independiyenteng kumperensya para sa mga gumagamit ng software ng Oracle ngayong linggo sa Denver. Ang bawat pakete ng software ay may mga bagong paraan upang mag-ingest ng mga karagdagang mapagkukunan ng data para sa pagtatasa.
Ang bagong inilabas na Oracle Endeca Information Discovery 3.0 ay ang unang pangunahing pag-update ng produkto para sa software mula nang nakuha ni Oracle ang Endeca noong Oktubre 2011, sinabi ni Rodwick. Ang endeca software ay nagpapahintulot sa mga gumagamit na pag-aralan ang hindi natukoy na data, o data na hindi nakuha sa isang database o data warehouse.
Update ng bagong Flash ng Adobe, upang itulak ang Mga Awtomatikong Pag-update - at software ng 3rd party! Adobe Flash. Ang bagong update na ito ay nagpapakilala ng isang bagong bagong pag-update ng Flash background. Iyon ay hindi na kailangan mong i-update nang manu-mano ang iyong Flash.
Sa pamamagitan ng ngayon ipagpalagay ko na dapat kang maging tunay na pagod ng manu-manong pag-install ng mga update sa iyong Adobe Flash Player medyo madalas. Sa katunayan sa nakaraang buwan o dalawang mismo ang Adobe ay inilabas, sa palagay ko, 3 kritikal na mga update sa seguridad. At ang mga update ay hindi mo maaaring balewalain. Ang mga ito ay mga patches na kung saan ayusin ang mga mahihina na butas sa Flash Player - malubhang mga butas na maaaring payagan ang mga manunulat ng malware at