Mga website

Ang Bagong Software ay Nakikita ang Bots Scraping Web Site Data

Web Scraping in Node.js using Cheerio, Puppeteer, and Fetch

Web Scraping in Node.js using Cheerio, Puppeteer, and Fetch
Anonim

Ang mga web site tulad ng mga boards ng trabaho ay nakaharap sa isang persistent na problema: ang kanilang data ay patuloy na kinutya ng mga awtomatikong bot.

Ang data ay nagtatapos sa iba pang mga kumpetisyon ng mga board ng trabaho, na ninakaw ang nilalaman. Ito ay isang problema na sinasadya ang anumang Web site na ang mga intelektuwal na ari-arian ay dapat na ipublikasyong libre para sa libre, o maging sa mga may mga modelo ng subscription.

Ngunit ang isang kumpanya sa seguridad na nakabatay sa Atlanta na dalubhasa sa mga bot ng pagtuklas ay nakabuo ng software na maaaring makakita ng screen-scraping at mga data-mining bots.

[Karagdagang pagbabasa: Paano tanggalin ang malware mula sa iyong Windows PC]

Pangunahing produkto ng Pramana, HumanPresent, nakita ang mga awtomatikong bot na, halimbawa, magpasok ng spam sa mga form na batay sa Web o magrehistro nang libre Ang mga e-mail account ay gagamitin para sa spam.

Pramana ay nakagawa na ngayon ng isang module na tinatawag na "data mining at screen scraping prevention" para sa HumanPresent. Ito ay gumagana sa marami sa mga parehong mga prinsipyo bilang pangunahing produkto ngunit binago para sa mga sitwasyon ng pagmimina ng data, sinabi David Crowder, CEO ng Pramana.

HumanPresent ay maaaring makakita ng mga bot sa pamamagitan ng pagtingin sa mga pagkakaiba sa paraan ng isang tao ay karaniwang makipag-ugnayan sa isang Web pahina at pagkakaiba na sa kung paano gumagana ang mga bot. Tinitingnan nito ang higit sa 30 mga sukatan, tulad ng mga stroke ng keyboard, mga pag-click ng mouse at ang tiyempo ng mga pagkilos na iyon.

HumanPresent ay tumitingin sa iisang mga transaksyon, ngunit ang modyul ng pagmimina ng data ay binago upang tingnan ang isang inorasan na panahon kung alinman sa bot o ang tao ay nasa site, sinabi ng Crowder.

Mga bot ng data-pagmimina ay may posibilidad na lubusang mapigil ang user interface ng browser. Halimbawa, ang isang bot ay maaaring humiling ng isang Web page na may maraming at maraming data, ngunit hindi kailanman mag-scroll o mag-click sa isang pahina. Kung ang isang serye ng mga pahina ay binuksan at tiningnan sa ganoong paraan, maaaring ito ay nangangahulugang isang bot ng pagmimina ng data ay dumating.

Pramana ay nagtatalaga ng isang natatanging ID sa bisita, at pagkatapos na pag-aralan ang pag-uugali ng bisita, maaaring gumawa ng desisyon kung sa label ang bisita ay isang bot o hindi. Mayroong maraming iba't ibang mga paraan na maaaring piliin ng isang operator ng Web site upang harapin ang sitwasyon.

Ang IP (Internet Protocol) na address ng computer ng bot ay maaaring permanenteng i-block. Ang isang Web site ng auction car na nagpapatotoo sa module ng pagmimina ng data ng Pramana ay nagpasya na ilipat ang mga pinaghihinalaang mga bot sa isang "sandbox" kung saan ito ay ganap na pinaghahatian ng maling data.

"Ang mga ito talaga ang pagmimina ng data - ito ay patay na lang," sabi ni Crowder..

Iba pang mga opsyon ay kasama ang pagdikta sa bisita ng Web site na may isang hamon o gawain, na kung saan ang ilang mga bot ay hindi kaya ng pagkumpleto.

Ang pagmimina ng data ay nagkakahalaga ng mga kumpanya ng mahal. Ang mga kumpanya na nagbebenta ng data ng premium ay makakahanap na ang kanilang kakumpitensya ay bibili ng isang subscription at pagkatapos ay gamitin ang mga awtomatikong bot upang magnakaw ng data para sa kanilang sariling mga site. Sa isang halimbawa, ang isang Web site na may gigabytes ng data sa ginamit na mga presyo ng kotse ay natagpuan na ang kanilang data ay na-scrap na at para sa pagbebenta sa eBay.

"Ang mga ito ay aktwal na nakikipagkumpitensya sa kanilang sariling nilalaman," sabi ni Crowder. Ang mga web site ay may mga mahihirap na disenyo na gumagawa ng pag-scrap ng data na mas madali. Ang ginamit na site ng kotse ay may mga URL (Uniform Resource Locators) na maaaring sunud-sunod na binago upang ibunyag ang higit pang data, Sinabi ni Crowder.

Ang module ng pagmimina ng data ay balot sa produkto ng HumanPresent para sa ngayon, ngunit maaga sa susunod na taon ang plano ng Pramana na ibenta ito hiwalay, sinabi ng Crowder. Ang Pramana ay nag-aalok ng HumanPresent alinman bilang isang in-premise na appliance o bilang isang software-bilang-service-configuration.

Para sa SaaS (software bilang isang serbisyo), ang teknolohiya ng Pramana ay isinama sa isang Web application at ang impormasyon ng session ay ipinadala pabalik sa Pramana para sa pagtatasa. Sinabi ng Crowder na ang Pramana ay maaaring makabuluhang bawasan ang latency time sa pinakabagong bersyon nito. Para sa mga customer na nangangailangan ng karagdagang bilis, ang appliance ay magagamit.