Выскрабанне вэб-экрана: карысныя парады ад Semalt

У наш час дадзеныя могуць стаць вашым самым важным набыткам. Такім чынам, ніколі не з'яўляецца добрай ідэяй, каб ён праслізгваў у рукі вашых канкурэнтаў. Аднак часам бывае складана прадухіліць гэта з-за выскрабання экрана. Гэта метад, які гадамі выкарыстоўваецца для здабывання дадзеных з вэб-старонак.

Гэты метад ставіць перад кампаніяй дзве значныя праблемы. Перш за ўсё, дадзеныя могуць быць выкарыстаны для атрымання перавагі перад бізнесам, магчыма, заніжаючы цэны, а таксама атрымліваць інфармацыю пра прадукцыю. Акрамя таго, калі гэта будзе зроблена настойліва, тэхніка можа таксама знішчыць прадукцыйнасць сайта.

Наогул, выскрабанне экрана - гэта канцэпцыя, створаная праграмамі ранняй эмуляцыі тэрмінала пару дзесяткаў гадоў таму. Гэта праграмная тэхніка, якая здабывае інфармацыю з экранаў, прызначаных галоўным чынам для прагляду людзьмі. Праграма прыкідваецца чалавекам і чытае дадзеныя, збірае каштоўную інфармацыю і апрацоўвае яе для захоўвання.

Тэхніка значна развівалася на працягу многіх гадоў, асабліва з вынаходствам вэб-сканераў. Гэта развівалася яшчэ больш з развіццём экрана для электронных рознічных продажаў, напрыклад, сайты для параўнання цэн. Гэтыя вэб-сайты выкарыстоўваюць праграмы, якія перыядычна наведваюць папулярную электронную розніцу, каб атрымаць самыя свежыя цэны, а таксама інфармацыю аб наяўнасці дадзенага прадукту ці паслугі. Затым гэтыя дадзеныя захоўваюцца ў базе дадзеных і выкарыстоўваюцца для прадастаўлення параўнальных аглядаў ландшафту электроннай рознічнага гандлю.

Канкурэнтнае выскрабанне экрана аказвае розныя негатыўныя наступствы для ІТ-сістэм фірмы тым, што гэта проста яшчэ адзін прыклад непажаданага трафіку. Апошнія даследаванні даказалі, што па меншай меры 61% усяго трафіку генеруецца ботамі. Гэтыя боты спажываюць жыццёва важныя рэсурсы, а таксама прапускную здольнасць, прызначаную для сапраўдных карыстальнікаў Інтэрнэту, што можа прывесці да павелічэння затрымкі для рэальных кліентаў.

Выскрабанне экрана працягваецца даўно. Аднак толькі да нядаўняга часу ахвяры падобных паводзін пачынаюць рэагаваць. Некаторыя з іх заяўляюць пра несумленную дзелавую практыку і парушэнне аўтарскіх правоў, у адрозненне ад фірмаў, якія займаюцца выскрабаннем, абараняюцца, заяўляючы свабоду інфармацыі.

Шмат уладальнікаў сайтаў звяртаюцца да напісання палітыкі выкарыстання на сваіх вэб-старонках, якія забараняюць агрэсіўнае выскрабанне. На жаль, яны не могуць рэалізаваць гэтую палітыку, і таму, здаецца, праблема не знікае ў бліжэйшы час.

Гады таму eBay прадставіў API, які дазваляе добрым скрабкам атрымліваць доступ да вашых дадзеных. Аднак гэта не спыняе зламыснае збору інфармацыі, якая выкарыстоўваецца для канкурэнтнай перавагі. Адзіную сапраўдную абарону можна атрымаць, выкарыстоўваючы тэхналогіі, якія могуць блакаваць наведвальнікаў вашага сайта, якія не з'яўляюцца чалавекам. Гэта дазваляе рэальным карыстальнікам атрымліваць доступ да вашага сайта, адначасова блакуючы сканеры ад нанясення шкоды.

Іншыя эфектыўныя спосабы барацьбы з выскрабаннем экрана - гэта выкарыстанне такіх метадаў, як разведвальная рэпутацыя IP, падманвае выяўленне крыніц IP, аналіз паводзін і адказаў на паступленне, ацэнка ўзроўню пагрозы ў рэжыме рэальнага часу і прымяненне геаграфічнага месцазнаходжання.