Back to Question Center
0

Web Зачыстка З Semalt Expert

1 answers:

Вэб соскоб, таксама вядомы як вэб-нарыхтоўкі, з'яўляецца метад, які выкарыстоўваецца для вымання дадзеных з вэб-сайтаў. уборачнай праграмнае забеспячэнне Web можа атрымаць доступ да вэб-непасрэдна з дапамогай HTTP або вэб-браўзэр. У той час як гэты працэс можа быць рэалізаваны ўручную карыстальнікам праграмнага забеспячэння, як правіла, гэты метад цягне за сабой аўтаматызаваны працэс, рэалізаваны з выкарыстаннем вэб-шукальніка або лічынкі.

Вэб соскоб гэта працэс, калі структураваныя дадзеныя капіююцца з Інтэрнэту ў лакальную базу дадзеных для аглядаў і пошуку. Яна ўключае ў сябе выманне вэб-старонкі і здабывання яго змесціва. Змест старонкі можа быць разабрана, пошук, рэструктурызацыя і яго дадзеныя капіююцца ў лакальнае прылада захоўвання.

Вэб-старонкі, як правіла, пабудаваныя з тэкставых моў разметкі, такія як HTML, XHTML і, абодва з якіх утрымоўваюць вялікую частку карысных дадзеных у выглядзе тэксту. Тым не менш, многія з гэтых сайтаў былі распрацаваны для чалавека канчатковых карыстальнікаў, а не для аўтаматызаванага выкарыстання. Гэта з'яўляецца прычынай таго, чаму было створана соскоб праграмнага забеспячэння.

Ёсць шмат метадаў, якія могуць быць выкарыстаны для эфектыўнага вэб-соскоб. Некаторыя з іх былі распрацаваны ніжэй:

1. Чалавечая капіяванне і ўстаўка

Час ад часу, нават самы лепшы інструмент выскрабанне палатна s не можа замяніць дакладнасць і эфектыўнасць ручнога капіявання і прыляпіць чалавека..Гэта ў асноўным ужываецца ў сітуацыях, калі вэб-сайты створаны бар'еры для прадухілення аўтаматызацыі машын.

2. Тэкст Pattern Matching

Гэта даволі просты, але магутны падыход, які выкарыстоўваецца для вымання дадзеных з вэб-старонак. Гэта можа быць на аснове каманды Grep UNIX або проста рэгулярны выраз аб'екта дадзенага мовы праграмавання, напрыклад, Python або Perl.

3. HTTP-праграмаванне

HTTP-праграмаванне можа быць выкарыстана як для статычных і дынамічных вэб-старонак. Дадзеныя здабываюцца шляхам размяшчэння HTTP запыты на аддалены вэб-сервер, робячы выкарыстанне праграмавання сокетаў.

4. HTML-Сінтаксічны

Многія вэб-сайты, як правіла, маюць шырокі набор старонак, створаных дынамічна з ніжэйлеглай крыніцы структуры, такія як базы дадзеных. Тут, дадзеныя, якія адносяцца да падобнай катэгорыі кадуюцца ў падобныя старонкі. У HTML разборы, праграма звычайна выяўляе такі шаблон ў тым ці іншым крыніцы інфармацыі, здабывае яго змесціва, а затым перакладае яго ў партнёрскай форму, называюць у якасці абалонкі.

5. DOM сінтаксічнага аналізу

У гэтай методыцы, праграма ўбудоўвае ў паўнавартасны вэб-браўзэр, такі як Mozilla Firefox або Internet Explorer, каб атрымаць дынамічнае змесціва генераванага кліенцкага сцэнара. Гэтыя браўзэры таксама могуць аналізаваць вэб-старонку ў DOM дрэва ў залежнасці ад праграм, якія могуць здабываць частцы старонак.

6. Семантычны анатацый распазнання

Старонкі, якія вы збіраецеся драпаць можа ахопліваць семантычныя нацэнкі і анатацыі або метададзеныя, якія могуць быць выкарыстаны для пошуку канкрэтных фрагментаў дадзеных. Калі гэтыя анатацыі ўбудаваны ў старонках, гэты метад можна разглядаць як прыватны выпадак DOM разбору. Гэтыя анатацыі таксама могуць быць арганізаваны ў сінтаксічнай пласт, а затым захоўваюцца і кіруюцца асобна ад вэб-старонак. Гэта дазваляе скрабкі для атрымання схемы дадзеных, а таксама каманд з гэтага пласта да таго, як абрыўкі старонак.

6 days ago
Web Зачыстка З Semalt Expert
Reply