Semalt: 3 стъпки за изстъргване на уеб страница на PHP

Изстъргването в мрежата, наричано също извличане на уеб данни или събиране на уеб, е процесът на извличане на данни от уебсайт или блог. След това тази информация се използва за задаване на мета тагове, мета описания, ключови думи и връзки към сайт, подобрявайки цялостната му ефективност в резултатите от търсещата машина.

Две основни техники се използват за изстъргване на данни:

  • Разбор на документи - Той включва XML или HTML документ, който се преобразува във DOM (Document Object Model) файлове. PHP ни предоставя страхотно DOM разширение.
  • Редовни изрази - Това е начин за изстъргване на данни от уеб документите под формата на регулярни изрази.

Проблемът с данните за бракуване на уебсайт на трети страни е свързан с авторските му права, тъй като нямате разрешение да използвате тези данни. Но с PHP можете лесно да изстържете данни без проблеми, свързани с авторски права или ниско качество. Като PHP програмист може да се нуждаете от данни от различни уебсайтове за целите на кодирането. Тук сме обяснили как ефективно да получавате данни от други сайтове, но преди това трябва да имате предвид, че в края ще получите файлове index.php или scrape.js.

Стъпки1: Създайте формуляр за въвеждане на URL адреса на уебсайта:

На първо място, трябва да създадете формуляр в index.php, като кликнете върху бутона Изпращане и въведете URL адреса на уебсайта за записване на данни.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Въведете URL на уебсайта, за да изстържете данните

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Изпращане">

</ Форма>

Стъпки 2: Създайте PHP функция за получаване на данни за уебсайтове:

Втората стъпка е да създадете PHP функция scrapes във файла scrape.php, тъй като това ще ви помогне да получите данни и да използвате URL библиотеката. Той също така ще ви позволи да се свързвате и комуникирате с различни сървъри и протоколи без никакъв проблем.

функция scrapeSiteData ($ website_url) {

ако (! function_exists ('curl_init')) {

die ('cURL не е инсталиран. Моля, инсталирайте и опитайте отново.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, вярно);

$ output = curl_exec ($ curl);

curl_close ($ извиване);

върнете $ изход;

}

Тук можем да видим дали PHP cURL е инсталиран правилно или не. Три основни cURL трябва да се използват в областта на функциите и curl_init () ще помогне да се инициализират сесиите, curl_exec () ще го изпълни и curl_close () ще помогне за затваряне на връзката. Променливите като CURLOPT_URL се използват за задаване на URL адреси на уебсайтове, които трябва да изтрием. Вторият CURLOPT_RETURNTRANSFER ще помогне за съхраняването на изтритите страници в променливата форма, а не по подразбиране, което в крайна сметка ще покаже цялата уеб страница.

Стъпки 3: Изстържете конкретни данни от уебсайта:

Време е да се справите с функционалностите на вашия PHP файл и да изстържете конкретния раздел на вашата уеб страница. Ако не искате всички данни от конкретен URL адрес, трябва да редактирате използвайте променливите CURLOPT_RETURNTRANSFER и да маркирате секциите, които искате да изтриете.

ако (Isset ($ _ POST [ 'представя'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Последни публикации');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

ехо $ html;

}

Предлагаме ви да развиете основните познания за PHP и регулярните изрази, преди да използвате някой от тези кодове или да изстържете определен блог или уебсайт за лични цели.