В ?нтернете есть больше информации, чем любой человек может поглотить в течение всей жизни. Вам нужен не доступ к этой информации, а масштабируемый способ ее сбора, организации и анализа.

Веб-парсер автоматически извлекает данные и представляет их в формате, который вы легко можете понять. В этой статье мы сосредоточим внимание на приложениях по финансовому рынку, но веб-парсер можно использовать в самых разных ситуациях.

Если вы заядлый инвестор, ежедневное закрытие цен может быть очень болезненным, особенно когда информация, которая вам нужна, расположена на нескольких веб-страницах. Мы упростим извлечение данных, создав веб-парсер для автоматического извлечения фондовых индексов из ?нтернета.

Начало

Мы будем использовать Python в качестве нашего языка скремблирования вместе с простой и мощной библиотекой BeautifulSoup.

Для пользователей Mac Python предварительно установлен в OS X. Откройте терминал и введите python -version. Вы должны увидеть, что ваша версия python - 2.7.x.

Для пользователей Windows, пожалуйста, установите Python через официальный сайт.

Затем нам нужно получить библиотеку BeautifulSoup с помощью pip, инструмента управления пакетами для Python.

В терминале введите:

easy_install pip
pip install BeautifulSoup4

Примечание. Если вы не выполнили вышеуказанную командную строку, попробуйте добавить sudo перед каждой строкой.

Основы

Прежде чем мы начнем прыгать в код, давайте разобраться в основах HTML и некоторых правилах парсинга.

HTML-теги

Если вы уже знаете HTML-теги, не стесняйтесь пропустить эту часть.

<Голова>

<Тело>

Первая скребка

Hello World
<Тело>

Это основной синтаксис HTML-страницы. Каждый <тег> служит блоку внутри веб-страницы:

1. : HTML-документы должны начинаться с объявления типа.

2. HTML-документ содержится между и .

3. Объявление мета и сценария HTML-документа находится между и .

4. Видимая часть документа HTML находится между тегами и .

5. Заголовки заголовков определяются тегами

через

.

6. Пункты определяются тегом
.

Другие полезные теги включают для гиперссылок, для таблиц, для строк таблицы и
для столбцов таблицы.

Кроме того, HTML-теги иногда имеют атрибуты id или class. Атрибут id указывает уникальный идентификатор HTML-тега, и значение должно быть уникальным в документе HTML. Атрибут class используется для определения одинаковых стилей для HTML-тегов с тем же классом. Мы можем использовать эти идентификаторы и классы, чтобы помочь нам найти нужные нам данные.

Дополнительную информацию о тегах HTML, id и классе можно прочитать в учебниках W3Schools.

Правила сортировки

Вы должны проверить условия использования сайта, прежде чем парсить его. Будьте осторожны, чтобы прочитать заявления о законном использовании данных. Обычно данные, которые вы парсите, не должны использоваться в коммерческих целях.

Не запрашивайте данные с сайта слишком агрессивно с вашей программой (также называемой спамом), так как это может сломать веб-сайт. Убедитесь, что ваша программа ведет себя разумно (т. е. действует как человек).

Один запрос на одну веб-страницу в секунду - хорошая практика, надо парсить сайты аккуратно, так будет лучше для вас и для владельцев сайтов.

Макет веб-сайта может время от времени меняться, поэтому обязательно перейдите на сайт и перепишите свой код по мере необходимости.

Проверка страницы

Давайте возьмем одну страницу с веб-сайта Bloomberg Quote в качестве примера.

Как кто-то после фондового рынка, мы хотели бы получить имя индекса (S & P 500) и его цену с этой страницы. Сначала щелкните правой кнопкой мыши и откройте инспектор вашего браузера, чтобы проверить веб-страницу.

Попытайтесь навести курсор на цену, и вы должны увидеть синюю рамку вокруг нее. Если вы щелкните по нему, соответствующий HTML-код будет выбран в консоли браузера.

?з результата мы можем видеть, что цена находится на нескольких уровнях HTML-тегов, что означает
?
?
и
.

Теперь мы знаем уникальное местоположение наших данных с помощью тегов классов.

Перейти в код

Теперь, когда мы знаем, где находятся наши данные, мы можем начать кодирование нашего веб-парсер. Откройте текстовый редактор прямо сейчас!

Во-первых, нам нужно импортировать все библиотеки, которые мы будем использовать.

# импорт библиотек
import urllib2
из bs4 import BeautifulSoup

Затем объявите переменную для URL страницы.

# указать URL-адрес
quote_page = 'http://www.bloomberg.com/quote/SPX:IND'

Затем используйте Python urllib2, чтобы получить HTML-страницу объявленного URL.

# запросить веб-сайт и вернуть html в переменную 'page'
page = urllib2.urlopen (quote_page)

Наконец, проанализируйте страницу в формате BeautifulSoup, чтобы мы могли использовать BeautifulSoup для ее работы.

# разобрать html, используя красивый суп и хранить в переменной `суп`
soup = BeautifulSoup (страница, 'html.parser')

Теперь у нас есть переменная, суп, содержащая HTML-страницу. Здесь мы можем начать кодирование части, которая извлекает данные.

Помните уникальные уровни наших данных? BeautifulSoup может помочь нам проникнуть в эти слои и извлечь контент с помощью find (). В этом случае, поскольку имя класса HTML уникально на этой странице, мы можем просто запросить
.

# Выньте
имя и получите его значение
name_box = soup.find ('h1', attrs = {'class': 'name'})

После того, как у нас есть тег, мы можем получить данные, получив его текст.

name = name_box.text.strip () # strip () используется для удаления стартового и конечного
имя печати

Точно так же мы можем получить и цену.

# получить индексную цену
price_box = soup.find ('div', attrs = {'class': 'price'})
price = price_box.text
цена печати

Когда вы запускаете программу, вы должны увидеть, что она печатает текущую цену индекса S & P 500.

Экспорт в Excel CSV

Теперь, когда у нас есть данные, пришло время его сохранить. Формат Excel Comma Separated Format - отличный выбор. Его можно открыть в Excel, чтобы вы могли легко просматривать данные и обрабатывать их.

Но сначала нам нужно импортировать модуль csv Python и модуль datetime, чтобы получить дату записи. Вставьте эти строки в свой код в разделе импорта.

импорт csv
from datetime import datetime

В нижней части кода добавьте код для записи данных в файл csv.

# открыть файл csv с добавлением, поэтому старые данные не будут удалены
с открытым ('index.csv', 'a') как csv_file:
writer = csv.writer (csv_file)
writer.writerow ([имя, цена, datetime.now ()])

Теперь, если вы запустите свою программу, вы можете экспортировать файл index.csv, который затем можно открыть с помощью Excel, где вы должны увидеть строку данных.

Поэтому, если вы запускаете эту программу каждый день, вы сможете легко получить цену индекса S & P 500 без перерывов через веб-сайт!

Далее (расширенное использование). Множественные индексы

Так что вам не хватает одного индекса, верно? Мы можем попытаться извлечь несколько индексов одновременно.

Сначала измените quote_page в массив URL-адресов.

quote_page = ['http://www.bloomberg.com/quote/SPX:IND', 'http://www.bloomberg.com/quote/CCMP:IND']

Затем мы меняем код извлечения данных в цикл for, который будет обрабатывать URL-адреса один за другим и хранить все данные в переменных данных в скобках.

# для цикла
data = []
для pg в quote_page:
# запросить веб-сайт и вернуть html в переменную 'page'
page = urllib2.urlopen (pg)

# разобрать html с помощью красивого мыла и сохранить в переменной `soup`
soup = BeautifulSoup (страница, 'html.parser')

# Выньте
имя и получите его значение
name_box = soup.find ('h1', attrs = {'class': 'name'})
name = name_box.text.strip () # strip () используется для удаления стартового и конечного

# получить индексную цену
price_box = soup.find ('div', attrs = {'class': 'price'})
price = price_box.text

# сохранить данные в кортеже
data.append ((имя, цена))

Кроме того, измените секцию сохранения, чтобы сохранить данные подряд за строкой.

# открыть файл csv с добавлением, поэтому старые данные не будут удалены
с открытым ('index.csv', 'a') как csv_file:
writer = csv.writer (csv_file)
# Цикл for
для имени, цены в данных:
writer.writerow ([имя, цена, datetime.now ()])

Перезапустите программу, и вы сможете одновременно извлекать два индекса!

Продвинутые методы парсинга

BeautifulSoup прост и удобен для мелкомасштабного веб-парсинга. Но если вы заинтересованы в парсинге данных в большем масштабе, вам следует подумать об использовании этих других альтернатив:

Попытайтесь интегрировать свой код с некоторыми общедоступными API. Эффективность поиска данных намного выше, чем парсинг веб-страниц.

Например, ознакомьтесь с API-интерфейсом Facebook Graph, который поможет вам получить скрытые данные, которые не отображаются на веб-страницах Facebook.

Рассмотрите возможность использования базы данных, такой как MySQL, для хранения ваших данных, когда она становится слишком большой.

Антон Гаген

?нформационное Агентство "Финансовый Юрист"

Новости

Все новости данной рубрики

Архив по рубрикам

Начало

через

Экспорт в Excel CSV

Далее (расширенное использование). Множественные индексы

Продвинутые методы парсинга