Семальт разрабатывает на URLitor - очень крутой инструмент веб-очистки и извлечения данных

URLitor - это новый, но эффективный инструмент для поиска и извлечения данных. Чтобы использовать URLitor, вам просто нужно добавить список всех URL-адресов, содержимое которых вы хотите очистить онлайн в предоставленном шаблоне. Затем вам нужно указать HTML-элемент, который вы хотите извлечь из веб-страниц, и нажать кнопку «Отправить». Это так просто. С этим инструментом вам больше не нужно копировать или вставлять из браузера.

xPath - это язык, который используется для поиска информации в файлах XML. Он использует определенные выражения для выбора наборов узлов или узлов в файлах XML. Выражения, которые понимает XPath, очень похожи на те, которые используются с обычными компьютерными файлами или документами.

Хотя XPath используется с несколькими языками программирования, этот инструмент был создан для пользователей, которые не имеют никаких знаний в области программирования. Таким образом, вам не нужно быть программистом, чтобы использовать его. С помощью этого инструмента вы можете извлечь данные из нескольких страниц HTML и XML.

Для простоты использования несколько часто используемых выражений XPath были предопределены в раскрывающемся меню, так что пользователям нужно будет только выбрать любое из них в зависимости от их цели. Тем не менее, опытные пользователи XPath могут свободно использовать свои собственные выражения в любое время.

Этот инструмент был разработан с возможностью 100 URL-адресов за один сеанс очистки, и он принимает максимум 10 выражений одновременно. Другими словами, он может собирать данные максимум с 100 URL-адресов за раз.

Некоторые важные пользовательские выражения XPath, которые можно изменить или добавить, описаны ниже:

1. // div [2] - это выражение выбирает второй div иерархически;

2. // link [@ rel = 'canonical'] / @ href - Это выражение выбирает местоположение (ref) тега, который используется для установки атрибута rel равным canonical;

3. / html / head / meta [@ name = 'description'] / @ content - это выражение используется для выбора контента;

4. // * [@ class = 'class-name'] - Вы можете использовать это выражение для выбора всех элементов с 'class-name' в качестве CSS-класса;

5. // h2 | // title - это выражение может использоваться для выбора как первого H2, так и заголовка страницы;

6. // * [name () = 'h1' или name () = 'title'] - это выражение работает точно так же, как и выше. Однако приведенное выше выражение лучше, так как оно короче;

7. // * [содержит (@class, 'thumb')] - это выражение выбирает каждый элемент, который имеет класс CSS, а также содержит «большой палец» для извлечения;

8. // parent :: * [text () = 'Welcome'] - это выражение выбирает родителя любого элемента с текстом 'Welcome';

Этот инструмент является бета-версией и все еще может работать с некоторыми ошибками. Тем не менее, он по-прежнему является отличным инструментом для пользователей, практически не обладающих знаниями в области программирования, поскольку все часто используемые выражения были предварительно определены в меню, как упоминалось ранее.

mass gmail