SeoGuru & Linux | Диалог персонажей

SeoGuru

Привет, Лин. Я тут копался, как можно с помощью opensource-инструментов реально раскрутить SEO для проектов. У тебя есть опыт работы с такими opensource-решениями для SEO, которые позволяют вовлечь комьюнити и при этом не терять в производительности?

Linux

Конечно! Поигрался с несколькими инструментами, которые сохраняют дух открытого кода и при этом реально помогают с SEO. Во-первых, **Screaming Frog SEO Spider** – он с открытым исходным кодом, развивается сообществом и отлично подходит для быстрого анализа сайтов и выявления проблем. Затем **Piwik PRO** (open-source версия Matomo) – для аналитики, он уважает приватность и позволяет глубоко изучать эффективность поисковых запросов, не отдавая контроль. Для автоматической оптимизации контента есть плагины **RankMath** и **Yoast SEO** – они тоже с открытым кодом, и сообщество постоянно добавляет новые фишки для работы со структурированными данными, sitemap и отслеживанием ключевых слов. Все это позволяет настраивать производительность, проводить тесты и держать код под контролем сообщества, получая лучшее из обеих сторон. Дай знать, если захочешь поглубже разобраться в чем-то из этого!

SeoGuru

Отличный подбор! Просто небольшое уточнение: Screaming Frog – это платный инструмент с бесплатной версией, а не полностью открытый. Зато у него довольно развитая экосистема плагинов. Piwik PRO и его ядро Matomo – открытый исходный код, так что тут всё в порядке. А насчет плагинов, которые ты упомянул, и RankMath, и Yoast начинались как проекты с открытым исходным кодом, но теперь у них есть платные версии. Если тебе важно, чтобы всё было полностью сообществом, я бы посоветовал использовать Matomo вместе с открытыми краулерами, типа Xenu, или даже написать небольшой скрипт на Python с использованием Scrapy. Дай знать, какой аспект тебя больше интересует – краулинг, аналитика или оптимизация контента, и я могу углубиться в детали.

Linux

Давай сначала разберёмся с краулером. У меня такое ощущение, что Scrapy позволит нам создать легковесный и удобный для сообщества движок, который при этом будет справляться с производительностью. Мы сможем его настроить, чтобы он собирал структурированные данные, находил битые ссылки и сразу передавал результаты в Matomo для аналитики. Как тебе?

SeoGuru

Звучит неплохо. Асинхронные запросы Scrapy поддерживают скорость обхода, а для извлечения JSON-LD, RDFa или Microdata можно использовать миддлвары в один проход. Для проверки на битые ссылки достаточно простой пайплайн, который проверяет URL и логирует коды статуса. События можно отправлять в Matomo через HTTP API, чтобы панель мониторинга обновлялась в реальном времени. Только не забудь ограничить скорость запросов по доменам, чтобы не быть навязчивым, и подумай об использовании планировщика вроде Celery, если тебе нужно запускать это ежедневно. Дай знать, если нужен шаблон для стартового проекта или пример кода пайплайна.

Linux

Привет, вот минимальный каркас, который ты можешь просто скопировать в новый репозиторий. **Структура папок** ``` scrapy-seo/ ├── scrapy_seo/ │ ├── __init__.py │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders/ │ ├── __init__.py │ └── seo_spider.py ├── run_spider.py └── requirements.txt ``` **requirements.txt** ``` Scrapy celery requests ``` **scrapy_seo/items.py** ``` import scrapy class SeoItem(scrapy.Item): url = scrapy.Field() status = scrapy.Field() json_ld = scrapy.Field() rdfa = scrapy.Field() microdata = scrapy.Field() ``` **scrapy_seo/middlewares.py** ``` from bs4 import BeautifulSoup class JsonLdMiddleware: def process_response(self, request, response, spider): soup = BeautifulSoup(response.text, 'html.parser') ld_json = soup.find_all('script', type='application/ld+json') response.meta['json_ld'] = [script.string for script in ld_json] return response class RdfaMiddleware: def process_response(self, request, response, spider): # Простая извлечение с помощью BeautifulSoup; замени на rdflib если нужно soup = BeautifulSoup(response.text, 'html.parser') rdfa = soup.find_all(attrs={'typeof': True}) response.meta['rdfa'] = [tag.get('typeof') for tag in rdfa] return response class MicrodataMiddleware: def process_response(self, request, response, spider): soup = BeautifulSoup(response.text, 'html.parser') micro = soup.find_all(attrs={'itemtype': True}) response.meta['microdata'] = [tag.get('itemtype') for tag in micro] return response ``` **scrapy_seo/pipelines.py** ``` import requests class StatusPipeline: def process_item(self, item, spider): item['status'] = item.get('status') or 200 return item class MatomoPipeline: def __init__(self, url, token): self.url = url self.token = token @classmethod def from_crawler(cls, crawler): return cls( url=crawler.settings.get('MATOMO_URL'), token=crawler.settings.get('MATOMO_TOKEN') ) def process_item(self, item, spider): payload = { 'idsite': 1, 'rec': 1, 'url': item['url'], 'ua': 'Scrapy', 'action_name': 'Crawl', 'token_auth': self.token, 'send': 1 } requests.post(self.url, data=payload) return item ``` **scrapy_seo/settings.py** ``` BOT_NAME = 'scrapy_seo' SPIDER_MODULES = ['scrapy_seo.spiders'] NEWSPIDER_MODULE = 'scrapy_seo.spiders' ROBOTSTXT_OBEY = True DOWNLOAD_DELAY = 1 ITEM_PIPELINES = { 'scrapy_seo.pipelines.StatusPipeline': 300, 'scrapy_seo.pipelines.MatomoPipeline': 400, } DOWNLOADER_MIDDLEWARES = { 'scrapy_seo.middlewares.JsonLdMiddleware': 543, 'scrapy_seo.middlewares.RdfaMiddleware': 544, 'scrapy_seo.middlewares.MicrodataMiddleware': 545, } MATOMO_URL = 'https://your-matomo-instance.com/matomo.php' MATOMO_TOKEN = 'your_api_token' ``` **scrapy_seo/spiders/seo_spider.py** ``` import scrapy from ..items import SeoItem class SeoSpider(scrapy.Spider): name = 'seo' allowed_domains = ['example.com'] start_urls = ['https://www.example.com'] def parse(self, response): item = SeoItem() item['url'] = response.url item['status'] = response.status item['json_ld'] = response.meta.get('json_ld', []) item['rdfa'] = response.meta.get('rdfa', []) item['microdata'] = response.meta.get('microdata', []) yield item for link in response.css('a::attr(href)').getall(): if link.startswith('http'): yield response.follow(link, callback=self.parse) ``` **run_spider.py** ``` from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings process = CrawlerProcess(get_project_settings()) process.crawl('seo') process.start() ``` Это дает тебе рабочий, легкий краулер, который извлекает структурированные данные, логирует коды статуса и отправляет отчеты о каждой странице в Matomo в режиме реального времени. Ты можешь подключить Celery к run_spider.py, чтобы запланировать ежедневные запуски, и настроить DOWNLOAD_DELAY или CONCURRENT_REQUESTS_PER_DOMAIN, чтобы оставаться вежливым. Удачи!

SeoGuru

Выглядит надёжно, отличный готовый вариант для копирования. Одна небольшая доработка, которая часто помогает – добавление собственного middleware для загрузчика, чтобы динамически учитывать robots.txt для каждого домена и установить ограничение параллельных запросов на домен. Ещё стоит обработать исключения в MatomoPipeline и логировать ошибки вместо того, чтобы просто их игнорировать. В остальном – всё готово для запуска полноценного, open-source SEO-краулера, который будет подпитывать Matomo данными в реальном времени. Приятного краулинга!

Linux

Спасибо за предупреждение — добавлю middleware, учитывающий роботов, и оберну вызов Matomo в try/except, чтобы логи были, если что-то пойдет не так. Отличная атмосфера open-source; продолжай развивать и делиться!

SeoGuru

Отлично, договорились. Только следи за ротацией логов, чтобы они не раздулись, и, может, добавь небольшую переигровку для отправки данных в Matomo, если будет 5xx ошибка. Удачи с кодом!

Linux

Понял, сделаю логи более лаконичными и добавлю повторную попытку для ошибок 5xx. Спасибо за совет, рад улучшать!