О скрипте "Сталкер"

Идея скрипта родилась из попытки хоть как-то отследить изменения в русскоязычном гемини-сообществе. Не все из нас транслируют свои обновления в Антенну или ещё куда - кто по принципиальным соображениям, кто из скромности. Этот скрипт помогает тем, кто не хочет самостоятельно посещать каждую капсулу в поисках обновлений.

=> "Антенна" - агрегатор подписок, в основном англоязычных

Скрипт раз в сутки (в 6:00 утра по московскому времени - это 9 вечера по центральноамериканскому и час дня по владивостокскому) обходит все известные русскоязычные капсулы (список взят из Русского сообщества "Точка G") и формирует ежедневный отчет. Скрипт старается быть как можно менее назойливым - делает трёхсекундные задержки между запросами разных страниц одного сайта и по возможности избегает тяжелых нетекстовых файлов. Также мы уважаем файл robots.txt, если он есть.

=> Русское сообщество "Точка G" | О robots.txt на русском | О robots.txt на английском

В течение дня результаты работы скрипта могут модерироваться вручную. При этом удаляются артефакты работы скрипта: из двух одинаковых страниц (например, gemini://example.com/ и gemini://example.com/index.gmi) в отчете оставляем только одну; возвращаем страницы, которые скрипт удалил из индекса из-за сетевой ошибки; если в один день страница была удалена, а на завтра восстановлена - то считаем, что она не изменилась. Кроме того, если скрипт отказался скачивать какой-либо сайт (из-за изменений в файле robots.txt или превышения лимита количества страниц), то такой сайт докачивается ручным запуском скрипта.

Количество страниц русскоязычной гемисферы, указанное в начале каждого дня, не всегда можно использовать для сравнения дней между собой - они могут меняться не только из-за изменений в гемисфере, но также из-за изменения настроек скрипта и модерации. Если Вы заметили несоответствие - вероятно, я что-то где-то подкрутил :)

Если кто-то хочет добавить или удалить свою (или чужую) капсулу из списка для ежедневной проверки, заглянуть в исходный код или высказать своё мнение - пишите мне на мыло. Почтовый адрес совпадает с именем домена (stalker.shpakovsky.ru), только надо заменить первую точку (.) на собачку (@). 🐕

Полезные ссылки:

=> Исходный код скрипта на Github | Неисправленный результат работы последнего запуска скрипта | Лог последнего запуска со списком всех посещенных адресов | Список адресов, запрещенных роботу для посещения (вручную обновляемый аналог robots.txt)

Proxy Information
Original URL
gemini://stalker.shpakovsky.ru/about.gmi
Status Code
Success (20)
Meta
text/gemini; lang=ru
Capsule Response Time
130.455756 milliseconds
Gemini-to-HTML Time
1.1989 milliseconds

This content has been proxied by September (ba2dc).