«Коммерсантъ» узнал о блокировке сбора данных GPT-ботом на «Дзене»
VK указала роботу от OpenAI не собирать данные с контент-платформы «Дзен», выяснил «Коммерсантъ». В компании заявили, что заблокировали GPTBot для снижения нагрузки на серверы «Дзена». Технически робот может игнорировать соответствующую директиву в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов, пишет газета
Контентная платформа «Дзен» (владелец — VK) указала, что роботу GPTBot от OpenAI запрещено для сбора данных обходить ее страницы. Соответствующую директиву обнаружил «Коммерсантъ» в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов.
В декабре 2023 года подведомственный Роскомнадзору Главный радиочастотный центр рекомендовал хостинг-провайдерам заблокировать обращения GPTBot, пишет газета. GPTBot используется для сбора информации, которую OpenAI применяет для создания нейросетевых продуктов. Компания не предоставляет доступ к ним в России и заблокировала доступ к сайту для пользователей из России.
В пресс-службе VK сообщили, что заблокировали GPTBot для снижения нагрузки на серверы «Дзена». «Рекомендательная система «Дзена» — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 тысяч запросов в секунду», — рассказали в пресс-службе VK. Представитель компании объяснил решение не включать GPTBot от OpenAI в файл необходимостью «грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку».
«В «Дзене» регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам», — добавили в компании — владельце контент-платформы. Технически ничто не запрещает роботам игнорировать прописанные в файле robots.txt директивы — сам файл носит рекомендательный характер, отмечает при этом «Коммерсантъ».
В 2019 году проект Internet Archive, занимающийся созданием архивных копий веб-сайтов, заявил, что не будет следовать установкам из файла. Позднее, к 2022 году, проект отменил свое решение. Аналогичные роботы есть у «Яндекса» и Google, с помощью «обходчиков» поисковые системы поддерживают актуальные данные о сайтах.
Обе компании занимаются созданием и развитием собственных нейросетей. Они разрешают администраторам сайтов отказывать в обслуживании роботов, созданных для нейросетей (у «Яндекса» это YandexAdditional, у Google — Google-Extended), но не позволяют блокировать сайт от сборщиков информации для поисковой выдачи.