Megogo запустит нейросеть для поиска запрещенного контента в библиотеке видеосервиса
Видеосервис Megogo запустит программу-робота на основе нейронной сети. Она будет распознавать четыре группы нецензурных слов из списка Роскомнадзора и производные от них, а также сцены курения, употребления алкоголя, секс, а в перспективе — сцены насилия
Megogo запустит в течение месяца нейросеть для распознавания контента, который запрещен законом. Программа-робот сможет распознавать мат, сцены курения и пьянства, секс и в будущем — сцены насилия, рассказал «Ведомостям» гендиректор видеосервиса Виктор Чеканов. В случае успеха работы нейроробота технологию предложат рынку.
Нейросеть должна проанализировать библиотеку Megogo, которая сегодня состоит из 35 000 тайтлов и более чем 700 000 единиц контента (с учетом всех эпизодов сериалов, доступных на видеосервисе), сообщил Чеканов. «Запуск робота – превентивная мера, цель — выявить контент с матом и указанными сценами, чтобы устранить возможные нарушения: запикать или проставить маркировку «18+», — рассказал глава Megogo.
Многозадачная нейронная сеть базируется на двух решениях. Это Vosk, автономный инструмент для распознавания речи с открытым исходным кодом, и система визуального распознавания на основе нейросети. Через год робот сможет сам идентифицировать запрещенный к распространению контент, но пока участие человека (тестировщиков и редакторов) в процессе необходимо, пояснил Чеканов. «Если технология успешно себя покажет, мы предложим робота рынку», — добавил гендиректор видеосервиса.
Роскомнадзор 11 ноября составил в отношении Megogo административный протокол за несвоевременное устранение нарушений — мат и секс в фильме «Никто не знает про секс». Он имел на видеосервисе маркировку «16+» вместо «18+». Этот фильм вышел в прокат в 2006 году.
Роскомнадзор разъяснил, что по федеральному закону «О защите детей от информации, причиняющей вред их здоровью и развитию» (вступил в силу в сентябре 2012 года) классификация информационной продукции должна осуществляться ее производителями и распространителями самостоятельно. То есть видеосервисы должны самостоятельно определять и при необходимости менять маркировку, если контент не соответствует предусмотренной действующим законодательством возрастной маркировке.
Гендиректор Института исследований интернета Карен Казарян считает, что идентификация мата в речи процесс легко автоматизируемый, но со сценами секса и насилия могут возникнуть проблемы. По его словам, роботы Google (владелец YouTube) и Meta (владелец соцсети Facebook), как правило, обучены на распознавание картинки или видео по наличию в них обнаженных тел и половых органов. «А в художественных фильмах в сценах секса половых органов, как правило, не показывают, и актеры не всегда снимаются в них полностью обнаженными», — отметил эксперт. Он добавил, что для модерирования контента с насилием все равно пока нужны люди.