что такое рутрекер простыми словами
Что такое Rutracker.org?
Весь контент сайта рассортирован на множество категорий:
На сайте есть регистрация пользователей, но также есть раздачи с магнет-ссылками, которые разрешено скачивать без регистрации.
У «Рутрекера» есть собственная wiki-энциклопедия об устройстве ресурса и советами по скачиванию торрентов. Кроме того, существует пользовательская база раздач RuTracker.org в формате csv (весь список разбит по файлам и категориям).
В 2006 году все порнографические материалы с Rutracker были перенесены на отдельный ресурс Pornolab.net. На данный момент на Pornolab.net число зарегистрированных пользователей насчитывает 3 281 320 человек, число раздач 613,449. Общее число скачиваний равняется 1 083 954 994.
Основным источником дохода владельцев «Рутрекер» является баннерная реклама. В январе 2016 года по требованию Роскомнадзора операторы связи ограничили доступ к «Рутрекеру». На тот момент действия ведомства сократили аудиторию ресурса на 13%. После «вечной блокировки» ресурс прекратил сотрудничать с правообладателями.
Раз сайт заблокирован целиком, то и оснований для жалоб нет. На территории России сайт неработоспособен и нарушать чьи-то права не может по определению.
Для многих пользователей «Рутрекер» не просто площадка для обмена файлами, но и место, где можно пообщаться по интересам. В январе 2018 года представители торрент-трекера RuTracker предложили пользователям создавать персональные «зеркала», которые помогут избежать блокировок.
На данный момент все официальные зеркала «Рутрекера» заблокированы:
Быстро обойти блокировку «Рутрекера» можно с помощью бесплатного расширения «Доступ к Рутрекеру» для браузеров Google Chrome, Mozilla Firefox, Opera, «Яндекс.Браузер» и Safari. Расширение можно установить всего за несколько кликов.
Интерфейс расширения очень простой (одна кнопка On/Off), поэтому пользователям не нужно что-то дополнительно настраивать.
Помимо того, обойти блокировку и получить доступ к «Рутрекер» можно с помощью VPN или браузера Tor.
Торренты попали под раздачу Путь RuTracker: от народной славы до пожизненной ссылки
Мосгорсуд 9 ноября вынес решение о пожизненной блокировке сайта rutracker.org на основании иска издательства «Эксмо». «Лента.ру» вспоминает, как RuTracker стал символом пиратства, и разбирается в возможных вариантах развития событий.
Почему это важно
Rutracker.org — крупнейший российский торрент-трекер. По данным компании, на нем находятся более 1 миллиона 600 тысяч активных раздач, а согласно сервисам статистики его ежемесячно посещают 13 миллионов пользователей. Половина из них — из России: торрент входит в двадцатку самых популярных сайтов в РФ.
Материалы по теме
Бесконтрольная связь
Если вступит в силу решение суда, пользователи не получат доступ не только к контенту, в лицензионности которого сомневаются правообладатели, но и ко всем остальным файлам, используемым сервисом: например, любительскому видео и музыке. Технология торрентов позволяет быстро распространять файлы объемом несколько гигабайт, но только при участии большого количества пользователей. Она законна, поэтому некорректно ставить знак равенства между пиратством и технологией.
Появление торрентов
Приход в Россию в середине 2000-х годов кабельного доступа позволил пользователям переключиться с модемных 56 килобит в секунду на мегабитные скорости — открылась возможность быстро загружать картинки и другие многомегабайтные файлы и даже смотреть видео онлайн (причем еще до YouTube).
Однако оказалось, что многие сайты не способны отдавать файлы со скоростью выше нескольких десятков килобайт в секунду. Проблема была решена компанией BitTorrent. Одноименная технология позволяла разделять файл на «кусочки», раздавать их пользователям, а на центральном сайте только хранить адреса — где какой кусочек находится — в виде торрент-файлов.
Сайты, хранящие информацию о размещении торрент-файлов, называются торрент-трекерами. Чем больше у них онлайн-пользователей с «кусочками», соответствующими запрошенному файлу, тем выше скорость скачивания c них. Увеличение пользователей у торрент-сайтов повышало их популярность — в результате конкурентной борьбы образовалось несколько лидер ов.
Путь к популярности
Первоначальная причина посетить тот или иной торрент-сайт одна: наличие на нем нужного контента — фильма, программы, книги. Часто нелицензионных или пиратских. Параллельно со скачиванием контента запускался процесс его раздачи. Чем больше пользователь раздавал, тем больше мог скачать — такой своеобразный рейтинг привязывал пользователя к сайту.
RuTracker стал популярным в конце 2000-х (тогда он назывался torrents.ru) — за счет того, что начал свою работу еще в 2004 году и имел широкий ассортимент контента.
В 2008 году сайт занял пятое место в народном голосовании Премии Рунета. В 2010-м он насчитывал четыре миллиона ежемесячных посетителей, и на нем происходил миллион раздач.
Однако размеры ресурса привлекли к нему внимание судебной власти, а широкий ассортимент — к первой блокировке.
Первая блокировка
Наиболее известная версия «антипиратского закона» была принята в 2013 году, но ресурсы с нелицензионным контентом блокировались и ранее. По решению следственного отдела прокуратуры по Чертановскому району города Москвы 18 октября 2010 года было снято делегирование домена для сайта torrents.ru. В связи с чем это произошло — объявлено не было, однако подобные сервисы регулярно сталкивались с претензиями по поводу авторских прав на размещенные материалы.
Материалы по теме
То, что нельзя
Обычно проблемы решались без привлечения правоохранительных органов — путем удаления нелегального контента, но к 2010-м годам скачивание нелицензионного контента через торренты приобрело мировые масштабы. Например, в 2011 году Торговое представительство США впервые в своей истории опубликовало список ресурсов, которые потворствуют пиратству и угрожают интересам правообладателей во всем мире. Из российских сайтов в списке нашлись как раз RuTracker и социальная сеть «ВКонтакте».
После потери российского домена torrents.ru переехал на rutracker.org, делегирование которого не могли прервать российские организации. Серверы с данными сохранились, поэтому ресурс даже сохранил рейтинги пользователей, однако на нем уменьшилось количество программ известных производителей — времена пиратской вольницы уходили в прошлое.
Старые проблемы с новым именем
13 ноября 2012 года ресурс включили в черный список Роскомнадзора, но не за пиратский контент, а за пропаганду самоубийства — раздачу «Энциклопедии суицида». Регулятор планировал заблокировать доступ только к странице с этим материалом, но особенности оборудования большинства операторов могли привести к полной недоступности ресурса. Страница с этой раздачей была удалена с RuTracker, ресурс снова стал полностью доступен.
С 1 августа 2013 года вступил в силу «антипиратский закон», предусматривающий блокировку ресурса за размещение нелицензионных фильмов и сериалов по решению Мосгорсуда. Пятого сентября было вынесено решение об обеспечительной блокировке. В декабре 2013 года rutracker.org был заблокирован, однако через несколько дней Роскомнадзор уточнил, что блокировке должен быть подвергнут другой ресурс — rutracker.ru, доступ к rutracker.org был восстановлен.
«Контрольный в голову» от Донцовой
Законодательная мера отразилась на содержании многих трекеров, включая RuTracker. На этих сайтах пропали раздачи свежих фильмов — появление торрент-файлов с доступом к нелицензионным новинкам крупных кинокомпаний грозило судебным иском и блокировкой сайта.
C 1 мая 2015 года действие закона было расширено на книги, музыку и программное обеспечение. Исключение составили только фотографии. В соответствии с законом правообладатель имеет право потребовать заблокировать сайт с нелегальным контентом, а затем в течение двух недель подать иск о защите авторских прав. Удовлетворив два иска правообладателя против одного и того же ресурса, при третьем разбирательстве суд может вынести постановление о вечной блокировке сайта.
Правообладатели подали несколько исков к RuTracker, однако обычно проблему удавалось решить, удалив спорный контент. 14 октября администрация торрент-трекера RuTracker встретилась с правообладателями — Национальной федерацией музыкальной индустрии (НФМИ), ООО «Юниверсал Мьюзик» и «Эксмо», выдвинувшими к площадке иск о пожизненной блокировке. Мероприятие проходило в присутствии представителей Роскомнадзора, которые сообщили, что возможно заключение досудебного соглашения. Однако 28 октября стало известно, что переговоры ресурса с правообладателями об урегулировании в досудебном порядке зашли в тупик.
В результате 9 ноября Мосгорсуд вынес решение о вечной блокировке сайта rutracker.org за размещение нелицензионных копий книг Дарьи Донцовой и Александра Громова.
Что будет с RuTracker
Если ресурс удалит контент, признанный противоправным, решение о вечной блокировке может быть снято. Роскомнадзор не стремится принять репрессивные меры и старается помочь владельцам торрент-трекеров и правообладателям найти компромисс. Глава этого ведомства Александр Жаров на Russian Interactive Week 2015 призвал пиратов «переходить на сторону света».
Однако администрация ресурса прервала переговоры с правообладателями: «Нам были вручены списки из огромного количества (несколько миллионов) артистов, альбомов и композиций с ультимативным требованием удалить все, что находится в этом списке, и впредь блокировать появление любой из этих композиций, альбомов или артистов на RuTracker. В противном случае НФМИ будет настаивать на блокировке RuTracker на территории РФ через суд». Однако, по мнению руководства ресурса, это возможно сделать только с помощью ручного труда и требует огромных ресурсов, при этом будет удалено множество раздач, не попадающих под лицензионные требования.
Ранее, 29 октября, RuTracker открыл голосование, предложив пользователям выбрать, что они предпочтут: закрытие ресурса или удаление большого количества раздач с него. На данный момент две трети пользователей голосуют за прекращение работы сайта на таких условиях.
Примеры других ресурсов
На угрозу блокировки сайты реагируют по-разному. Например, основатель Wikipedia в категоричной форме заявил, что предпочтет прекращение доступа к ресурсу корректировке его содержимого, однако через некоторое время оказалось, что требуемые страницы отредактированы. Как объяснил менеджмент ресурса, «самими пользователями».
Владелец сайта lurkmore.com предпочел блокировку сайта. Однако доступ к нему прекращен только на территории России, через прокси-серверы в других странах он по-прежнему возможен. В случае с торрент-трекером такой подход может привести к падению скорости передачи информации.
Также чреват снижением производительности и доступ к сайту через анонимную сеть Tor, на который перешел ресурс «Флибуста» после объявления о его блокировке.
Наконец, RuTracker может снова поменять название сайта. Однако теперь правообладатели и регулятор готовы к подобным действиям — скорее всего, тут же будут поданы иски в судебные органы, и в течение месяца принято решение о закрытии «зеркала». Также Роскомнадзор может самостоятельно принять решение о блокировании ресурсов, дублирующих внесенный в «черный список».
Время пиратов заканчивается, и добропорядочным ресурсам придется выполнять требования правообладателей, в частности — ввести технологию «цифрового отпечатка», предотвращающую повторную загрузку контента, признанного нелегальным. И если не произойдет тектонических сдвигов в российском и международном законодательстве, доступ к любительским копиям лицензионного контента будет все больше усложняться.
Что означает вечная блокировка Rutracker и как на нее отреагировал интернет
Месяц назад Мосгорсуд вынес решение о пожизненной блокировке Rutracker.org, и уже со следующей недели доступ к ресурсу на территории России будет закрыт. «Афиша» тем временем разобралась, как интернет отреагировал на блокировку и что пользователям сайта делать дальше.
Борьба с «неугодными» ресурсами в России продолжается. Если в 2012 году реестр запрещенных сайтов насчитывал не более двухсот ресурсов, то в 2015 году эта цифра увеличилась до 20 000. Во многом эти цифры связаны с активной борьбой издательств и крупных правообладателей за свои права.
Последней громкой блокировкой в этой цепи стал Rutracker.org, который не смог договориться с «Эксмо», Национальной федерацией музыкальной индустрии и Warner Music Russia. Из-за чего Мосгорсуд 9 ноября вынес решение о пожизненной блокировке ресурса. Администрация сайта обжаловать решение не собиралась. Напротив, владельцы и пользователи контента уверены в повышении посещаемости сайта, несмотря на то, что, по прогнозам «Роскомсвободы», посещаемость ресурса незначительно уменьшится.
В середине ноября пользователи Rutracker.org встали на защиту ресурса и устроили интернет-протест. Так пользователи соцсетей начали активно распространять по сети спойлеры на романы Дарьи Донцовой. Как известно, именно издательство «Эксмо» поставило точку в вопросе о распространении романов на раздачах трекера. Несмотря на то что автор детективов не имеет отношения к иску издательства, сообщения о том, кто оказался убийцей в конце детективных историй, разошлись очень активно. Создатель акции, блогер и эсэмэмщик, Евгений Черняков рассказал «Афише», что публикация спойлеров — это социальный эксперимент. Такой ответ на блокировку «Рутрекера» он называет местью: «Стало не по себе, оттого что такие ресурсы блокируют не из-за культовых блокбастеров или платиновых альбомов, а из-за легковесных детективов, которые интернет-аудитория уже миллион раз обсмеяла. Кто их вообще оттуда скачивал?» Его акцию подхватили около 20 000 пользователей.
С другой стороны, говоря об авторских правах, мы понимаем, что недовольство издательств и авторов связаны с потерей выгоды и продаж интеллектуальной собственности, какой бы качественной она ни являлась. Дмитрий и сам соглашается с тем, что «Рутрекер» был все это время где-то по ту сторону закона. По его словам, пока «Рутрекер» и «Лурк» «спокойно теряли популярность, появлялись средства доставки платного, но удобного контента». Но никто не запрещал пользователям обходить блокировки. На этот счет также высказывается Tarantinych, администратор сайта Rutracker: «К Роскомнадзору я лично без претензий, они просто делают свое дело. Не очень все это умно со стороны правообладателей. «Рутрекер» всегда очень лояльно к ним относился и удалял раздачи. У правообладателей есть даже специальные аккаунты. Пользователей эта ситуация устраивала, так как «Рутрекер» оставался крупнейшим файлообменным ресурсом рунета, и закрытие раздач на нем серьезно снижало скачиваемость материала в целом. С закрытием «Рутрекера» сразу появится несколько других трекеров, уже совсем не лояльных. А также усилят свои позиции уже действующие ресурсы. Контролировать распространение материалов станет куда сложнее. Это не «прибить» одну раздачу на «Рутрекере», а пытаться блокировать десятки враждебных ресурсов».
Блокировки, как говорит Tarantinych, — это вчерашний день, их можно обходить, потратив небольшое количество времени. По его словам, блокировка именно «Рутрекера» будет иметь большие последствия для рунета. Миллионы людей научатся обходить блокировки, и это будет серьезный шаг к полностью свободному интернету. Блокировка любого ресурса будет не столь значима. Каждый второй будет пользоваться «Тором», а значит, блокировка определенного ресурса для пользователя будет незаметна. На вопрос о том, почему пользователь до сих пор не делает этого, несмотря на доступную и открытую информацию в интернете, Tarantinych отвечает: «У меня 90% знакомых ничего не знают о торрентах! И качают музыку с каких-нибудь «зайцев» или из «ВКонтакте», смотрят потоковое видео, а не качают качественные рипы. Таких людей, конечно, на «Рутрекере» нет. Все они более-менее разбираются в технических вопросах и вполне в состоянии освоить еще один прием. Сейчас этого не делают, потому что и серьезной причины разбираться в этом не было. Закрыли «лурочку» — не страшно, обойдемся без шутеек. Это не критично для обычного человека и не заставит его срочно искать пути обхода. А вот доступ к почти неограниченной базе контента заставит. Самой большой в рунете и одной из самых больших в мире — это дело другое. Тут люди уже могут задуматься. По крайней мере я на это очень надеюсь. Если перетащим после закрытия хотя бы половину активных пользователей за первые 2–3 месяца, то это будет победа. Ресурс выстоит, и остальные потихоньку тоже вернутся». Пока «Рутрекер» до 9 декабря остается в рабочем состоянии, на сайте можно найти и скачать сформированную для пользователей полную базу из всех имеющихся на ресурсе раздач, которая составила всего 4,7 ГБ.
Все, что связано с шумихой вокруг блокировки, сыграет только на пользу, объясняет администратор Rutracker.org. Протест пользователей и их активная позиция позволит повысить внимание, а за счет этого популярность ресурса.
Другой эксперт по блокировкам, Нариман Намазов, владелец российского имиджборда «Двач», отдельные разделы которого занесены в реестр, рассказал «Афише», что Роскомнадзор продолжает предъявлять претензии к материалам, привязывая жалобы к тематике суицида. Намазов считает, что активная поддержка пользователей в целом никак не повлияет на ситуацию. «На «Дваче» устраивали набеги на почту Роскомнадзора, заваливали их сообщениями о разблокировке. Общественное мнение на самом деле важная штука! Важно его использовать во благо, а не во вред самим себе. Список претензий к «Рутрекеру» был из 300 000 наименований. Поэтому, на мой взгляд, было бы лучше всего призвать бойкотировать продукцию издательств, которые влияют на блок таких ресурсов». Число пользователей, по словам владельца имиджборда, узнавших, как пользоваться обходом блокировок, выросло, но среднестатистическому пользователю, количество которых превышает аудиторию подобного контента, это не нужно. Торренты имеют свою аудиторию, которая продолжает пользоваться сайтом, несмотря на блокировки: «С торрентами на Западе боролись жестче, закрывая им домены, прикрывая хостинги, тем не менее, они выжили. Обычная блокировка тоже основные популярные торренты не затронет, потому что они не приносят большой прибыли и поддерживаются для пользователей. Тем более с кризисом в стране потребность в бесплатном контенте будет только расти, поэтому и спрос на торренты и пиратскую продукцию будет выше».
Как обойти блокировку сайта
В случае, если отдельные страницы не открываются (но вы все-таки точно подключены к интернету), можно просто заменить адреса DNS-серверов в настройках сетевой платы на публичные серверы DNS от Google: 8.8.8.8 и 8.8.4.4. Дело в том, что когда провайдеру поступает сигнал о блокировке тех или иных ресурсов, он блокирует доступ к запрещенному сайту с помощью подмены IP-адреса на своем DNS-сервере. А публичные серверы Google независимы от этих правил. Инструкцию, как правильно прописать серверы, можно найти здесь.
Программа Тоr Browser, о которой вы наверняка слышали и про которую упоминал Tarantinych, — это бесплатный браузер, помогающий обходить любые блокировки. Программу можно скачать здесь или здесь, распаковать файлы и установить на своем компьютере.
Для защиты личных данных можно воспользоваться различными бесплатными VPN-сервисами. Программа будет бесплатной три месяца, в дальнейшем разработчики планируют создать платные пакеты услуг. Все просто: скачиваем программу и файл ключей, устанавливаем на ПК или мобильный гаджет, распаковываем файл ключей, запускаем и подключаемся к серверу, с проверкой своего IP.
Есть и специальные бесплатные приложения, разработанные под мобильныеустройства: TunnelBear или ProstoVPN, VPN Browser для iOS или Orbot для Android. При возникновении вопросов с настройкой приложений можно воспользоваться полной инструкцией на сайте.
Нетрадиционный способ использования сервисов перевода Google и Yandex. Нужно просто ввести в поле для перевода ссылку, нажать «Перевести» — и заблокированная страница сайта будет открыта в окне переводчика.
Умирает ли RuTracker? Анализируем раздачи
Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.
Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.
У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.
Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.
Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?
Я не поддерживаю пиратство в интернете и против него. Прибегаю к использованию торрентов только в случае скачивания open source продуктов.
Выбор данной темы вызван исключительно интересом к аналитике и big data.
Стэк – R, Clickhouse, Dataiku
Любая аналитика проходит несколько основных этапов: извлечение данных, их подготовка и изучение данных (визуализация). Для каждого этапа — свой инструмент. Потому сегодняшний стэк:
Ревью: Dataiku работает на линуксе и маке. Доступна бесплатная версия с ограничением пользователей до 3 человек. Документация тут.
Удивительно, но на русскоязычных ресурсах и даже на Хабре до сих пор нет ажиотажа или хайпа, если хотите, на тему неотразимости данной платформы. Возьмусь исправить сие недоразумение и прошу поздравить dataiku с почином.
Big Data – big problems
На руках сжатый xml–файл весом 5 Гб. Внутри – база всех раздач сайта rutracker.org, с самого начала его существования (2005 г.) и до ноября 2019 г. А это 15 лет!
Загрузить такой объем в R Studio – ха! Не вариант. Мы люди простые, ресурсы ограничены.
Значит нужна БД, дабы подключаться и делать запросы через R. Поскольку имеем дело с Big Data, выбираем Clickhouse и … не так быстро, у нас все еще xml–файл. Надо распарсить. И опять упираемся в ресурсы.
Тут на сцену выходит наш сегодняшний дебютант. Импортировать и подготовить такой объем в Dataiku DSS не проблема. Но у нас будет ограничение на отображаемый семпл – 10 000 строк. Просмотреть аналитику также можно только в рамках семпла. Но для парсинга нам достаточно, вполне. Лимит на семпл можно и поднять, документация для корректной работы советует не больше 200 000 строк.
Создаем проект, импортируем дату. Пару минут и сырые данные готовы к предобработке.
Получили данные разных форматов. Самые интересные: колонка content — с описанием каждого торрента в разметке форумного движка и несколько колонок в формате массива json.
Удаляем пока колонку content, для сквозного анализа она будет нам в тягость. Но к ней мы еще вернемся – там есть где закопаться.
Создаем recipe — правила предобработки. Из соответствующих колонок достаем информацию о торренте, загружаемом файле и форуме к которому он относится. Благо датайку позволяет нам парсить json массивы.
Форматируем дату регистрации торрента. Отмечу, ни строчки кода еще не написано, и это огромный + для dataiku.
Запускаем наш recipe, ждем полчаса — на выходе все красиво.
Забираем csv с чистой датой и импортируем в Clickhouse.
Простота и фантастическая скорость
Давайте протестируем Clickhouse и охватим наконец все 15 лет существования rutracker-a.
Сколько же торрентов в нашей базе?
Итого 1.5 млн торрентов и 25 млн строк. За 0.3 с! Попробуем запрос посложнее и понаблюдаем за скоростью.
Посмотрим, к примеру, сколько книжек нам доступно для скачивания.
300 тыс — читать не перечитать! Но согласитесь, там есть дубли. Раз уж на то пошло узнаем их суммарный вес.
Итог – мы охватили 25 млн строк менее чем за пол секунды. Приятно, не правда ли?
Добыча данных в R
Продолжим добывать данные уже в R. Подключим библиотеки, в часности DBI (для работы с БД). И установим соединение с Clickhouse.
Все, можно делать запросы и сразу же визуализировать. А благодаря dplyr можем легко обойтись и без переменных.
Так умирают ли торренты? Давайте посмотрим статистику их количества на rutracker.org по годам.
На каждом из графиков заметно просел 2016 год. Важно отметить, что в январе 2016 официально вступило в силу решение Роскомнадзора о блокировке rutracker.org для российских пользователей. Тогда в СМИ сообщалось о незначительном снижении посещаемости сайта, что коррелирует с нашей картиной.
Количество файлов последние года очевидно возрастает, при том что количество торрентов остается практически на одном уровне. Это значит, что на один торрент приходится все больше возможных расширений.
Пролить свет на данную картину нам поможет статистика ТОПа расширений за весь период.
И вот ответ. Очень существенно возросло количество картинок в торрентах. Они и влияют на рост количества файлов.
Давайте погуляем по разделам rutracker-a. Узнаем их суммарный вес и количество торрентов внутри.
Топ увесистых разделов вполне понятен и логичен. А вот антилидеры — Мобильные устройства и Иностранные языки — вероятно на торрентах умирают. Взглянув на распределение количества торрентов, мы в этом убедимся. Тут же, рядом расположился и раздел с Apple.
Уяснив ранее, что торренты с годами не умирают, у вас вероятно возник вопрос: а как же тогда время влияет на понятие торрент-трекера.
Тут мы можем использовать агрегацию по разделам и просмотреть тенденции за
Кино-пиратство на торрентах умирает — это факт. С ним за руку — Apple и мобильные устройства, которых почти и не видно.
При этом в последнее время явно возрастает количество игр и сериалов. Вероятно эта тенденция будет сохраняться.
Отойдя немного в сторону и взглянув на данные под новым углом, можно обнаружить еще пару скелетов Rutracker-a. Посмотрим-ка на тепловую карту ежедневного появления торрентов на rutracker.org.
Сразу бросается в глаза всплеск активности в 2017 году. (ред. В мае того года на GitHub было выложено приложение для борьбы с попытками российских властей замедлять скорость скачивания файлов). А вот блокировка сайта в 2016 году отнюдь не очевидна, т.к существенно не повлияла на активность добавления торрентов.
Закопаться можно и хочется в любую из найденных выше закономерностей. Добывать данные можно до бесконечности. А писать и читать статью – нет.
Давайте еще немного поиграем, вернем весьма информативную колонку content и посмотрим, что нам расскажут данные, к примеру, об аниме за последние 15 лет.
Её величество Dataiku
Создаем новую ветку, оставляем все видео файлы касательно аниме и парсим колонку с описанием торрентов: вытягиваем режиссера, страну, жанр, продолжительность и год выхода анимешки.
Отфильтруем картинки, субтитры и инфо-файлы. Также поднимем лимит отображаемого семпла. Пару кликов – все красиво.
Предлагаю взглянуть на года выхода наших анимешек и в тоже время потрогать удобнейшую функцию датайку – внутриколоночную аналитику.
Резюмирую: на rutracker.org доступно для скачивания аниме, снятое за последние пол века Если быть точнее, уникальных годов выпуска — 60. При этом наиболее продуктивными оказались 2009 — 2014 года.
Платформа также позволяет моментально визуализировать данные. И при этом, напомню, никакого кода. Просто выбираем нужные фильтры.
К примеру, агрегируем Японию и возьмем топ самых продуктивных режиссеров. Получаем тепловую карту их активности простым перетаскиванием переменных.
К чему я веду, dataiku — отличный инструмент для аналитика любого уровня. Импорт, подготовка, анализ и визуализация данных реализуется как кодом (R, Python), так и кликаньем мышки. Но это уже совсем другая история и отличная тема для следующей статьи.
А пока, возвращаясь к RuTracker, констатируем: торренты не умирают, даже в условиях блокировок. Сама же база раздач невероятно емкая и может ответить еще не на один вопрос. Могу пообещать сделать больше аналитики, при проявленном интересе. Предлагайте свои гипотезы в комментариях.
UPD: В ответ на один из комментариев, опишу детальнее этап формирования recipe в dataiku.
Условно, приведенный в данной статье recipe, можно разделить на две части: подготовка данных для анализа в R и подготовка данных об аниме для анализа непосредственно на платформе.
Состоит из блоков парсинга json-колонок и даты.
Блоки однотипны. Задаем колонку из которой нужно достать переменную и ее название.
Парсим и форматируем timestamp указав удобный формат.
Этап в основном состоит из фильтров, нацеленных на отбор только видео файлов, связанных с аниме. Также он содержит блок парсинга колонки content — Descr_Data.
С помощью regexp достаем данные о режиссере, стране, жанре, продолжительности и дате выхода аниме. Отмечу, что синтаксис regexp в dataiku немного специфичный и к нему нужно приловчиться.