что такое капчу для яндекс
«Я не робот»: история Яндекса о том, как победить ботов, а не людей
Никто не любит капчу. Угадай слово по плохой картинке, собери пазл, отличи светофор от гидранта, сложи два числа и так далее. Формы бывают разные, но суть всегда одна: мы тратим своё время и нервы.
Чуть больше года назад моя команда взялась за модернизацию старой капчи Яндекса. Обычно в таких задачах стремятся повысить качество и полноту отсева ботов, оставив человеку шанс прорваться через капчу. Но мы зашли с другой стороны: решили сделать капчу более дружелюбной к людям, не ухудшив при этом защиту от ботов. Казалось бы, наивный подход. Но у нас получилось.
Сегодня я расскажу об этом подробнее. Вы узнаете, как мы отказались от распознавания текста и перешли к его генерации. Покажу примеры дружелюбной капчи. Расскажу о необычном опыте применения капчи в образовании. А ещё покажу текущий вариант капчи без капчи и немного поразмышляю о будущем.
Несколько слов о том, зачем нужна капча. Уверен, это и так не секрет, но историю всё же стоит начать с основ, чтобы быть на одной волне.
Капча — это инструмент, который помогает сервису понять, обратился к нему человек или робот. Это полезно, потому что роботы создают нагрузку или даже занимаются откровенным вредительством. При этом нужно показывать капчу не всем, а только тем, чьи запросы похожи на автоматические. Для этого надо проанализировать запрос. Анализ — это уже давно не просто подсчёт числа заходов с конкретного IP. Факторов для анализа намного больше, чем один. С другой стороны — сервис с нагрузкой в сотни тысяч RPS и с жёстким требованием к скорости ответа пользователю. Если снизить скорость ответа, то пострадают пользователи. Если снизить полноту выявления ботов, то в итоге опять же пострадают пользователи. Значит, нужно искать баланс между этими крайностями. И получается, всегда будут люди, которым покажут капчу.
Первые шаги
Год назад наши пользователи видели примерно такие задания:
Два слова. Одно мы знаем. Другое хотим узнать. Вряд ли я открою большой секрет, если расскажу, что капчу часто применяют для обучения компьютерного зрения. Раньше так было и у нас.
В целом ничего жуткого, да? Но могу и жути нагнать. Вот примеры более сложных (но крайне редких) вариантов:
Мы, конечно, такое вычищали. Использовали для этого как классификаторы неоднозначно читаемых картинок, так и данные о поведении пользователей (если человек даже не пытается ввести текст, то это плохой сигнал). Но и после таких изменений людям было очень сложно. Можно сказать, что старая капча отлично экономила ресурсы: её не могли пройти ни боты, ни люди. Только 35% реальных пользователей справлялись с первой попытки. Очень страшное число. Нужно было что-то менять.
Начали с анализа наиболее частых ошибок. В топе оказались знаки препинания, верхний и нижний регистр букв, лишние пробелы. Посчитали, как у ботов с этими проблемами. Оказалось, что можно безболезненно отказаться от их учёта при проверке результата. Эти элементарные, быстрые решения принесли нам с ходу +15%. Но дальше простые идеи закончились. Нужно было подойти к задачке более глобально.
Свои картинки с текстом
Поговорим о картинках. Так как их мы не генерировали, а вырезали из готовых, иногда там встречались очень необычные тексты. Их вы уже видели выше: это и перевёрнутые штрихкоды, и логарифмы. Их можно фильтровать с переменным успехом, но гибкости в работе с ними нет. Нельзя оперативно управлять сложностью, контролировать допустимый словарный запас, выбирать язык для разных стран. Если хочешь полностью контролировать качество капчи, то выход только один — генерировать картинки самостоятельно. Так мы и поступили.
Мы хотели создать капчу, которая будет существенно легче читаться людьми, но не ботами. На входе у нас есть какой-то текст и какой-то фон. Осталось понять, что нужно с ними сделать, чтобы добиться желаемого.
Наиболее эффектно, пожалуй, выглядит способ точечно искажать исходную картинку так, чтобы машина видела в ней совершенно не то, что видит человек.
Лёгкий шум превратил горы в собаку и рыбку в краба. Источник: https://arxiv.org/pdf/1710.06081v2.pdf
Но такой подход крайне чувствителен к изменениям алгоритмов распознавания на стороне роботов. Пришлось бы мониторить их особенно тщательно и слишком часто адаптироваться. Поэтому мы подошли более консервативно.
Задачу распознавания текста нейросетями сейчас решают хорошо, причём уже далеко не только лидер ы индустрии. Но трудные задачки по-прежнему встречаются. Наиболее сложные датасеты с распознаванием слов на сегодняшний день представляют собой сильно искривлённые тексты (irregular text recognition).
Это то, с чем человек справляется относительно просто. Но не робот. Этот подход мы применили и у себя. Пример такой капчи:
Выглядит проще, чем раньше? Наши пользователи тоже так считают: эту капчу легко преодолевают уже 85% пользователей. А вот ребятам, которые учатся обходить нашу капчу, работы прибавилось.
Скриншот с одного из «секретных» форумов об автоматизации
Конечно, со временем к ней адаптировались, но масштабы проблемы в итоге не больше, чем у старой капчи. При этом людям стало существенно проще.
Полезная и добрая капча
Успех с генерацией собственных картинок воодушевил нас. Мы осознали, что капче не обязательно быть исключительным злом в глазах пользователей. Она может быть такой, какой мы захотим её сделать. Например, полезной для людей.
Каждый октябрь в России отмечают День учителя. Мы решили отпраздновать его по-своему и с пользой. Собрали данные о том, в каких словах пользователи чаще всего делают ошибки. (Яндекс по понятным причинам неплохо в этом разбирается.) На базе этого словаря сгенерировали капчу, отметив те буквы, в которых люди ошибаются. Выкатили на огромную аудиторию. Ботам это ничем не помогло, а вот людям (хочется верить!) пользу принесло.
Другой пример работы с капчей, чуть ближе к концу 2020 года. Хотелось немного поднять пользователям настроение. Придумали использовать для генерации капчи не какие попало слова и фразы, а только те, что несут положительный эмоциональный заряд. Проще говоря, такие слова, которые как минимум не портят настроение ещё больше, а в идеале улучшают его.
Собрали данные с помощью толокеров. Сгенерировали. Получили капчу, которая содержала фразы «Приятных эмоций», «Вам всё по плечу», «Продуктивного дня» и подобные.
В общем, идей для работы с капчей много. Но нельзя забывать самую главную: лучшая капча — это та, которой нет.
Капча без капчи
Вернёмся в самое начало нашей истории. Там я рассказывал о том, что капчу предлагают только тем пользователям, чьи запросы в результате быстрого анализа показались нам подозрительными. Быстрый анализ отрабатывает примерно за одну (!) миллисекунду. Делать это дольше без вреда для высоконагруженного сервиса и миллионов пользователей нельзя. Это значит, что нужно использовать быстрые алгоритмы, а они не всегда самые точные. Из-за этого люди видят капчу. Как можно обойти это узкое место? Использовать промежуточный шаг!
Если быстрый анализ вынес вердикт о подозрительности запроса, то мы можем перенаправить его на страницу с капчей. Но саму капчу пока что не показывать. Потому что в этот момент у нас появляется время на второй, более глубокий и сложный анализ. Мы можем потратить намного больше, чем одна миллисекунда, а значит, спасти существенное количество наших пользователей от необходимости преодолевать пусть и не страшную, но всё же капчу.
Теперь это работает так. Если человеку не повезло попасть на страницу с капчей, то вместо капчи он видит предложение поставить галочку и подтвердить, что он не робот.
Пока пользователь ставит галочку, мы проводим дополнительный анализ с использованием более сложной ML-модели. Если всё хорошо, то возвращаем на сервис. Если «подозрительность» сохраняется, то показываем текстовую капчу.
И ещё кое-что важное. Переход от бинарных вердиктов (бот — не бот) на первом этапе к вероятностным («робот на N%») на втором позволяет нам управлять сложностью капчи! Если на втором этапе мы по-прежнему считаем запрос подозрительным, но степень уверенности в этом не такая высокая, то показываем простейшую капчу. А вот если мы уверены, что перед нами робот, то можем сложность и приподнять. Простое, но эффективное решение.
Несколько слов о значимости этого решения для людей. Выше мы радовались тому, что 85% (а не 35%, как было раньше) пользователей справляются с новой текстовой капчей с первой попытки. Но с галочкой «Я не робот» ситуация изменилась радикально: теперь более половины пользователей возвращаются в сервис вообще без необходимости разгадывать капчу! Вот такая вот капча без капчи.
За последний год мы прошли длинный путь, но идей на будущее от этого меньше не стало. Мы уже работаем над тем, чтобы получать более точные вердикты в реальном времени и без перенаправления на промежуточные страницы. И уже есть первые успехи. Один частный пример: теперь в Safari в режиме Инкогнито встретиться даже с галочкой «Я не робот» вероятность примерно в десять раз ниже, чем раньше. Кроме того, хотим пробовать новые, более добрые форматы капчи для тех случаев, когда без неё никак.
Формы капчи могут быть разные, но главное в том, чтобы относиться к людям по-человечески и уважать их время.
Защита от роботов
Для предотвращения несанкционированных обращений роботов к поиску используется алгоритм защиты. Если предполагается, что запрос задан роботом, вместо результатов поиска возвращается CAPTCHA (статья в Википедии про CAPTCHA).
Для использования алгоритма защиты от роботов партнер должен передавать сведения об IP-адресе и куке spravka автора запроса. Кука spravka формируется на стороне Яндекс.XML и возвращается при первом обращении пользователя за результатами поиска. В полученном значении партнер должен заменить домен на свой, а затем добавить следующую строку к поисковому ответу:
Сведения об IP-адресе и куке spravka передаются в заголовке запроса в формате:
Диаграмма последовательности действий, выполняемых для защиты от роботов, приведена на рисунке ниже.
Яндекс.XML инициирует выполнение алгоритмов защиты от роботов. Для проверки используются значения IP-адреса и куки spravka (если ранее выставлена).
Возможные результаты проверки:
Если введено корректное значение CAPTCHA, Яндекс.XML выставляет пользователю куку spravka и передает ее партнеру в заголовке следующего формата:
Если запрос, переданный в Яндекс.XML на шаге 1 был успешно сохранен, выполняется переход к шагу 12.
Проверка корректного отображения CAPTCHA
Следующий GET-запрос может быть использован пользователем «xml-search-user» для ознакомления с форматом ответа, возвращаемым в случае отображения CAPTCHA:
Защита от роботов
Для предотвращения несанкционированных обращений роботов к поиску используется алгоритм защиты. Если предполагается, что запрос задан роботом, вместо результатов поиска возвращается CAPTCHA (статья в Википедии про CAPTCHA).
Для использования алгоритма защиты от роботов партнер должен передавать сведения об IP-адресе и куке spravka автора запроса. Кука spravka формируется на стороне Яндекс.XML и возвращается при первом обращении пользователя за результатами поиска. В полученном значении партнер должен заменить домен на свой, а затем добавить следующую строку к поисковому ответу:
Сведения об IP-адресе и куке spravka передаются в заголовке запроса в формате:
Диаграмма последовательности действий, выполняемых для защиты от роботов, приведена на рисунке ниже.
Яндекс.XML инициирует выполнение алгоритмов защиты от роботов. Для проверки используются значения IP-адреса и куки spravka (если ранее выставлена).
Возможные результаты проверки:
Если введено корректное значение CAPTCHA, Яндекс.XML выставляет пользователю куку spravka и передает ее партнеру в заголовке следующего формата:
Если запрос, переданный в Яндекс.XML на шаге 1 был успешно сохранен, выполняется переход к шагу 12.
Проверка корректного отображения CAPTCHA
Следующий GET-запрос может быть использован пользователем «xml-search-user» для ознакомления с форматом ответа, возвращаемым в случае отображения CAPTCHA:
Заработок на капче в интернете: ТОП-5 лучших сайтов и сколько можно заработать
Здравствуйте, дорогие подписчики. Сегодня я расскажу еще про один простейший способ заработка в интернете, который не требует каких-то специфических навыков, а разобраться в нем сможет даже новичок. В этой статье вы узнаете про заработок на капче, а так же ТОП-5 лучших сайтов, которые позволят вам получить первые деньги удалённо.
Что такое капча и за что здесь платят деньги?
Капча – это тест, который позволяет определить, кем является пользователь: человеком или программой. Используется он чаще всего для защиты от компьютерных программ. В далеком прошлом отсутствие капч, позволяло злоумышленниками подбирать пароли и получать доступ к сторонним аккаунтам.
Как правило, капча состоит из букв или цифр, которые вам необходимо ввести на клавиатуре. Бывают капчи на которых нужно составить картинку в единое целое или подтвердить, то что вы человек а не робот. Все вы хотя бы раз сталкивались с ними.
Думаю теперь понятно, что такое капча, теперь я расскажу, за что же здесь платят деньги. А платят здесь, за то, что вы разгадываете эту самую капчу. Например, ваш покорный слуга часто платит специальным сервисам, о которых я напишу ниже, чтобы они сами разгадывали капчу. Таким образом, я экономлю свое время и даю возможность зарабатывать другим людям.
Плюсы и минусы
У каждого способа заработка есть свою как плюсы так и минусы. Далее я постарался описать наиболее заметные и значимые.
ТОП-5 лучших сайтов для заработка на капче
Теперь после того как вы узнали основные понятия а так же плюсы и минусы данного способа заработка. Я расскажу о самих сервисах, сначала как обычно списком, а потом опишу каждый из них более подробно.
1. Kolotibablo
Kolotibablo – это очень известный сервис по заработку на вводе капчи для исполнителей. Все капчи он получает с Anti-captcha, который сделан специально для заказчиков.
2. RuCaptcha
RuCaptcha – это еще один из самых популярных в сервисов Рунете, по заработку на вводе капчи. Для того чтобы начать зарабатывать, нужно зарегистрироваться и в правом верхнем углу выбрать вкладку “Я работник”.
3. 2Captcha
2Captcha — это англоязычная версия Рукапчи. Интерфейс полностью идентичен только на английском языке. Сервис полностью рассчитан на зарубежную аудиторию поэтому оплата здесь идет в долларах.
4. Капча от Advego
Капча от Advego – не все знают, но помимо заработка на копирайтинге, в Адвего есть возможность зарабатывать на распознавание капчи. Конечно, заданий пока не так много как на описанных выше сервисах, но тем не менее они есть. Для того чтобы посмотреть задания просто переходите в верхнем меню в разделе «Распознание капч».
5. MegaTypers
MegaTypers – это англоязычный сайт, который так же позволяет зарабатывать на разгадывание капч. Для регистрации укажите код: F8UQ. Сразу стоит сказать если будете переводить сайт со встроенным переводчиком сайт он будет отображаться с ошибками.
Сколько можно заработать
Думаю, вас наверняка интересует, сколько можно заработать на вводе капчи. В некоторых источниках пишут, что заработок начинается от 1 руб за капчу – не верьте это обман. В среднем за 1000 капч вы заработаете от 20-50 рублей.
Для того чтобы разгадать такое количество капч новичку нужно примерно – 2-3 часа. Получается за 2-3 часа, вы заработаете – 20-50 руб. Допустим, вы будете тратить на это по 4 часа в день, и таким образом ваш заработок составит от 40 до 100 руб в день. Итого работая по 4 часа в день, по самой минимальной ставке ваш доход составит:
40*30 (дней)= 1200 руб./в месяц
По-моему все лучше, чем в пустую просто просиживать штаны в социальных сетях. К слову сказать, опытный работник может заработать гораздо больше, поскольку он получает более прибыльные задания из за высокого рейтинга.
Как увеличить доход
Для того чтобы увеличить ваш заработок на вводе капчи дам вам несколько полезных советов:
Как вы уже, наверное, поняли из выше причисленного, много денег на капче вы не заработаете, но зато, если вы новичок и больше ничего делать не умеете, стоит попробовать. На этом все. Как всегда желаю вам море позитива и хорошего настроения.
Если данная информация была полезна для вас и вам понравилась статья про то, что такое капча и топ лучших сервисов, которые позволяют на ней зарабатывать. Пишите свои комментарии и предложения. С уважением Юрий, до встречи на страницах блога Iprodvinem.
Более 5 лет я работаю удаленно, занимаюсь рекламой и продвижением в интернете, создаю источники дохода онлайн. Люблю путешествовать, автоматизировать процессы и генерировать новые идеи. Изучаю иностранные языки, инвестирование, блогинг и продажу инфо-товаров.
С 2019 года активно занимаюсь развитием блога в интернете и создаю источники пассивного дохода, занимаюсь инвестициями. Постоянно развиваюсь в этой сфере и всегда стараюсь сделать продукт лучше, чем у конкурентов.
Блокировка сервиса и капча
Почему сервис заблокировали?
Сервис Яндекса может быть заблокирован, если на него поступает много похожих запросов от пользователей или программ. Например, если несколько человек пользуются каким-нибудь сервисом Яндекса с устройств, подключившихся к интернету с одного IP-адреса. В таком случае Яндекс принимает всех этих пользователей за одного и просит дополнительное подтверждение.
Почему после нажатия «Я не робот» мне предлагается ввести код?
Иногда подтверждения «Я не робот» недостаточно, чтобы отличить реального человека от программы. Мы постоянно работаем над улучшением алгоритмов, но иногда просим пройти дополнительную проверку.
Используйте строчные и прописные буквы. Знаки препинания и пробелы можно игнорировать.
Вместо символов с картинки можно ввести цифры из звуковой капчи:
Если символы введены верно, Яндекс запомнит ваш браузер как проверенный (при условии, что файлы cookie сохраняются в вашем браузере постоянно).
Если вам необходимо совершать именно автоматические запросы к Яндексу, воспользуйтесь сервисом Яндекс.XML.
Если вы долгое время не можете вернуться к сервису из-за дополнительных проверок, напишите об этом в cлужбу поддержки.
Как с моего IP-адреса может выходить в сеть кто-то другой?
Запросы, поступившие с вашего IP-адреса, не обязательно отправляются с вашего устройства. Интернет-провайдеры иногда объединяют нескольких абонентов под одним IP-адресом.
Если вы подключаетесь к общественной сети, например находитесь в кафе и выходите в интернет через Wi-Fi, то у вас один IP-адрес со всеми, кто пользуется той же точкой Wi-Fi.
Не вижу картинку капчи
Если после выбора опции «Я не робот» картинка капчи не появилась, посмотрите, виден ли логотип Яндекса в левом верхнем углу страницы:
Возможно, браузер блокирует отображение всех картинок:
Символы капчи неразборчивые
Если вы видите на картинке капчи неразборчивые символы:
Нет русской раскладки на клавиатуре
Используйте один из способов:
Написать в службу поддержки
Пожалуйста, обратитесь в службу поддержки этого сервиса напрямую. Для этого воспользуйтесь формой обратной связи в Справке этого сервиса (обычно формы расположены внизу страниц или доступны из оглавления). Так ваше сообщение сразу попадет к нужным специалистам, и вам ответят быстрее.
Чтобы сообщить о проблеме с вашим сайтом, перейдите в раздел Обратная связь справки Яндекс.Вебмастера.
Блокировка сервиса и капча
Почему сервис заблокировали?
Сервис Яндекса может быть заблокирован, если на него поступает много похожих запросов от пользователей или программ. Например, если несколько человек пользуются каким-нибудь сервисом Яндекса с устройств, подключившихся к интернету с одного IP-адреса. В таком случае Яндекс принимает всех этих пользователей за одного и просит дополнительное подтверждение.
Почему после нажатия «Я не робот» мне предлагается ввести код?
Иногда подтверждения «Я не робот» недостаточно, чтобы отличить реального человека от программы. Мы постоянно работаем над улучшением алгоритмов, но иногда просим пройти дополнительную проверку.
Используйте строчные и прописные буквы. Знаки препинания и пробелы можно игнорировать.
Чтобы сменить картинку капчи, нажмите значок .
Вместо символов с картинки можно ввести цифры из звуковой капчи:
Капча: что это такое простыми словами
Несомненно, что все пользователи Глобальной сети сталкивались с такой насущной проблемой, но не каждый знает о том, что это и есть так называемая капча. Так же не многим известно, что на английском CAPTCHA – это аббревиатура, которая в переводе на русский язык значит: полностью автоматизированный и общедоступный тест Тьюринга, чтобы отличить компьютер от человека.
Что такое капча
Из расшифрованной выше аббревиатуры уже можно понять, что такое капча, простыми словами –она определяет, является ли пользователь реальным или спам-роботом. Так, возможно, на некоторых сайтах, чтобы узнать цену СЕО-продвижения придётся для начала ввести проверочный код. Капча генерирует сочетания из различных букв, цифр и знаков, полагаясь на способность человека определять, какими на самом деле символами они являются.
Чтобы подтвердить цифровую транзакцию, используя систему капчи, пользователю предоставляется искаженное слово, обычно помещаемое поверх искаженного фона. Пользователь должен ввести слово в поле, чтобы завершить процесс. Компьютерам трудно декодировать искаженные слова, в то время как люди могут легко расшифровать текст.
Некоторые капчи теперь используют картинки вместо слов, где пользователю предоставляют серию картинок и спрашивают, что является общим элементом среди всех картинок. Вводя этот общий элемент, пользователь проверяет транзакцию, и компьютер знает, что имеет дело с человеком, а не с ботом.
Что такое капча при регистрации
Многие задаются вопросом, что такое капча при регистрации и зачем она нужна. Да, зачастую, мы можем встретить капчу при заполнении регистрационных форм. Например, Вы думаете о том, как найти человека по почте, для этого нужно зарегистрироваться. Это вполне нормально и безобидно. В таких случаях капча направлена на борьбу с ботами, которые создают множество учётных записей для рассылки спама.
На веб-сайтах по продаже билетов, также используется капча, чтобы не допустить чрезмерного приобретения билетов на большие мероприятия скальперами (сторонниками скоростной торговли/спекуляции). Это позволяет законопослушным клиентам покупать билеты справедливо и не дает скальперам размещать тысячи заказов.
Наконец, веб-страницы или блоги, содержащие доски объявлений, например, о стоимости разработки сайта-визитки, или контактные формы, используют капчу для предотвращения спам-сообщений или комментариев. То есть помогает избежать автоматическую публикацию сообщений ботами.
Неверная капча: что это такое
Рассмотрим, что такое неверная капча и чем она грозит. Неверная капча означает то, что при регистрации или при совершении любой другой операции Вы неправильно ввели предложенные Вам символы с картинки.
Если Вы допустили ошибку, придётся сделать это заново, но, конечно же, символы будут уже совсем другие. С такой проблемой пользователи сталкиваются очень часто, так как разобрать трудночитаемые искажённые символы достаточно затруднительно.
К сожалению, поскольку технологии и хакеры становятся более продвинутыми, их мошенническая тактика тоже. Чтобы полностью разобраться в теме и огородить себя от нежелательных последствий изучите, что такое спам в Интернете и чем он грозит. В то время, как сама система капчи безопасна, киберпреступники начали включать её в свои ложные или мошеннические веб-сайты, чтобы совершать свои действия более правдоподобно.
С помощью интригующих сообщений в ленте злоумышленники могут обмануть пользователей, например: «Вся страна в шоке, предсказания о конце света оказались..». После того, как Вы нажмете на эту запись, нужно будет ввести поддельный проверочный код и перейти на целевую страницу. В это время вирус захватит Ваш аккаунт.
Сегодня мы разобрались в том, что такое капча и для чего она нужна. Узнать, как от неё избавиться можно на примере нашего рассказа о том, как убрать капчу в Яндекс Вордстат и будет ли это эффективно. Будьте внимательны и не попадайтесь на уловки интернет-мошенников.