Yandex opens Toloka datasets for researchers

    Toloka is the largest source of machine-tagged data for machine learning tasks. Every day in Tolok, tens of thousands of artists produce more than 5 million ratings. For any research and experiments related to machine learning, large volumes of quality data are needed. Therefore, we are starting to publish open datasets for academic research in various subject areas.

    Today we will share links to the first public datasets and talk about how they were assembled. We’ll also show you where to put the stress in the name of our platform.

    An interesting fact: the more complex the technology of artificial intelligence, the more it needs human help. People categorize images to train computer vision; People rate the relevance of pages to search queries. people convert speech to text so that the voice assistant learns to understand and speak. Machine needs human evaluations so that it works further without people and better than people.

    Previously, many companies collected such assessments exclusively with the help of specially trained employees - assessors. But over time, there were too many tasks in the field of machine learning, and the tasks themselves for the most part ceased to require special knowledge and experience. So there was a demand for the help of the "crowd" (crowd). But on their own, not everyone can find a large number of random performers and work with them. Crowdsourcing platforms solve this problem.

    Yandex.Toloka (correctly pronounced that way, with emphasis on the last syllable) is one of the largest crowdsourcing platforms in the world. We have more than 4 million registered users. More than 500 projects collect estimates with our help every day. Pleasant fact: this year at the Data Labeling section at the Data Fest conference, all six speakers from different companies mentioned Toloka as a source of markup for their projects.

    Much has been said about the use of Toloka in business. Today we’ll talk about our other area, which we consider no less useful.

    Research in Tolok

    Crowdsourcing, and in general the task of mass gathering human markups, is about the same as the industrial use of machine learning. This is an area that all technology companies spend a lot of money on. But at the same time, for some reason, it was she who was greatly under-invested in terms of research: on working with crowd, in contrast to other areas of ML, relatively few serious studies and articles. 

    We would like to change that. Our team sees Toloka not only as a tool for solving applied problems, but also as a platform for scientific research in various subject areas.

    Toloka Public Datasets

    We want to support the scientific community and attract researchers to the Toloka, so we are starting to publish data sets for non-commercial, academic purposes. They may be of interest to researchers of different directions: here are chat bots, and data for testing models of aggregation of toll verdicts, for linguistic research, for computer vision problems. Let's talk about them:

    Toloka Persona Chat Rus
    Датасет из 10 тыс. диалогов поможет исследователям диалоговых систем отработать подходы к обучению чат-ботов. Мы подготовили его совместно с iPavlov — проектом лаборатории нейронных систем и глубокого обучения МФТИ, который проводит исследования в области разговорного искусственного интеллекта и разрабатывает DeepPavlov, открытую библиотеку для создания диалоговых ассистентов. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования.

    Как собирались данные
    На первом этапе с помощью пользователей Толоки мы собрали профили, содержащие сведения о человеке, его увлечениях, профессии, семье и событиях жизни, и отобрали те, что подходят для диалогов.

    На втором этапе мы предложили участникам сыграть роль человека, описанного одним из таких профилей, и пообщаться друг с другом в мессенджере. Цель диалога — узнать больше о собеседнике и рассказать о себе. Полученные диалоги проверили другие исполнители.

    Toloka Aggregation Relevance 2
    Датасет позволяет исследовать методы контроля качества в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок исполнителей, собранных на проекте «Релевантность (2 градации)» в 2016 году. Вы найдёте здесь как обезличенные оценки толокеров, так и эталонные оценки, которые помогут измерить качество ответов. Изучение этих данных позволит проследить, как мнение исполнителей влияет на качество итоговой оценки, какие методы агрегации результатов лучше использовать и сколько мнений нужно собрать, чтобы получить достоверный ответ.

    Как собирались данные
    Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается».

    Toloka Aggregation Relevance 5
    Этот датасет такой же, как предыдущий, только оценки здесь собирались не по бинарной, а по пятибалльной шкале в проекте «Релевантность (5 градаций)». Датасет содержит более миллиона оценок.

    Как собирались данные
    Оценка документов по пяти градациям более сложная и требует большей квалификации. Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный».

    Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). У некоторых заданий в датасете не один, а несколько правильных ответов. Любой из таких ответов считается правильным. Точность по основным методам агрегации:

    ● Мнение большинства — 89,92%.
    ● Dawid-Skene — 90,72%.
    ● GLAD — 90,16%.

    Lexical Relations from the Wisdom of the Crowd (LRWC)
    Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима). Собран исследователем Дмитрием Усталовым в 2017 году.

    Как собирались данные
    Для исследования взято 300 наиболее употребляемых в современном русском языке существительных. С помощью тезаурусов (РуТез, RuWordNet) и автоматизированных методов образования гиперонимов (Watset, Hyperstar) получено 10 600 родо-видовых пар (типа «котёнок» — «млекопитающее»). Участникам исследования нужно было ответить на вопрос: «Правда ли, что котёнок — это разновидность млекопитающего?» Чтобы грамотно сформулировать вопрос, гиперонимы поставили в родительный падеж при помощи морфологического анализатора и генератора pymorphy2.

    Каждую пару разметили семь русскоязычных исполнителей старше 20 лет. По результатам, полученным после агрегации всех оценок, 4576 пар слов получили положительные ответы, а 6024 — отрицательные. Интересно, что участники исследования оказались более единодушны в выборе отрицательного ответа, чем положительного.

    Human-Annotated Sense-Disambiguated Word Contexts for Russian
    В датасете собрано 2562 контекстных значения 20 слов, представляющих наибольшее разнообразие смысловых значений. Исследование проведено Дмитрием Усталовым в 2017 году.

    Как собирались данные
    Участникам исследования демонстрировалось слово и пример его употребления в речи. Нужно было определить значение слова в контексте высказывания и выбрать один из вариантов ответа.

    Toloka Business ID Recognition
    Для этого датасета мы подготовили 10 тыс. фотографий информационных табличек организаций и текстовый файл с номерами (ИНН и ОГРН), которые были указаны на табличке. Обучившись на этих данных, модель компьютерного зрения сможет распознавать последовательность цифр на изображении. Датасет предоставлен сервисом Яндекс.Справочник.

    Как собирались данные
    Сначала мы запустили задание в мобильном приложении Толоки: исполнителям предлагалось приехать по адресу, отмеченному на карте, найти организацию и сфотографировать её информационную табличку. Это и другие полевые задания помогают поддерживать актуальной информацию в Яндекс.Справочнике.

    Затем качество выполненных заданий проверили другие исполнители. Фотографии, на которых указаны ИНН и ОГРН, мы отправили на расшифровку. Толокеры перепечатали эти номера с фотографий, после чего мы обработали результаты и сформировали датасет.

    Toloka Aggregation Features
    Датасет содержит около 60 тыс. оценок в 1 тыс. заданий с правильными ответами почти для всех заданий. Исполнители классифицировали сайты по пяти категориям по наличию контента для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.

    You can select and download datasets from the link: . We do not plan to dwell on this and urge researchers to pay attention to crowdsourcing and talk about their projects.

    Also popular now: