2019/07/30 11:39:25

Разметка данных
Data labeling

Мировой рынок машинного обучения растет со скоростью примерно 50% в год. В 2018 году его объем составил 1,8 млрд долл., а на 2023 год он оценивается суммой почти в 20 млрд[1]. Сюда включаются не только очевидные составляющие - аппаратное и программное обеспечение, сервис, но и качественно новый тип производства, получивший название data labeling или разметка данных. Подробнее о появлении этого термина и применении подобных операций – в материале, подготовленном специально для TAdviser журналистом Леонидом Черняком.

Появление data labeling связано с необходимостью подачи на вход систем обучения больших объемов специально подготовленных данных. Говоря об этом чаще всего ограничиваются простой констатацией того факта, что Big Data служит основой машинного обучения. При этом, объем сегмента data labeling, по данным Cognica Research, в 2023 году достигнет 1,2 млрд. долл[2].

Потребность в индустрии разметки связана с тем, что практическое значение имеет не некий абстрактный AI (Artificial Intelligence или Искусственный интеллект), а его вполне практически ориентированное подмножество, называемое той же аббревиатурой AI, но от Augmented Intelligence, то есть ИИ, усиливающий возможности человека. К Augmented Intelligence относят задачи распознавания изображений, работу с текстами на естественных языках, управление транспортными средствами и т.д. Всем этим приложениям AI для работы требуется информация о внешнем мире.

Суета вокруг разметки данных позволяет заново переоценить мудрость выражения математика Клива Хамби, сказавшего в 2006 году «Data is the new oil» («Данные новая нефть»). Эту мудрость подтвердил журнал Economist в опубликованном в 2017 году отчете «The world’s most valuable resource is no longer oil, but data» («Теперь самый ценный ресурс в мире не нефть, а данные»). Но сырые данные, как и сырая нефть, сами по себе не имеют потребительской стоимости, в этом их главное сходство. Для превращения нефти в горючее, масла и другие полезные продукты создана гигантская нефтеперерабатывающая промышленность. Самую большую прибыль поучают не нефтедобывающие страны, а мировые концерны, специализирующиеся на переработке нефти. Аналогичную процедуру необходимо проделывать и над данными, чтобы превратить их в товар. Но, в отличие от нефти, пока средств для автоматизации предварительной обработки данных нет и в обозримом будущем не будет, поэтому эту нудную работу вручную будут выполнять низкоквалифицированные работники (handmaid data labeling). Их можно назвать «синими воротничками» индустрии машинного обучения, которая до сих пор была представлена исключительно «белыми воротничками». Рабочие индустрии должны выполнять вручную огромный объем работы. Например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса.

У Китая есть очевидный шанс стать супер монополистом в области data labeling. Страна располагает необходимым количеством высококвалифицированных специалистов, здесь выработаны государственные программы по развитию ИИ, и в то же время наличествует неограниченное количество желающих на роль исполнителей низкого уровня. Они работают надомно или в стесненных условиях на так называемых «фабриках разметки» (tagging factories), получая чрезвычайно низкую заработную плату - менее полутора долларов в час.

У Китая есть очевидный шанс стать супер монополистом в области data labeling
У Китая есть очевидный шанс стать супер монополистом в области data labeling


Типичным примером фабрики разметки служит компания Mada Code[3], насчитывающая более 10 000 надомников, выполняющих разметку данных для задач оптического распознавания (Optical Character Recognition, OCR) и обработки текстов на естественных языках (Natural Language Processing, NLP). Среди ее клиентов крупные компании, в т.ч. Microsoft, и университеты. Ее руководитель сказал:

«
Мы строительные рабочие цифрового мира, мы кладем кирпич на кирпич, но играем заметную роль в ИИ. Без нас невозможно построить небоскребы.

»

Несмотря на то, что разметка, казалось бы, тривиальная операция – внесение в изображение или текст тэгов, в этих словах содержится глубокий смысл. В процессе разметки производится качественное преобразование - сырые данные дополняются метаданными и превращаются в информацию. Самое утилитарное определение информации звучит следующим образом «Информация – это данные плюс метаданные»[4].

Технологии и языки разметки изображений явление новое, первые публикации на эту тему относятся к 2016 году. Идея же разметки текстов намного старее - она родом из полиграфии. Первыми языками разметки были корректурные знаки, вносимые в рукописи. Настоящий переворот в разметке совершил Чарльз Гольдфарб, исследователь из IBM, которого называют «отцом современных языков разметки». Он создал язык Generalized Markup Language (GML), который понимала машина, а не наборщик. Создатель WWW Тим Бернерс-Ли использовал этот язык в качестве прототипа для создания языка разметки гипертекстов HTML, используемого в первом проекте WWW. В середине 90-х другой британец, Йон Борсак, предложил свою версию языка «SGML для Web». Разработка рабочей версии нового языка осуществлялась в 1996 году силами рабочей группы, насчитывавшей 11 человек, а возглавлял ее известный эксперт в области программирования в открытых кодах Джеймс Кларк. Именно он и переложил принятое сейчас название — XML. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging), и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки тестовых тестов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.

Все эти технологии разметки объединяет то, что они позволяют превратить данные в информацию. Потом эта информация станет источником знаний в приложениях, попадающих под определение ИИ, выполняя следующую функцию intelligencе, суть которой заключается в превращении информации в знания.

Наличие этой естественной технологической цепочки отличает машинное обучение от символического подхода к ИИ с его искусственными попытками перенесения человеческих знаний в машину. Возможно когда-то разметка будет автоматизирована, но для этого нужны качественно новые сенсоры и средства для работы с текстами. С их появлением нынешние технологии работы с данными, повсеместно и ошибочно называемые информационными, станут информационными в полном смысле этого слова.

Робототехника



Примечания