любопытно

Путь к светлому будущему

Десять лет назад, ещё до современного взлёта deep learning, в этом журнале я предсказал, что прорыв в AI будет основан на обобщении методов распознавания изображений. Я, правда, совершенно не ожидал, что методами этими окажется старый добрый градиентный спуск, только хорошо так перебрендированный и умеющий уважать инварианты предметной области, а думал о чем-то вроде умного LSH. Но даже так я считаю, что предсказание, в общем-то, сбылось. По такому случаю хочу продолжить и попредсказывать дальше.

В недалёком будущем нас ждёт событие, которое радикально изменит весь ландшафт IT и иного "высокотехнологичного бизнеса". Какая-то организация первой сумеет создать quasi-generic AI, то есть автоматику, способную выполнять широкий круг задач, которыми сейчас за зарплату занимаются миллионы человек. Эта организация заработает все деньги в мире.

В 2021 году абзац выше звучит одновременно банально и сомнительно. С одной стороны, всё это самоочевидно, и сейчас буквально все, от ведущих исследовательских организаций до локальных банков, стараются развиваться "куда-то примерно туда". С другой стороны, любые разговоры про AI напоминают анекдот насчёт "мышки, станьте ёжиками", и более 50 лет обещания визионеров в этой области на практике оказывались где-то на спектре между безудержным оптимизмом и прямым мошенничеством.

Я не Юдковский и мне сложно всерьёз писать о том, что случится, когда машина сможет достичь человеческого уровня мышления, заменить людей в творческих профессиях, мечтать, написать симфонию, и поднять восстание. Тем не менее, вряд ли кто-то поспорит, что машина когда-нибудь сможет понять и выполнить команду "принеси со склада такие же туфли 38 размера, а эти отнеси обратно на витрину", и что это "когда-нибудь", скорее всего, произойдёт уже при нашей жизни.

Поэтому полезно подумать о том, как выглядит путь к такому quasi-generic AI, пусть и крупными мазками. В частности, это позволяет понять, где тут потенциальное место для нас.

Поскольку вся наша область бурно развивается, часть информации, собранная мною здесь, могла устареть. Если вы увидите такие утверждения, я буду очень рад, если вы меня поправите.

Образ результата


Прежде всего давайте уточним, о какой технологии идёт речь. Задача состоит в том, чтобы получить автоматического "гастарбайтера" или автоматический "офисный планктон" (я намеренно употребляю эти уничижительные обозначения, применительно к людям я этого не делаю). То есть технологию, способную понимать и интерпретировать несложные инструкции на естественном языке и заменять человека в большом количестве простых и рутинных операций.

Можно представить себе две ветви развития таких автоматов: "физический", то есть классический робот из научной фантастики ХХ века, и "виртуальный", то есть что-то вроде Алисы на стероидах с полноценным доступом к устройству пользователя по аналогии с remote desktop.

Для начала поговорим о физических роботах.

Низкоквалифицированный работник-человек обходится работодателю примерно в $2/час. Естественно, эти цифры могут меняться в зависимости от локации, условий труда, налогов и т.п., но оценка, скорее, снизу. Предполагая, что автомат работает 14 часов в сутки без выходных и перекуров, и приняв амортизацию 10% в год, мы можем оценить, что "роботы" становятся экономически эффективными при себестоимости $100000 и ниже. Это значительно превосходит, например, стоимость типичного легкового автомобиля. Такая оценка показывает, что аргумент "роботы не нужны, люди дешевле" несостоятелен, и потенциальная ёмкость рынка таких устройств приблизительно бесконечна. Последствия появления такой технологии будут сравнимы с первой индустриальной революцией.

Существуют огромные рынки и для роботов с более узкими и конкретными "профессиями", например, для специализированных уборщиков или грузчиков. Как известно каждому, у кого есть робот-пылесос, традиционная автоматика с этими задачами в полном объеме не справляется. По соображениям непрерывности выглядит правдоподобным, что какие-то из этих задач не являются "AI-complete", то есть решить их существенно проще, чем сделать универсального "гастарбайтера", а потенциальный рынок тем не менее сопоставим с суммарными зарплатами целой профессии.

Технические проблемы


Естественно, такой потенциальный куш не остается незамеченным. Тем не менее, хотя промышленные роботы уже несколько десятков лет активно используются на производстве, это не более чем разновидность станков с ЧПУ. Роботов из мира Азимова не существует, от их появления нас отделяет сразу несколько нерешенных технических проблем, как в части физического оборудования, так и в области программного обеспечения.

Интересно в этом смысле сравнить сложности создания "роботов" со сложностями создания беспилотных автомобилей. С одной стороны, hardware автомобиля уже готово и хорошо известно, число степеней свободы управляемого объекта невелико, а задачи крайне однотипны. С другой стороны, вопросы безопасности в задаче управления беспилотниками на несколько порядков сложнее и важнее. Человекоподобный агент может быть неуклюжим, "тупить", натыкаться на людей и предметы, падать сам или что-нибудь ронять. Главное, чтобы частота подобных инцидентов позволяла ему преодолевать порог полезности. Может оказаться, что добиться этого проще, чем выжать все необходимые "девятки" безопасности автомобиля на дорогах общего пользования.

"Тело"


Чтобы выполнять многие виды работ, которые обычно выполняют люди, и уметь их бесшовно заменить, нужно обладать телом, схожим с человеческим. Хотя полный антропоморфизм не обязателен, нужно уметь проходить везде, где проходят люди, открывать двери, подыматься и спускаться по лестницам, носить предметы различной формы, крутить вентили, вставать после падения и т.п.

Два самых непонятных вопроса на этом пути это источник энергии и "руки".

Человек (как и вообще все животные) удивительно энергоэффективен, силен и автономен. Увлекательный рассказ об этом можно прочитать, например, здесь: https://what-if.xkcd.com/128/. Источники энергии, позволившие бы механизму сопоставимого размера передвигаться и подымать грузы в течение нескольких часов подряд, либо дорогие, пожаро- и взрывоопасные, ограниченные в мощности и/или в количестве циклов зарядки (аккумуляторы и батареи разного рода), либо шумные и вонючие (генераторы и ДВС). Насколько мне известно, консенсус в вопросе "для человекоподобного робота правильной была бы вот такая гибридная схема" не достигнут.

Человеческая рука может удерживать предметы весом от половины грамма до десятков килограмм, имеет почти тридцать степеней свободы, тактильные рецепторы по всей поверхности и обладает проприоцепцией (то есть даёт обратную связь о собственном положении в пространстве). Универсальных актуаторов с аналогичными характеристиками не существует. Чем-то из перечисленного, видимо, можно пожертвовать, но до какой степени, в точности неизвестно. Существует некоторое количество стартапов и небольших компаний, производящих по-разному упрощенные "роборуки" для исследовательских целей, например https://www.shadowrobot.com/dexterous-hand-series/. Стоимость таких устройств составляет от пары до десятков тысяч долларов. Ясно, что при массовом производстве они станут радикально дешевле, но пока неизвестно, какую именно разновидность стоило бы массово производить или как принять это решение.

"Мозги"


Главная и, по большому счету, единственная задача робота -- умение интерпретировать инструкции и команды на естественном языке. Задача обучить двуногого робота переводить тексты в перемещения себя и других объектов при помощи актуаторов выглядит, конечно, очень сложной, но идеально подходящей для deep reinforcement learning. На эту область возлагались большие надежды, в частности, именно поэтому DeepMind был продан Google за полмиллиарда долларов, не имея в активе ничего, кроме демок (хоть и очень впечатляющих).

Тем не менее, насколько можно судить со стороны, "главную задачу RL" сейчас никто решать не пытается. Программное обеспечение современных роботов создаётся на крайне устаревших принципах и под конкретные задачи или, чаще, PR-демонстрации. DeepMind, с блеском решив Го, рубится в старкрафт с переменным успехом. Не существует успешных примеров применения достижений современного ML даже там, где им, казалось бы, самое место, например, в задаче двуногой ходьбы. Вместо этого используются принципы, которым больше десятки лет: zero-moment point, выпуклая оптимизация и т.п. https://dspace.mit.edu/handle/1721.1/110533

Косвенным подтверждением вышесказанного можно считать то, что Google, купив Boston Dynamics, так и не смог сделать совместно с ними что-нибудь путное, и вынужден был перепродать. Вообще, кстати, интересно, что Boston Dynamics около тридцати лет, то есть эта компания старше Гугла и Яндекса.

Проблемы, стоящие перед Deep RL, и не дающие решать задачу управления сложным роботом "в лоб", на удивление похожи на проблемы ML образца примерно 2010 года. Очень доступно написанный обзор этих проблем приводится тут https://www.alexirpan.com/2018/02/14/rl-hard.html, но вкратце я сформулировал бы их так:
современному RL нужно столько же или больше обучающих данных, сколько нужно было в NLP-задачах до появления эмбеддингов. Вопрос "как трёхлетний ребёнок умудряется понять смысл слова и научиться его употреблять, услышав всего 1-2 раза в жизни" менее десяти лет назад был глубоко загадочным и в свое время привёл к появлению целой новой "хомскианской" ветви лингвистики. Статистический метод определения того, например, насколько похожи слова А и Б по смыслу, на то время требовал собрать несколько тысяч несмещенных примеров их употребления. Появление word2vec, DSSM и т.п. сделало эти вопросы почти очевидными (мы по-прежнему не знаем, как конкретно выучивают язык люди, но это умение из невообразимой магии стало чем-то, во многой степени доступным и для наших технологий).

Даже лучшим методам Deep RL нужно очень много данных, несколько миллионов обучающих примеров-фреймов, чтобы научиться решать каждую новую задачу, потому что накопленные знания никак не переиспользуются от задачи к задаче. Представляется, что в reinforcement learning аналогичная эмбеддингам революция должна быть достаточно близка, чтобы попытаться в ней поучаствовать.

По-видимому, потребуется собрать очень большой датасет при помощи какого-то motion capture людей, выполняющих множество различных задач, описанных словами. Может быть, даже окажется возможным обучить по нему универсальную Q-функцию с помощью inverse RL или imitation RL прямо в e2e-режиме. Скорее всего, предварительно или параллельно "тушку" сети, реализующей Q-функцию, но с другой "головой", придётся обучить на предиктивных задачах. Например, предсказывать позу человека в следующем кадре по нескольким предыдущим (из видео в интернете такие датасеты можно собирать практически в любых объемах).

В 2021 году эта программа лежит слишком далеко от меня и моих знакомых, и не очень понятно, как я или вы могли бы её воплощению осмысленно помочь. Поэтому дальше я напишу о втором варианте -- чисто виртуальным "заменителе человека".

Плезиозавры были теплокровными?

Если брать сравнение черепов звероящеров и плезиозавров, то мы увидим, что и те и другие были образцовыми синапсидами - существами с одной парой черепных отверстий. А поскольку именно звероящеров считают предками млекопитающих, можно предполагать теплокровность и у плезиозавров, а также оволоснение тела, или наличие хотя бы вибрисс на морде.


Плезиозавр. Хорошо видны височные отверстия и теменной гребень между ними.

Collapse )

Начинается новая эпоха.

Товарищи! В настоящее время мы стали свидетелями завершения кризиса роста советской цивилизации. Нынешняя дипломатическая война, начатая в конце апреля является явным признаком завершения периода, начавшегося расстрелом Белого дома. Нам многое пришлось пережить, и сегодня начинается новая жизнь. Она будет настолько иной, что это приводит в восторг - человечество после 30 лет сна возвращается на тропу прогресса.

Аланские корни Руси.

Встретилось мнение, что Русь - это родственный аланам народ, а вовсе не европейский. Автор указывает, что роксасы и роксаланы это рос (рокс) асы и рос (рокс) аланы, то есть светлые асы, светлые аланы. В дополнение к этому поляки помнят сарматов - также близких родственников алан и скифов.

Проблема всех народов России - как не потерять свою культуру.

В СССР сохранению культуры малых народов придавалось огромное значение. Потому, что по мере приближения к коммунизму должны спадать ограничения формаций, наложенные на общественный опыт разных народов - и больших, и малых. И многообразие культурных форм больше не будет оказывать давления ни на государства, построенные большими народами, ни на самобытность малых народов.

На самом деле решение очень простое - для сохранения культуры достаточно иметь возможность поддержания языка через общение с соплеменниками.

Но есть другая проблема - урбанизация. Переезд из города в деревню и из деревни в город делает человека уязвимым - прежний его общественный опыт в новых условиях не работает, и он полагается на опыт окружающих. Старый опыт в таких условиях забывается - и опыт предков, и всё, с ними связанное. Россия пережила эту же проблему в середине 20-го века, когда началась индустриализация, и массы людей переселились в города.

Таким обарзом, в России сейчас созданы все условия для сохранения всех её культур, всего её культурного достояния. Все явления размывания культуры (как малых народов, так и русской) связаны с этим прошедшим потрясением. И сейчас задача всех народов России просто удержать то, что сохранено.

И нужно только представителям самих народов понять, что переезд за "длинным рублём" - это размен сиюминутного на прошлое и будущее, которое также задаётся памятью о прошлом. Это касается не только малых народов, но самих русских. Посмотрите на Москву. Сегодня это самый глобализованный город России. Город, где стираются все различия, всякое различение высокого и низкого, должного и недолжного.

В старинну путешествия и на Руси, и в Индии (думаю, и ещё много где) считались делом зазорным - тогда люди знали эту опасность утраты корней, и старались от неё беречься.

Тартария в дневниках Марко Поло.

Начал читать работу по рассказам Марко Поло "Книга о разнообразии мира".

- Столица Орды получается на Китай-озере в среднем течении Оби (озеро заросло сегодня). В пользу этого говорит и отправка посольства с Марко Поло в Китай через, видимо, Бухару, на Индийский океан, остров Яву, и далее в Китай. Ставка хана никак не могла быть в северном Китае.

- Марко Поло говорит, что сначала татары были подвластны "пресвитеру Иоанну" - русскому князю. Но он испугался, что их стало очень много в его владениях, и стал отправлять воевать воевать и заселять другие земли. Татары отказались его признавать и выбрали себе царя Чингизхана. И было сражение между русским великим князем и Чингизханом. Чингизхан победил.