“С высокой точностью”. Создана первая машина для чтения мыслей
В Университете Осаки разработали нейросеть, способную реконструировать изображение, на которое в данный момент смотрит человек
Анализируя данные функциональной МРТ, система довольно точно воспроизводит не только форму, но и цвета объектов. Ученые заговорили о первой в мире машине для чтения мыслей.
Компьютерный глаз
Область применения перспективной технологии компьютерного зрения чрезвычайно широка — от коммуникации парализованных людей до записи снов человека и изучения того, как различные животные воспринимают окружающий мир.
Японские исследователи воспользовались популярной программой генерации картинок с помощью текста Stable Diffusion. Эта нейросеть с открытым кодом по структуре не отличается от других генеративных LLM (Large language models, больших языковых моделей), таких как DALL-E2 от компании OpenAI (создателя чат-бота ChatGPT) или Midjourney.
В основе — диффузия, метод машинного обучения, когда визуальный образ формируется посредством последовательного приближения. Каждая новая итерация базируется на очередной текстовой подсказке.
Японцы добавили к стандартной схеме Stable Diffusion дополнительный этап обучения. Нейросеть сопоставляла данные мозговой активности четырех участников эксперимента, которым демонстрировали разные фотографии с текстовым описанием изображений.
В качестве исходных сигналов взяли данные функциональной магнитно-резонансной томографии (фМРТ), полученные на мощных аппаратах с индукцией магнитного поля 7 Тл. Фиксируя потоки молекул кислорода, необходимого нейронам для работы, эти приборы способны отслеживать, какие области мозга, ответственные за те или иные чувства или эмоции, наиболее активны.
На этапе машинного обучения участникам показывали десять тысяч изображений, а система собирала генерируемые при этом паттерны фМРТ, которые затем расшифровывал искусственный интеллект. Часть сканов мозга не использовали — из них потом составили тестовое задание для машины.
CC BY-SA 4.0 / Benlisquare /
Многоэтапный процесс шумоподавления, используемый Stable Diffusion
Синергия мозга
Проанализировав пики, зафиксированные фМРТ в различных зонах мозга, ученые установили, что височные доли отвечают за содержание изображения. Это так называемая семантическая зона. А затылочная, где зрительная кора, воссоздает размер и общее расположение объектов.
Результаты в целом соответствовали гипотезе о двух потоках зрительной информации, сформулированной в 1983-м американским нейропсихологом Мортимером Мишкиным. Он предположил, что в коре головного мозга есть два анатомически и функционально разных канала для обработки пространственной и предметной информации: «Где?» и «Что?».
На макаках-резусах Мишкин показал, что затылочный (дорсальный) канал «Где?» отвечает за восприятие пространства, а височный (вентральный) канал «Что?», тесно связанный с памятью, — за узнавание.
Японцы объединили зрительную и семантическую информацию. Алгоритм диффузии сравнивал наблюдаемые паттерны нейронной активности, формирующиеся при просмотре фотографий, с образцами в наборе обучающих данных. По сигналам из «визуальной» зоны коры выстраивались общий объем и перспектива. Затем подключались подсказки с декодера семантических сигналов, и первичная картинка, больше напоминающая помехи на экране телевизора, постепенно приобретала очертания узнаваемых объектов.
CC BY 4.0 / Yu Takagi, Shinji Nishimoto /
Ученые получили около тысячи картинок, и они с точностью до 80 процентов совпали по смыслу и содержанию с оригиналом. В большинстве случаев ИИ даже воссоздал цветовую гамму исходного изображения.
«Представленная статья продемонстрировала, что нейросеть Stable Diffusion может точно реконструировать изображения из сканирования фМРТ, и это позволяет эффективно читать мысли людей», — отмечается в резюме, которое тоже написал генеративный чат-бот.
«Мы показываем, что наш метод на основе активности человеческого мозга способен реконструировать изображения с достаточным разрешением и высокой семантической точностью», — уточняют сами исследователи.
CC BY 4.0 / Yu Takagi, Shinji Nishimoto /
Результат эксперимента по «мысленной» реконструкции изображений: A – изображения, которые показывали участникам; Z — реконструкция на основе сигналов «визуальной» коры; С — реконструкция на основе сигналов «семантической» коры; Zc — результат, полученный путем объединения двух реконструкций
Активные помощники
Авторы работы подчеркивают, что предложенная ими модель — универсальная, не нуждающаяся в тонкой индивидуальной подстройке к мозгу конкретного человека. Алгоритм интерпретирует не только активность в «визуальной» коре, отвечающей за восприятие формы и цвета, но и процессы в соседней «семантической» зоне головного мозга, где зрительная кора встречается со слуховой и где закодированы значения слов.
Однако пока в качестве тестовых образцов использовали сканы мозговой активности тех же самых четырех участников эксперимента, на которых машина обучалась. То есть семантический декодер был настроен на распознавание конкретных заученных заранее сигналов.
Кроме того, испытуемые были активно настроены на эксперимент. Пока фМРТ визуализировала их мозг, они мысленно «проговаривали» картинку, описывая словами все, что видят. Для машины это были дополнительные подсказки.
© Инфографика
Общая схема эксперимента
Секрет портретного сходства
Японцы добились многого. Но это далеко не первая попытка объединить возможности ИИ и современных высокоточных приборов, считывающих сигналы мозга.
В прошлом году исследователи из Нидерландов показывали двум добровольцам фотографии человеческих лиц, сканируя при этом их мозг на аппарате фМРТ. ИИ обработал полученную информацию и реконструировал исходные изображения. Сходство было таким, что эксперты усомнились в достоверности эксперимента.
Секрет в тщательном предварительном обучении ИИ. На начальном этапе те же самые добровольцы рассматривали на экране компьютера цифровые изображения лиц, а система «попиксельно» отслеживала реакцию нейронов, переводила ее в компьютерный код и пересобирала портреты заново.
Авторы подчеркивают, что для основного теста они подобрали фото, которые раньше никогда не видели ни испытуемые, ни нейросеть.
CC BY 4.0 / Dado, T., Güçlütürk, Y., Ambrogioni, L. et al. /
Вверху — изображения, которые показывали добровольцам; внизу — сгенерированные нейросетью
В том, что у систем компьютерного зрения на основе фМРТ/ИИ большое будущее, сомнений нет.
«Мы уже разрабатываем камеры для имплантации в мозг людей, ослепших в результате болезни или несчастного случая, чтобы они могли снова видеть, — сказала в интервью Daily Mail первый автор статьи, когнитивный биолог из Университета Радбауд Тирза Дадо. — Эти технологии также пригодятся для некоторых клинических приложений, например, для общения с пациентами, находящимися в глубокой коме».
На следующем этапе исследований ученые хотят попробовать расшифровать и воссоздать субъективные переживания тестируемых, их воспоминания и даже сны. Но до реального чтения мыслей на самом деле пока еще очень далеко.