Artifacts: Поскольку искусственный интеллект становится мультимодальным, медицинские приложения множатся.

У машин нет глаз, но вы бы этого не знали, если бы следили за развитием моделей глубокого обучения для точной интерпретации медицинских изображений, таких как рентгеновские снимки, компьютерная томография (КТ) и магнитно-резонансная томография (МРТ), слайды патологии и фотографии сетчатки. За последние несколько лет было проведено множество исследований, которые постоянно демонстрировали, насколько мощными могут быть «машинные глаза» не только по сравнению с медицинскими экспертами, но и для обнаружения на медицинских изображениях особенностей, которые людям трудно различить. Например, сканирование сетчатки богато информацией, которую люди не могут видеть, но могут видеть машины, обеспечивая доступ к множеству аспектов физиологии человека, включая кровяное давление; контроль глюкозы; риск заболеваний Паркинсона, Альцгеймера, почек и гепатобилиарной системы; и вероятность сердечных приступов и инсультов. Как кардиолог, я бы не мог себе представить, что машинная интерпретация электрокардиограммы предоставит информацию о возрасте человека, поле, анемии, риске развития диабета или аритмии, функции сердца и заболеваниях клапанов, заболеваниях почек или щитовидной железы. Аналогично, применение глубокого обучения к патологическому слайду опухолевой ткани также может дать представление о месте происхождения, драйверных мутациях, структурных геномных вариантах и прогнозе. Хотя эти возможности машинного зрения для интерпретации медицинских изображений могут показаться впечатляющими, они предвещают потенциально гораздо более обширную территорию для искусственного интеллекта (ИИ) для преобразования медицины. Большой сдвиг впереди — это способность выходить за рамки узких, унимодальных задач, ограниченных изображениями, и расширять возможности машины, включая текст и речь, охватывая все режимы ввода, закладывая основу для мультимодального ИИ.

Хотя большая часть прогресса в интерпретации изображений связана с контролируемым обучением, которое требует полностью аннотированных входных данных и основных истин, основным требованием для перехода к мультимодальному ИИ было использование самоконтролируемых и неконтролируемых форм обучения. Это позволило избежать трудоемкой необходимости аннотирования данных, которая была бы невозможна при огромном масштабе входных данных, как это наблюдается в больших языковых моделях (LLM, также известных как генеративный ИИ). Но для достижения LLM, такого как ChatGPT, требовалась не только разница в типах обучения или огромных объемах вклада. Для этого потребовалась новая архитектура модели, известная как трансформаторы, представленная Васвани и его коллегами в 2017 году, чтобы выйти за рамки рекуррентных нейронных сетей, которые полагаются на обратную связь от одного временного шага к другому (например, каждое слово в предложении), и охватить все данные ( например, все слова в предложении). Развитие этих LLM в конечном итоге привело к созданию GPT-4, который является мультимодальным и, следовательно, способен работать со всеми формами данных, включая текст, аудио, речь и изображения. Это был немалый подвиг. Для GPT-4 потребовалось более 1 триллиона параметров модели (количество связей между нейронами), более 24 000 графических процессоров, >1024 операций с плавающей запятой в секунду производительности компьютера, 45 гигабайт обучающих данных и самоконтролируемое обучение. Примечательно, что исходные данные для GPT-4 и других основных сегодняшних базовых моделей, таких как Bard, LLaMa и PALM-2, были взяты из Википедии, Интернета и десятков тысяч книг. Для обучения не использовались конкретные медицинские данные — это требует контролируемой точной настройки, которая интенсивно применяется во многих случаях использования, которые я описываю ниже.

Теперь, когда LLM стали мультимодальными и больше не ограничиваются исключительно текстовым вводом и выводом, их название следует считать неправильным, как и «генеративный ИИ», поскольку эти модели выполняют и превосходят многие другие функции, помимо генерации, такие как редактирование текста. Невозможность точно назвать эти модели отражает их широкую функциональность, и эта концепция еще больше подчеркивается, когда рассматриваются варианты их использования в медицине. И какая бы модель, которую мы оцениваем сегодня, представляет собой незавершенную работу, в которой следует ожидать существенных усовершенствований, таких как способность предоставлять обновленные медицинские знания в режиме реального времени и повышение точности и качества работы.

Модели-трансформеры обладают новой способностью применять мультимодальный искусственный интеллект в медицине, анализируя в режиме реального времени множество слоев больших данных человека и нашу базу знаний. Большая часть многомерных данных, лежащих в основе уникальности каждого человека, теперь может быть собрана. Эти слои включают анатомию посредством визуализации, биомаркеры физиологии посредством датчиков, геном, микробиом, метаболом, иммуном, транскриптом клеточного уровня, протеом и эпигеном. Данные электронных медицинских карт, которые включают результаты лабораторных исследований, семейный анамнез, неструктурированный текст и данные длительного наблюдения за человеком, также являются богатым источником данных. Экспозиционные данные человека, такие как индекс загрязнения воздуха и другие данные, доступные с помощью датчиков окружающей среды, наряду с социальными детерминантами, добавляют другие измерения, которые могут быть информативными о состоянии здоровья человека. Все эти виды данных дополняются корпусом медицинских знаний, которые будут все чаще становиться частью программ LLM, используемых в будущем здравоохранении.

Этот мультимодальный ИИ имеет потенциал для широкого спектра приложений, управляемых данными. Людям, подверженным риску развития хронических заболеваний, виртуальный медицинский помощник может предоставлять частую обратную связь о своих данных для предотвращения или лучшего лечения ранее существовавших заболеваний. Возьмем, к примеру, человека, у которого высокое кровяное давление и диабет, а также высокий полигенный показатель риска развития сердечно-сосудистых заболеваний. Виртуальный помощник не только поможет достичь контроля артериального давления и уровня глюкозы, чтобы уменьшить влияние этих поддающихся изменению факторов риска, но также будет анализировать и обучать человека на основе его физической активности, сна, стресса, фотографий сетчатки глаза, неструктурированного текста из медицинских источников. записи и новейшую медицинскую литературу. Уже существуют виртуальные чат-боты-помощники с искусственным интеллектом для лечения конкретных заболеваний, таких как диабет, гипертония, ожирение и депрессия, но ни один из них еще не стал целостным или профилактическим.

Мультимодальные данные об отдельном человеке также могут сделать дистанционный мониторинг реальностью, позволяя создать «больницу на дому» с непрерывным сбором жизненно важных показателей, что эквивалентно отделению интенсивной терапии. Благодаря проверенным алгоритмам, позволяющим точно предвидеть признаки ухудшения состояния человека задолго до появления каких-либо симптомов и необходимости вмешательства, будь то дистанционно или путем направления медицинского персонала, многие пациенты смогут избежать госпитализации в больницы в будущем. Есть несколько других вариантов использования мультимодального ИИ, например цифровой двойник, который будет информативным для человека с новым диагнозом, предоставляя цифровое факсимиле, на котором можно найти успешное лечение. Еще одним применением является эпиднадзор за пандемией для индивидуальной пространственно-временной оценки риска в режиме реального времени с использованием геолокации, носимых датчиков, симптомов, статуса вакцинации, результатов сточных вод и других слоев данных.

Хотя большое внимание на ранних этапах подачи заявлений на получение степени LLM в сфере здравоохранения уделялось, например, их способности сдать экзамен на получение медицинской лицензии в США, дать ответы на медицинские вопросы пациентов или снизить канцелярскую нагрузку врачей за счет обработки естественного языка. В разговорах с пациентами мультимодальный ИИ представляет собой более глубокую аналитическую задачу. До сих пор происходила интеграция нескольких слоев данных, таких как электронные медицинские записи и геномика, но ничто не могло сравниться по сложности, глубине и широте того, что может быть актуальным и анализируемым. Это представляет собой серьезную постоянную задачу по реализации необычайного потенциала мультимодального ИИ в медицине.

Помимо аналитического, существует множество других барьеров. LLM обычно производят впечатление слишком самоуверенных в своих ответах, что я считаю признаком «часто ошибочным, никогда не вызывающим сомнений». Помимо склонности студентов к фальсификациям, существуют встроенные предубеждения, опасения по поводу конфиденциальности и безопасности данных, потенциальное ухудшение эффективности модели с течением времени, вопросы о том, что станет основанием для одобрения регулирующих органов, сопротивление медицинской практики изменениям, необходимость для убедительных перспективных доказательств, подтверждающих пользу, и многое другое.

Тем не менее, объединение беспрецедентных огромных вычислительных мощностей и самостоятельного обучения огромного объема данных, полученных человеком, заложило основу для медицинских приложений, которые ранее были недоступны. В предстоящие годы плюрипотентность программ LLM в медицине может привести к появлению виртуальных помощников врача и больниц на дому, которые обеспечат высокоточные и индивидуализированные подходы к медицинскому обслуживанию.

Источник

Artifacts

Поскольку искусственный интеллект становится мультимодальным, медицинские приложения множатся.

No comments:

Post a Comment

🦖 Top Dinosaur Discoveries — June 2026

Labels