Перспективы и подводные камни использования инструментов искусственного интеллекта для повышения моих способностей как ученого.
| 24 ФЕВРАЛЯ. |
На днях мне напомнили о знаменитом третьем законе Артура Кларка, гласящем, что “любая достаточно продвинутая технология неотличима от магии”. Недавно я установил на свой компьютер код Claude и использовал его для написания кода для некоторых прогонов климатических моделей с пониженной сложностью. Внезапно проекты, на которые ушли бы часы или даже дни, стали выполняться за считанные минуты. Это было не идеально – мне нужно было тщательно помогать ИТ–отделу создавать планы проектов, разрабатывать тесты и анализировать результаты, — но это представляло собой значительный шаг вперед по сравнению с возможностями, с которыми я был знаком по прошлым веб-интерфейсам LLM. Я в некотором роде необычный климатолог, поскольку работаю не в академических кругах, а в качестве руководителя климатических исследований в Stripe, финансово-технологической компании в Кремниевой долине. Таким образом, я, вероятно, использовал искусственный интеллект гораздо чаще, чем большинство других представителей научного сообщества, учитывая, что нам настоятельно рекомендуется широко использовать его в работе. Я также работал непосредственно с AI labs над проектами, направленными на оценку эффективности LLM в ответах на вопросы науки о климате и на то, чтобы помочь использовать инструменты искусственного интеллекта для поддержки научного сотрудничества.
Я начал использовать GPT3.5 еще в 2022 году, когда он только вышел. Изначально это была новинка, но не особенно полезная для научных приложений. Он был весьма склонен к галлюцинациям, попадал в бесконечную череду ошибок, которые затем пытался исправить, и часто совершенно неверно интерпретировал инструкции. Но у него были неплохие навыки в кодировании, и он мог (иногда) помочь устранить ошибки в моем коде гораздо быстрее, чем пытаться найти Stack Overflow или старые записи в Reddit. Ситуация изменилась с выпуском GPT4 в 2023 году, и в частности с выпуском интерпретатора кода, который мог автоматизировать анализ данных и возможности визуализации. Ит по-прежнему страдал галлюцинациями, не был силен в написании текстов, но, возможно, мог программировать лучше, чем обычный ученый. В одном из моих предыдущих проектов я попросил ит-специалистов помочь визуализировать, насколько необычным было лето 2023 года с точки зрения глобальных температур, что помогло сгенерировать идеи и код для этого несколько вирусного поста о климате (который я тогда назвал “ошеломляюще банановым”).
Сегодня инструменты намного лучше, чем были в 2023 году. Галлюцинации все еще существуют, но они встречаются гораздо реже. Как человек, который использовал эти инструменты чаще, чем большинство представителей научного сообщества, я хорошо понимаю, для чего они нужны, а для чего сегодня они не работают. Сейчас я в основном использую Claude Code (Opus 4.6, через мой терминал) и веб-приложение для Gemini (3.1) для проектов, где полезна интеграция с моей электронной почтой, диском и другими частями экосистемы Google.
ИИ, для чего это нужно?
Итак, как ученые могут наилучшим образом использовать инструменты ИИ, чтобы быть более продуктивными или расширить свои возможности в области науки? Что, по моему опыту, хорошо работает с современными инструментами ИИ? Прежде всего, это программирование. Ученые, по большому счету, не инженеры-программисты. Большая часть их программистов — самоучки или студенты, которые когда-то учились в колледже, и многие ученые испытывают трудности с быстрым написанием кода, созданием хорошо документированного воспроизводимого кода и исправлением ошибок при кодировании. За последние три года способность инструментов искусственного интеллекта писать высококачественный код стремительно возросла до такой степени, что во многих приложениях они сравнимы с профессиональными инженерами-программистами (или даже превосходят их). Таким образом, английский (или любой другой обычный текстовый язык) все чаще становится новым кодом. Уточнение деталей вашего проекта, создание краткого плана и планирование тестов для обеспечения его правильной работы в значительной степени заменили написание кода на python в моем рабочем процессе. Здесь есть риск – как и в случае с любой мышцей, навык кодирования атрофируется без использования. Вполне возможно, что через десять лет я буду менее способен эффективно анализировать то, что было создано с помощью инструментов ИИ-кодирования. Но это может быть смягчено как хорошими тестами, так и глубоким пониманием сути темы, причем последнее позволяет критически оценить результаты, чтобы убедиться в их обоснованности.
Еще одна область, где я нахожу инструменты искусственного интеллекта все более полезными, — это очистка и анализ данных. Во многих прошлых проектах я тратил больше времени на обработку данных – объединение различных файлов с несогласованными соглашениями об именовании, выявление и исправление ошибок ввода данных – чем на сам анализ. Инструменты искусственного интеллекта неплохо справляются с очисткой, объединением и анализом больших массивов данных. Они могут легко работать с более узкими типами файлов, такими как NetCDF, а также помогают создать чистую и хорошо документированную систему управления файлами.
Визуализация данных — это еще одна область, в которой за последние годы я увидел значительный прогресс. Как человек, который потратил немало часов, бившись головой о пресловутую стену, пытаясь заставить matplotlib (основную библиотеку построения графиков на python) выполнять то, что должно быть довольно простым, возможность просто написать то, что я хочу, в виде графика на простом английском языке и увидеть, как это происходит, — это не что иное, как волшебство. После того, как появилась возможность перемещать шкалу цветовых полос с горизонтальной оси на вертикальную, просто дав команду инструменту сделать это, было бы трудно когда-либо вернуться к бесконечному просмотру документации по функциям arcane.
Я также обнаружил, что инструменты искусственного интеллекта становятся все более эффективными в разработке идей для визуализации данных. Некоторые из моих недавних экспериментов с новыми способами визуализации глобальных температур (например, график годичных колец деревьев) были основаны на использовании этих инструментов для создания новых визуализаций, которые одновременно привлекательны и отличаются от всего, что было опубликовано ранее. Аналогичным образом, перевести статические графики, которые я ранее разработал, в интерактивные версии (например, на новой панели мониторинга климата) довольно просто. Наконец, есть навыки, которые я никогда не развивал, и которые ИИ легко развивает. “Vibe coding” с помощью таких инструментов, как Claude Code, позволяет мне создавать и размещать веб-сайты за один день (например, панель мониторинга климата), чего я никогда раньше не делал в своей жизни. Я создал забавные математические игры для своей 8-летней дочери, чтобы помочь ей с учебой в школе, а также работаю над более сложными интерактивными визуализациями данных с использованием больших наборов геопространственных данных, которые, надеюсь, скоро появятся на панели мониторинга.

Для чего искусственный интеллект не так хорош (по крайней мере, пока).
Искусственный интеллект хорош в более технических, количественных вопросах. По крайней мере, для меня, он не подходит для создания контента такого типа (как этот пост в блоге), который в большей степени отражает личный опыт или взгляды. Вы можете написать достаточно сжатую спецификацию (или план) для небольшого анализа данных. Сложнее сделать то же самое с эссе. Несмотря на то, что на протяжении многих лет я проводил множество экспериментов с различиями – пытался заставить ИИ анализировать прошлые работы, чтобы изучить мой стиль, – я по-прежнему считаю, что ИИ, пишущий мои собственные тексты, — это жалкое подобие меня.1 Существует определенный стиль написания текстов искусственным интеллектом, который отличается от других и немного бездушен, и хотя в будущем ситуация может улучшиться, я подозреваю, что это останется областью, в которой люди будут продолжать работать. Тем не менее, есть несколько вариантов использования, когда ИИ может быть полезен при написании текстов. Он может служить в качестве достаточно хорошего редактора, предлагая изменения, которые сделают первый черновик более читабельным перед публикацией. Он также может помочь с тональностью, когда вы пытаетесь написать что-то, что выходит за рамки вашего обычного стиля. Например, в прошлом году я выступал с вступительной речью на программе для аспирантов, где написал первоначальный вариант и использовал искусственный интеллект, чтобы сделать ее более вдохновляющей и соответствующей случаю.
Я также часто использую его для составления внутренних служебных записок или другой непубличной документации, где стиль менее важен, чем содержание. Но мое личное правило заключается в том, что все, что я публикую под своим именем, остается написанным исключительно мной.
Исследования с использованием искусственного интеллекта, по моему опыту, хороши, но не очень хороши. Я нахожу такие инструменты, как Deep Research в Gemini, полезными для получения хорошего обзора по темам, в которых я лично не обладаю глубокими знаниями; например, на прошлой неделе я использовал их для составления краткого отчета, в котором сравнивались различные стандарты оценки жизненного цикла использования промышленных отходов, таких как стальной шлак, для проектов по удалению углерода. Но эти инструменты не имеют полного доступа к рецензируемой научной литературе (большая часть которой остается за рамками платных журналов) и часто дают менее тщательную (хотя и по-прежнему полезную) оценку тем, которые я лично хорошо знаю.
Аналогичным образом, искусственный интеллект все еще имеет некоторые недостатки при использовании для обобщения или оценки (а не простого обзора) научных результатов. Такие упражнения, как написание доклада МГЭИК или тщательный обзор климатических переломных моментов, требуют как знакомства с литературой, так и умения выносить экспертные суждения о том, как оценить достоверность и важность различных источников, чего, по моему мнению, не хватает большинству оценок, основанных на ИИ. Один из возможных способов улучшить его — использовать искусственный интеллект для создания основы для научных оценок, но при этом ученые в конечном счете будут контролировать их. Недавно я сотрудничал с Google Deepmind в пилотировании инструмента для этой цели, и вы можете найти подготовленный нами препринт о результатах (а также черновую оценку риска переломных моментов AMOC) здесь.
ИИ имеет некоторый консервативный уклон (не в политическом смысле), когда он, как правило, придерживается общепринятых правил, представленных в его обучающих данных, и не учитывает новые исследования. Например, когда я помогал разрабатывать рубрику оценки с помощью искусственного интеллекта знаний в области науки о климате, один из вопросов, который я разработал, касался того, что произойдет с глобальными температурами, если выбросы CO2 прекратятся. Ответы ИИ часто указывали на то, что в настоящее время наблюдается значительное потепление, несмотря на более поздние выводы о стремлении к почти нулевому уровню выбросов. Наконец, несмотря на то, что у меня был хороший опыт использования искусственного интеллекта для генерации идей – например, для поиска креативных вариантов визуализации данных, – он, как правило, не очень хорошо подходит для создания оригинальных исследовательских идей. Понимание специалистом в той или иной области того, что важно и как это вписывается в более широкие потребности отрасли, является одной из важнейших причин того, что, по крайней мере в науке, люди останутся ключевой движущей силой научных инноваций в обозримом будущем.
Энергетический слон в комнате
Искусственный интеллект — полезный инструмент для науки, но важно подчеркнуть некоторые связанные с этим макроэкономические проблемы. Текущее строительство центров обработки данных, основанное на ИИ, привело (наряду с другими факторами) к резкому увеличению спроса на электроэнергию в США. По некоторым оценкам, только центры обработки данных будут потреблять до 12% электроэнергии в США к 2030 году – по сравнению примерно с 2% до 2025 года. Многое (но, надеюсь, не все) из этого будет производиться за счет новой генерации природного газа, по крайней мере, в ближайшей перспективе. В то же время легко переоценить, насколько большое влияние это окажет на выбросы в США. Увеличение общего потребления электроэнергии в США на ~10% за счет центров обработки данных увеличило бы выбросы в электроэнергетическом секторе США примерно на 10%, если бы они полностью работали на газе, что привело бы к общему увеличению выбросов в США на 2,5%. Для сравнения, с 2005 года общий объем выбросов в США сократился примерно на 20%. Бум искусственного интеллекта, работающего на газе, усложнил бы достижение наших климатических целей, но сам по себе не сильно повлиял бы на температурные показатели 2100 года. Фактическое потребление энергии на один запрос искусственного интеллекта на самом деле на удивление невелико и составляет всего около 0,3 ватт-часов на типичный запрос2.

Использование энергии связано с обычными повседневными делами. Из книги Ханны Ричи «Превосходно ли это», в которой используется много энергии.
Чтобы представить это в перспективе, 10-минутный прием душа (что довольно экономично) потребляет столько же энергии, сколько около 6000 запросов с использованием искусственного интеллекта3,в то время как 10-километровая поездка туда и обратно в офис (также относительно короткая) на бензиновом автомобиле потребляет столько же энергии, сколько более 30 000 запросов с использованием искусственного интеллекта3.⁴ Эти статистические данные могут немного вводить в заблуждение, поскольку модели, работающие в режиме рассуждения, могут включать множество отдельных запросов, а такие инструменты, как глубокое исследование, могут включать сотни или даже тысячи. Но даже мощное использование инструментов искусственного интеллекта вряд ли приведет к большему количеству выбросов, чем при короткой поездке на работу. Это не значит, что индустрию искусственного интеллекта следует оставить в покое. Им следует быть более амбициозными в обеспечении экологически чистой энергией центров обработки данных, в том числе изучить возможность использования крупномасштабных солнечных батарей и систем хранения данных. Я был соавтором отчета, опубликованного в декабре 2024 года, в котором говорилось, что в солнечных районах страны 90% годового энергопотребления центров обработки данных может быть обеспечено за счет солнечной энергии и накопителей (а оставшиеся 10% — за счет резервного газоснабжения), что лишь незначительно дешевле, чем при 100%-ном использовании газа. Но многие компании, создающие модели искусственного интеллекта, такие как Google и Microsoft, сегодня также являются крупнейшими покупателями экологически чистой энергии. В мире расходы на центры обработки данных с искусственным интеллектом приводят к появлению множества энергетических технологий нового поколения — таких, как крупномасштабные солнечные батареи и микросети хранения данных, усовершенствованная геотермальная энергия, ядерная энергия нового поколения и тому подобное. Это произойдет в больших масштабах только в том случае, если государственные и местные органы власти, а также потребители будут продолжать оказывать давление на эти компании, требуя от них достижения своих целей в области климата, и не позволят буму искусственного интеллекта стать поводом для того, чтобы отбросить обязательства по экологически чистой энергетике на второй план.
Эксперимент в (полу) реальном времени
Когда я писал этот пост, мне пришла в голову хорошая идея для анализа, чтобы проиллюстрировать, как мой рабочий процесс в Claude Code работает на практике. Несколько лет назад я провел анализ того, насколько велика неопределенность в отношении будущего потепления из-за чувствительности климата к обратным связям с углеродным циклом, и подумал, что было бы интересно посмотреть, как Клод сможет выполнить прогоны климатической модели, необходимые для воспроизведения результатов. Как вы увидите, это является как примером того, на что способны инструменты искусственного интеллекта, так и подводными камнями, связанными с отсутствием четкого указания на то, какой именно анализ следует проводить.
Я начал с подсказки, описывающей анализ, который я хотел получить: Давайте попробуем новый анализ. Я хочу выяснить, какая часть диапазона будущего потепления в 2100 году связана с обратными связями углеродного цикла, а какая — с чувствительностью климата. Для этого давайте сосредоточимся на среднем сценарии и проведем три эксперимента. Во-первых, полный нормальный цикл, который учитывает обратную связь по углеродному циклу и чувствительность к климату. Во-вторых, выполняется прогон, в котором используется сценарий средней концентрации/форсирования из первоначального прогона, и модель запускается в режиме, зависящем от концентрации/форсирования, а не от выбросов, чтобы получить диапазон результатов с постоянными обратными связями углеродного цикла. И, наконец, прогон, фиксирующий чувствительность климата на среднем значении в модели FaIR и позволяющий только обратным связям с углеродным циклом определять разницу температур в 2100 году.
Давайте создадим сводную диаграмму с двумя расположенными рядом верхними графиками, показывающими эволюцию во времени только обратной связи по углеродному циклу и только изменения чувствительности к климату, а на нижнем графике показаны прямоугольные графики, показывающие результаты измерений температуры на 2100 год для трех экспериментов. Клоду потребовалось около 7 минут на обдумывание, чтобы разработать план, поскольку для этого Клоду потребовалось задействовать несколько субагентов, чтобы ознакомиться с кодом модели FaIR и найти наилучший способ проведения анализа (в частности, эксперимент 3, для которого FaIR изначально не настроен).⁵
Plan: Decompose Warming Uncertainty — Climate Sensitivity vs Carbon Cycle
Context
We want to understand how much of the range of future warming in 2100 under the CMIP7 "medium" scenario comes from uncertainty in climate sensitivity (how temperature responds to forcing) versus carbon cycle feedbacks (how emissions translate to concentrations and forcing). We'll create three FaIR experiments and a composite figure.
Three Experiments
Experiment 1 — Full run (baseline)
Standard emissions-driven run for "medium" scenario only, all 841 configs. Reuse setup_and_run() pattern from run_cmip7_fair.py:62-113 but with f.define_scenarios(["medium"]). The 5-95% spread at 2100 captures all sources of uncertainty.
Experiment 2 — Climate sensitivity only
1. Extract median forcing from Exp 1: np.median(f.forcing_sum.sel(scenario="medium").values, axis=1) → shape (351,)
2. Create forcing-driven FAIR with "bulk" species (input_mode="forcing") — same pattern as run_cmip7_attribution.py:205-266
3. Fill all 841 configs with the same median forcing
4. Load all 841 climate configs via override_defaults() — these still vary
5. Run → spread comes only from variation in climate response parameters (ECS/TCR)
Experiment 3 — Carbon cycle & forcing only
1. Set up standard emissions-driven FAIR (same as Exp 1)
2. After override_defaults(), overwrite the 11 climate response parameters in f.climate_configs with their median values across all 841 members:
- gamma_autocorrelation, sigma_eta, sigma_xi
- ocean_heat_capacity[0,1,2], ocean_heat_transfer[0,1,2]
- deep_ocean_efficacy, forcing_4co2
3. Leave seed, use_seed, stochastic_run untouched (boolean flags, not climate sensitivity)
4. Run → spread comes only from variation in carbon cycle parameters (iirf_*, partition_fraction*), forcing scale parameters (forcing_scale[*], erfari_*, aci_*, ozone_*), and baseline concentrations
Key confirmation: forcing_4co2 is purely a climate response parameter — it does NOT appear in any GHG forcing function. CO2 forcing uses forcing_scale[CO2] instead. So fixing it in Exp 3 is correct.
Verification
1. Exp 1 median at 2100 should be ~2.8°C (consistent with existing medium scenario results)
2. Exp 2 + Exp 3 medians should be similar to Exp 1 median (same central estimate)
3. Exp 2 + Exp 3 spreads should sum to roughly (not exactly) Exp 1 spread
4. Climate sensitivity should account for the majority of the spread (typically ~60-70%)
После создания плана фактический анализ проводился намного быстрее. На написание кода, запуск моделирования климатической модели и получение результатов ушло около 2 минут и 30 секунд. В приведенном здесь моделировании используется “средний” сценарий выбросов CMIP7, предоставленный Крисом Смитом, поскольку официальные версии сценариев выбросов будут опубликованы только позднее этим летом.

Однако, эти результаты сразу же показались немного странными, поскольку разброс в показателях чувствительности к климату превышал полную неопределенность. Завершив анализ, Клод отметил необычный аспект результатов:
The figure looks good. The results reveal an interesting finding — the climate sensitivity spread (122% of full) exceeds the full spread, while carbon cycle & forcing accounts for 51%. The sum exceeds 100% because there are negative correlations in the calibrated ensemble between climate sensitivity and forcing parameters, which partially offset each other in the full run.
Теперь, когда вы обнаруживаете подобный неожиданный результат в ходе анализа, ваша первая мысль заключается в том, что это может быть ошибка, а если нет, то, возможно, непреднамеренный результат выбранного вами подхода. Я склонен считать, что Claude весьма полезен в диагностике подобных проблем и помогает определить, были ли они ошибкой в реализации кода или в моих инструкциях по анализу. Я предложил ему копнуть немного глубже: Давайте углубимся в изучение того, почему результат, основанный только на чувствительности к изменению климата, имеет большую неопределенность, чем полный анализ неопределенности. Давайте сравним каждый элемент совокупности между двумя анализами, сосредоточив внимание на том, как различаются температура и концентрации CO2.
После дополнительных 3 минут и 8 секунд написания и запуска кода он выдал следующий диагностический рисунок, показывающий, почему результаты оказались нелогичными:

Интересно, что это, по-видимому, отчасти связано с калиброванным ансамблевым подходом, который использует FaIR для обеспечения того, чтобы прогоны моделей соответствовали историческим наблюдениям. В результате модели с более высокой чувствительностью приводят к меньшему радиационному воздействию на четырехкратное увеличение атмосферного CO2 (что является широко используемым результатом диагностической модели и косвенным показателем ECS), что позволяет избежать слишком большого расхождения исторических результатов, в то время как модели с более низкой чувствительностью приводят к более высокому воздействию. В частности, модели с более высокой чувствительностью, как правило, имеют соответственно большее отрицательное воздействие аэрозоля, в то время как модели с более низкой чувствительностью имеют меньшее отрицательное воздействие аэрозоля. Сохранение постоянного воздействия в эксперименте 2, как это было сделано нами, нарушает эту зависимость.
Вот тут-то и пригодятся солидные базовые знания о задействованных процессах, а чрезмерная зависимость от искусственного интеллекта потенциально может сбить вас с пути истинного. Мое первоначальное предложение было неточным; я попросил Claude “использовать сценарий средней концентрации/форсирования из этого первоначального прогона и запустить модель в режиме, зависящем от концентрации/форсирования, а не от выбросов, чтобы получить диапазон результатов, поддерживающих постоянную обратную связь по углеродному циклу”. FaIR поддерживает три различных типа прогонов: за счет выбросов, за счет концентрации и за счет форсирования. Я имел в виду (но не уточнил) использовать прогоны, основанные на концентрации, когда это возможно, и прогоны, основанные на форсировании, когда это невозможно (например, для солнечных и вулканических воздействий). Клод интерпретировал это как создание прогона, основанного на форсировании, для всех переменных в своем эксперименте 2. Чтобы правильно оценить разброс результатов при исключении обратных связей по углеродному циклу, мне нужно использовать здесь прогоны, основанные на концентрации (и, вероятно, я бы заметил это в плане исследований Клода, если бы уделил ему больше времени!). Действительно, повторный запуск эксперимента с использованием прогонов, основанных на концентрации (с прогонами, основанными на воздействии солнца и вулканических воздействий), дал гораздо более приемлемые результаты, соответствующие моим предыдущим ожиданиям:

Это также в значительной степени устраняет странные артефакты в диагностике при сравнении одних и тех же элементов ансамбля в двух прогонах:

Если бы я планировал использовать этот анализ в настоящей исследовательской работе, я бы с самого начала потратил гораздо больше времени на то, чтобы составить правильный план (в том числе попросил Клода задавать мне вопросы при написании статьи, чтобы устранить любые неопределенности). Я бы также потратил еще немного времени на изучение того, почему разброс только чувствительности к климату остается таким большим (хотя и немного меньшим, чем общий разброс) и почему медианы второго и третьего экспериментов немного отличаются от медианы полной неопределенности. Но я думаю, что это в целом иллюстрирует мощь этих инструментов. Возможность составить подробный план эксперимента и поручить ИИ-агентам написать код и запустить необходимые модели значительно повышает производительность. Это не всегда будет идеально – необходимо тщательно следить за тем, чтобы инструкции выполнялись точно, а результаты не содержали ошибок.
Но, как я убедился на собственном горьком опыте, написанный человеком код также не гарантирует отсутствие ошибок. 1
Само собой разумеется, что весь этот пост был написан мной. Я также был поклонником тире до того, как они стали отличительной чертой написания текстов с помощью искусственного интеллекта, что меня довольно раздражает, поскольку сейчас я с большей неохотой их использую. 2
Это включает в себя оценку энергопотребления, необходимого для обучения модели, хотя на практике то, как это будет учитываться при выполнении отдельных запросов, будет зависеть от срока службы рассматриваемой модели. 3
Что касается использования воды, то вам потребуется выполнить от 295 000 до 363 000 стандартных запросов с использованием искусственного интеллекта, чтобы подсчитать количество воды, израсходованной за один 10-минутный душ, на основе данных об использовании воды по запросу Google Gemini (0,25 миллилитра на запрос). 4
Обычная 10-мильная поездка на электромобиле вызовет всего 10 000 запросов. 5
Обратите внимание, что план отредактирован вплоть до важных частей; полная версия содержит гораздо больше деталей реализации и обсуждений результирующей визуализации данных.
© 2026 Эндрю Десслер и Зик Хаусфатер отказались от подписки