ИИ топит рецензирование под завязку

0
14

Прошлым летом Питер Дежен получил звонок от своего научного руководителя. Весть была странной: одну из его старых статей цитируют слишком часто.

Статья вышла в 2017 году и касалась статистической точности эпидемиологических данных. За годы она набрала несколько десятков цитирований. Ничего особенного. Даже скучновато. Но вдруг ее стали упоминать раз в несколько недель. Сотни раз. Она взлетела на вершину рейтинга.

Дежен начал копать. Он заметил закономерность в цитирующих работах. Все они использовали набор данных о глобальном бремени болезней (Global Burden of Disease) из Университета Вашингтона. Одни и те же данные. Разные тривиальные вопросы. Скорее ли люди в Китае упадут? Развивается ли у мужчин колоректальный рак при полном отказе от цельнозерновых продуктов? Каков риск инсульта для всех старше двадцати лет?

Бесконечные вариации одной темы.

Дежен проследил за кодом до компании на китайской социальной платформе Bilibili. Они продавали туториалы по выпуску публикуемых статей менее чем за два часа с помощью ИИ. Качество было невелико. Подмножество исследований о головных болях было испещрено ошибками. Но ошибок не было «глупыми». Не так, как в ранние времена «ИИ-мусора», когда галлюцинации кричали «фейк».

«Это огромная нагрузка на систему рецензирования», — сказал Дежен.

Он шутил не шутил. Рецензентов не хватает. Если большие языковые модели продолжат массово производить статьи, вся система сломается.

Серая зона

«Фабрики статей» существуют уже десять лет. Чёрные рынки, продающие авторство отчаявшимся врачам или академическим работникам, желающим улучшить резюме. Издатели и научные детективы играли в «whack-a-mole» (разомкнули одну дыру, фабрики вырыли другую).

Ранние генеративные модели ИИ помогали им обходить проверки на плагиат, «перемешивая» текст и подделывая изображения. Но эти подделки были небрежными. Крысы с абсурдно большими гениталиями, помеченные как «testtomcels». Проза с фразами вроде «как ИИ-ассистент». Легко заметить.

Теперь инструменты созрели.

ИИ может писать убедительную статью почти на автопилоте. Отчаявшимся исследователям даже не нужны фабрики статей. Они могут запустить свою собственную. Результат: потоп.

Мэтт Спик из Университета Сассекса заметил сдвиг. Ему поступили три статьи, анализирующих набор данных US NHANES. Они были поразительно похожими. Он проверил Google Scholar. Взрыв. Все они копали в общественных данных ради крошечных корреляций. Помогает ли еда из грецких орехов мозгу? Вызывает ли обезжиренное молоко депрессию?

Спик назвал это научным спамом.

«Если у вас достаточно вычислительных мощностей, вы измеряете каждую попарную ассоциацию», — сказал он. «В конце концов вы найдёте что-то неисследованное и опубликуете это».

Корреляции, не означающие ничего. Одно исследование связало годы образования с послеоперационными грыжами.

Что мне делать? Бросить школу, чтобы избежать грыж? Это шум.

Детективы раньше искали «мучительные фразы», такие как «reinforcement getting to know» («усиление узнавания»). Нonsense, рождённый синоним-спиннерами. Теперь это не работает. Спик ищет шаблоны статей, копающих в одних и тех же базах данных. Но шаблоны исчезли.

Инструменты становятся умнее

Журналы начали запрещать подачи статей на основе общественных наборов данных в прошлом году. Они тонут.

Но форма потопа меняется. Теперь существуют ИИ-агенты, способные анализировать данные, формировать гипотезы и писать статьи с высокой автономностью. OpenAI анонсировала инструмент под названием Prism. Она обещала революционизировать науку так же, как ИИ сделал это для кодинга в 2025 году.

Спик протестировал его. Он дал Prism данные из опубликованной статьи о созревании баклажанов и перцев.

Prism проанализировала их. Предложила новый статистический метод. Написала полную статью с графиками и реальными цитатами.

Это заняло двадцать пять минут.

Спик и его коллеги смотрели на экран. «Это на самом деле прилично». Она не следовала обычным шаблонам. Это не было явной галлюцинацией.

Как нам это отфильтровать?

Важно ли, кто написал статью, если факты верны?

«Наука должна быть фильтром», — сказал Спик. «Мы публикуем интересное. Не буквально всё».

Если мы публикуем всё, мы просто спамим мир данными. Половина из них может не быть знанием. Просто шум. И через год или два, кто сможет отличить разницу?

Система ломается

Марит Мое-Прайс редактирует журнал Security Dialogue. Поступления выросли на 100%.

Хуже: теперь все они хорошие. Нет больше оставшихся промптов. Нет очевидных ошибок. Текст связный, структурированный, отполированный. Это бот? Молодой учёный? Эксперт? Трудно сказать.

Она называет это серой массой.

«Мошенническая сторона и академическая сторона сливаются».

Ей приходится пробираться сквозь эту серость, чтобы найти настоящую работу. Недавно она поймала поддельную цитату. Она перечисляла бывших редакторов, писавших о теме, которой они никогда не касались. Плавдоподобно. Мёртво точно. Она поймала это только путем перекрёстной ссылки.

Она должна была проверить, были ли цитируемые статьи действительно релевантны для экспертов. ИИ теперь цитирует реальные статьи. Но он может просто не выбрать те, которые использовал бы инсайдер.

Это детализированная работа. Ручной труд. И его так много.

Рецензенты — бесплатные. Волонтёры. Они устали. Мое-Прайс рассылает десятки запросов и ничего не получает. Или, может быть, два ответа из двадцати попыток.

Дэвид Резник из Accountability in Research видит скачок на 60% в поступлениях. Он осаждён статьями о мошеннических статьях. Ирония, в стороне.

Он также догадывается, являются ли полученные им рецензии написанными ИИ. Опрос показал, что более половины исследователей используют ИИ для рецензирования.

Объём растёт. Пул PhD, способных это рецензировать, — нет.

Исследования количественных наук показали экспоненциальный рост опубликованных статей. Не потому, что наука продвигается быстрее. Потому что структура стимулов вознаграждает количество.

Открытые доступы журналы берут плату. У них нет причины ограничивать объём. ИИ предоставляет бесконечное предложение. Человеческая сторона заканчивает время.