Недавно я давал интервью насчет нейросетей, которые не только учатся и умеют, но также умеют учиться писать тексты, рисовать картинки и сочинять музыку. В процессе подготовки набрел на несколько питательных примеров. Вот, например, есть такая цифровая зверушка Hexahedria. Не жалейте времени, послушайте несколько треков отсюда.
Первое впечатление: треш, неумелая импровизация. Второе: привлекает внимание. (Второе-с-половиной: похоже на «Соловьиную рощу» Сорокина.) Третье: как неправильны эти кадансы, как нелогичны эти мелодии, как несоединимы соседние элементы и неуклюжи структурные стыки.
И наконец четвертое: что заставляет меня считать вышеперечисленное неуклюжим, неловким, несоединимым? А вот, например, мелодический калейдоскоп в этой сонате Моцарта – он ловкий и соединимый?
То есть безусловно да, и я легко могу объяснить, почему. Но ведь вопрос в другом: исходя из каких базовых представлений я собираюсь это объяснять.
Речь не про условную мелодию-гармонию-ритм, а про то, частными случаями чего они сами являются: повторение и различие, связность и контраст, дефицит и избыток информации. В нас они встроены через естественное обучение, learning by exposure.
Если мы много чего слышали или специально учились, тогда наши представления гибче и шире. Менее потребительские. Более базовые и «правильные». Только подозреваю, что разница тут количественная. Потому что все мы – от адорновского идеального слушателя-эксперта до любителя русского, прости господи, шансона – ищем в любой музыке свои базовые представления. А если не находим, решаем, что она плохая или неправильная. Вот я, например, сразу решил, что нейросеть Hexahedria написала неумелую и неуклюжую музыку. Безликую. Машина, она машина и есть.
В своей системе представлений я, конечно, прав. Но в каких терминах я изъясняюсь? Мне надо провести границу между собой и машиной. В данном случае она и так проведена, но мое межевание очень похоже на то, как любители прекрасного судят о современном искусстве: им надо прежде всего провести границу; в предельном случае это ведет к расчеловечиванию оппонента, как на войне.
Разница между хорошим композитором и плохим количественная. А разница между нейросетью и плохим композитором качественная. То же самое верно и для слушателей.
Их нужно скармливать нейросети в виде бесчисленных частных случаев, что и делают отцы-программисты, причем очень интересно про это пишут. Говорят, что пытаются бороться со стремлением машины к стилизации, – изучил ты много, допустим, Шопена и сам написал что-то похожее. А они такие результаты отсеивают и прореживают. То есть Шопена ешь, но подражай не только ему, а сразу еще и Шуману, Веберу, Мендельсону и Брамсу. (А, предположим, Бартоку, Стравинскому и Прокофьеву не подражай, мы ими в следующий раз тебя покормим.)
Надо сказать, что это совершенно не человеческая логика и что она никогда не приведет старательную Гексахедрию к мало-мальскому композитороподобию.
Потому что это ход мысли программиста, а не музыканта. Непохожесть на отдельный стиль никак не связана с оригинальностью. Когда учится человек, он впитывает разноуровневые закономерности – от самых общих, о которых речь шла выше, до мелких стилистических особенностей, – как бы одним пакетом.
Внутри же пакета, бывает, от отдельных ярких образцов мы расширяем свои слуховые ориентиры до стиля целого направления или эпохи; бывает и наоборот. Но стиль каждый из нас чувствует как интегральную целостность. Мы узнаем композитора или эпоху не потому, что считываем алгоритмы в реальном времени, а потому, что известные нам стилевые маркеры запускают процесс более узкого опознания.
Этот процесс очень быстрый и скорее негативный, апофатический. Мы исключаем невозможные варианты в смысле атрибуции слышимого, а стало быть и в смысле его непосредственного продолжения – то есть за счет сужения вариантов активируется наш алгоритмический словарь; и пожалуй, лишь начиная с этого момента процедуру можно отчасти формализовать, поскольку здесь она обретает вероятностные контуры.
В самом простом варианте – вам открывают буквы одну за другой, надо угадать слово. Набор возможных вариантов с открытием каждой следующей буквы сужается. Теперь представьте, что 1) язык тоже нужно определить, 2) буквы открываются в хаотическом порядке, 3) вы никогда не слышали именно это слово, хоть и слышали похожие, 4) правильного ответа может не быть.
И все равно – очень важно, что нейросеть действует совсем не так. Как именно – мы имеем шанс понять только через анализ ее сочинений, поскольку происходящее внутри зафиксировать невозможно. Не исключено, что эта практика даст нашему слуху внешнюю точку опоры. По-настоящему внешнюю. И с нее мы сможем точнее увидеть, что происходит внутри нас.