Главной целью применения слепого метода является исключение субъективных факторов, влияющих на выбор (или оценку) испытуемого. Так, например, при сравнении двух файлов: оригинала (lossless) и MP3, большинство людей, уверенных в качестве воспроизводящего оборудования и в своем слухе, скорей всего почувствуют в звучании существенные различия. Но, если эти же люди предварительно не будут осведомлены о том, какой файл в данный момент воспроизводится — большая часть не сможет угадать: звучит в данный момент MP3 или же оригинал.
В этом и заключается суть слепого тестирования: участник теста не знает, с каким из объектов теста он имеет дело в каждом отдельном случае (в идеале не обладает вообще никакой информацией об объектах исследования и их особенностях). Этот метод полностью исключает такое явление как «эффект пустышки», а также родственное ему когнитивное искажение под названием «предвзятость подтверждения». Таким образом появляется возможность определить, действительно ли участник теста воспринимает различия между объектами теста и, как следствие, может ли он проводить их сравнительную оценку.
Более совершенным вариантом слепого тестирования является т. н. «двойной слепой тест». В данном случае подразумевается, что как участник теста, так и экспериментатор, не осведомлены о порядке, характеристиках и особенностях объектов исследования. Благодаря этому полностью исключается возможность влияния экспериментатора на выбор испытуемого (это могут быть как сознательные, так и бессознательные, непроизвольные сигналы).
Разновидностью слепого тестирования является тестирование с использованием компьютерных программ — например, ABC/HR Java. В дальнейшем будем рассматривать методы слепого сравнения в контексте оценки качества кодирования аудио (для чего и предназначена программа ABC/HR Java).
Существует две методики слепого сравнения — ABX (ABXY) и ABC HR. Каждая из них имеет свою цель и особенности.
ABX (ABXY)
ABX тест проводится с целью выяснения: а) слышит ли пользователь различия в звучании между двумя файлами; б) есть ли различия в звучании двух файлов. Вторую гипотезу можно только с определенной достоверностью подтвердить (в случае подтверждения первой гипотезы), опровергнуть же её методом прослушивания нельзя — так как если человек не слышит различий, это не значит, что их нет; если же человек производит правильный выбор, всегда есть вероятность «угадывания» (50% при одном удачном проходе, 25% при двух удачных проходах, 12.5% — при трёх, и т. д., см. далее).
Процедура проведения ABX теста заключается в следующем. Пользователю предоставляется семпл А, являющийся оригиналом, семпл B, представляющий собой обработанную версию оригинала (например, оригинал кодированный в MP3) и неизвестный семпл X, являющийся либо оригиналом, либо обработанной версией. Задача пользователя — определить, какой из двух семплов скрывается под X. При этом пользователь может прослушивать и сравнивать (мгновенно переключаясь между ними) семплы A, B, X в любом порядке, неограниченное количество раз. После прослушивания пользователь должен дать четкий ответ: «X — это A» или «X — это B», этим заканчивается первый проход. Далее семпл X вновь случайным образом меняется на A или B и начинается следующий проход. По мере прохождения теста определяется вероятность того, что пользователь в действительности не слышит разницы и делает выбор наугад. Чем больше доля успешных проходов, тем ниже эта вероятность. Вероятность рассчитывается в соответствии с инверсной кумулятивной функцией биномиального распределения:
Вероятность заблуждения, в соответствии с биномиальным распределением (p=0.5). Здесь: n — количество проходов, s — количество правильных ответов
Надо отметить, что существует также вариант теста «ABXY». Его отличие лишь в том, что имеется не один, а два неизвестных семпла — один из которых обязательно оригинал, а другой — обработанная версия. Это позволяет сравнивать попарно, скажем X и A, затем Y и B, чтобы увеличить вероятность обнаружения различий.
В процессе прохождения теста ABX текущие результаты обычно скрывают (они отображаются лишь по завершении нужного количества проходов), однако возможен также предварительный режим тренировки, в котором текущие результаты видны пользователю — чтобы он «научился» определять отличия.
Ниже вы видите примеры ABX и ABXY тестирования с помощью ABC/HR Java и foobar2000 соответственно:
ABX тест в ABC/HR Java
ABXY тест в foobar2000
Таким образом, ABX тест позволяет обнаружить те случаи, когда пользователь в самом деле слышит различия в звучании двух семплов аудио. Для этого необходимо лишь задаться достаточной вероятностью ошибки (например, вероятность заблуждения P ≤ 0.01) и выполнить нужное количество проходов (минимальное количество проходов в данном случае — 7; рекомендуемое количество — 16).
Надо отметить, что для эффективного слепого сравнения необходимо выполнить два условия: а) исключить возможность «подсказок», влияющих на выбор пользователя; б) предоставить пользователю все возможности для выявления различий — сюда относится, например, обеспечение качества воспроизводящего тракта, используемого в тесте.
Дополнительную информацию о нюансах проведения слепых тестов можно получить в статье Монти Монтгомери.
ABC Hidden Reference
Как уже было сказано, в тесте ABX исследуется обнаружение различий между двумя семплами (обычно между оригиналом и обработанным). ABX тест подойдет, когда надо, скажем, выявить недостатки кодера при работе в определенном режиме. Однако часто возникает необходимость сравнения качества кодирования различными кодерами. Именно для таких случае и нужен тест ABC/HR.
В ABC/HR тесте мы имеем дело с несколькими кодеками. Для каждого кодека создаётся пара A и B — оригинал и обработанный семпл в случайном порядке, а также оригинал C (общий для всех кодеков). Само собой, пользователю неизвестно, какая пара какому кодеку соответствует. Задача же его состоит в том, чтобы в каждой паре, во-первых, определить, где оригинал, а где обработанная версия, и, во-вторых, дать обработанной версии (а равно и соответствующему кодеку) оценку качества. Трюк заключается в том, что если пользователь не отличил обработанную версию от оригинала, его оценка данному кодеку не зачитывается. Если же пользователь наоборот, дал низкую оценку оригиналу — его результаты могут быть признаны недействительными. Кроме того, для отсеивания ошибочных результатов используется и другой метод. В тест включается заведомо некачественный семпл — «low anchor» — с высоким уровнем искажений, которые на исправном оборудовании просто невозможно не заметить. Необходимым условием признания результатов является установка для данного кодека низкой оценки.
Тестирование шести кодеков (5 + low anchor) в ABC/HR Java
Кроме того, в процессе ABC/HR теста предусмотрено использование методики ABX: пользователь может выполнить несколько проходов, после чего программа определит, слышит он различия или нет. Если да, программа автоматически отметит обработанный семпл (оригинал станет недоступным для оценки), в противном же случае оценка соответствующего семплу кодека блокируется.
Итак, методика ABC/HR является эффективным инструментом для слепого сравнения качества звучания различных кодеков аудио. В сочетании с шифрованием файлов конфигурации и результатов, ABC/HR не только исключает влияние предвзятости участников теста, но также и делает практически невозможной подделку результатов.
Материалы по теме
Информация от спонсора
Интернет-магазин WeldShop.ru: всё ля сварки. На сайте магазина Вы можете ознакомиться с ассортиментом и заказать любое необходимое сварочное оборудование по низким ценам.В продаже имеются выпрямители, инверторы, трансформаторы, пуско-зарядные устройства, а также сварочные материалы. Доставка по территории России и стран СНГ.
|