ISO 11132:2012
(Main)Sensory analysis — Methodology — Guidelines for monitoring the performance of a quantitative sensory panel
Sensory analysis — Methodology — Guidelines for monitoring the performance of a quantitative sensory panel
ISO 11132:2012 gives guidelines for monitoring and assessing the overall performance of a quantitative descriptive panel and the performance of each member. A panel of assessors can be used as an instrument to assess the magnitude of sensory attributes. Performance is the measure of the ability of a panel or an assessor to make valid attribute assessments across the products being evaluated. It can be monitored at a given time point or tracked over time. Performance comprises the ability of a panel to detect, identify, and measure an attribute, use attributes in a similar way to other panels or assessors, discriminate between stimuli, use a scale properly, repeat their own results, and reproduce results from other panels or assessors. The methods specified allow the consistency, repeatability, freedom from bias and ability to discriminate of panels and assessors to be monitored and assessed. Monitoring and assessment of agreement between panel members is also covered. Monitoring and assessment can be carried out in one session or over time. Monitoring performance data enables the panel leader to improve panel and assessor performance, to identify issues and retraining needs or to identify assessors who are not performing well enough to continue participating. The methods specified in ISO 11132:2012 can be used by the panel leader to appraise continuously the performance of panels or individual assessors. ISO 11132:2012 applies to individuals or panels in training as well as for established panels.
Analyse sensorielle — Méthodologie — Lignes directrices pour le contrôle de la performance d'un jury sensoriel quantitatif
L'ISO 11132:2012 donne des lignes directrices pour contrôler et évaluer la performance globale d'un jury descriptif quantitatif et la performance de chaque membre. Un jury de sujets peut être utilisé comme un instrument pour évaluer l'intensité d'attributs sensoriels. La performance est la mesure de la capacité d'un jury ou d'un sujet à effectuer des jugements valides d'attributs concernant les produits à évaluer. Elle peut être contrôlée à un moment donné ou suivie au fil du temps. La performance est la capacité d'un jury à détecter, identifier et mesurer un attribut, à utiliser les attributs de la même manière que d'autres jurys ou sujets, à différencier les stimulus, à utiliser correctement une échelle, à répéter ses propres résultats et à reproduire les résultats d'autres jurys ou sujets. Les méthodes spécifiées permettent de contrôler et d'évaluer la cohérence, la répétabilité, l'absence de biais et la capacité de discrimination de jurys et de sujets. Le contrôle et l'évaluation de la concordance entre les membres du jury sont également abordés. Le contrôle et l'évaluation peuvent être réalisés au cours d'une session ou au fil du temps. Le contrôle des données de performance permet au responsable du jury d'améliorer la performance du jury et des sujets, d'identifier les problèmes et les besoins de remise à niveau ou d'identifier les sujets qui ne sont pas suffisamment performants pour continuer à participer. Les méthodes spécifiées dans l'ISO 11132:2012 peuvent être utilisées par le responsable du jury pour évaluer de façon continue la performance du jury ou de chaque sujet. L'ISO 11132:2012 s'applique à des sujets ou à des jurys en formation aussi bien qu'à des jurys établis.
General Information
Relations
Buy Standard
Standards Content (Sample)
МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 11132
Первое издание
2012-11-01
Сенсорный анализ. Методология.
Руководящие указания по мониторингу
результативности работы группы по
количественному анализу
Sensory analysis — Methodology — Guidelines for monitoring the
performance of a quantitative sensory panel
Ответственность за подготовку русской версии несёт GOST R
(Российская Федерация) в соответствии со статьёй 18.1 Устава ISO
Ссылочный номер
ISO 11132:2012(R)
©
ISO 2012
---------------------- Page: 1 ----------------------
ISO 11132:2012(R)
Отказ от ответственности при работе в PDF
Настоящий файл PDF может содержать интегрированные шрифты. В соответствии с условиями лицензирования, принятыми
фирмой Adobe, этот файл можно распечатать или вывести на экран, но его нельзя изменить, пока не будет получена
лицензия на загрузку интегрированных шрифтов в компьютер, на котором ведется редактирование. В случае загрузки
настоящего файла заинтересованные стороны принимают на себя ответственность за соблюдение лицензионных условий
фирмы Adobe. Центральный секретариат ISO не несет никакой ответственности в этом отношении.
Adobe торговый знак фирмы Adobe Systems Incorporated.
Подробности, относящиеся к программным продуктам, использованным для создания настоящего файла PDF, можно найти в
рубрике General info файла; параметры создания PDF были оптимизированы для печати. Были приняты во внимание все
меры предосторожности с тем, чтобы обеспечить пригодность настоящего файла для использования комитетами-членами
ISO. В редких случаях возникновения проблемы, связанной со сказанным выше, просьба проинформировать Центральный
секретариат по адресу, приведенному ниже.
ДОКУМЕНТ ЗАЩИЩЕН АВТОРСКИМ ПРАВОМ
© ISO 2012
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного письменного согласия ISO по соответствующему адресу, указанному ниже, или комитета-члена ISO в стране
заявителя.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Опубликовано в Швейцарии
ii © ISO 2012 – Все права сохраняются
---------------------- Page: 2 ----------------------
ISO 11132:2012(R)
Содержание Страница
Предисловие .iv
1 Область применения .1
2 Нормативные ссылки .1
3 Термины и определения .2
4 Принцип оценивания .3
5 Условия эксперимента .6
6 Квалификация испытателей .6
7 Процедура.6
7.1 Текущий контроль путём формальной валидации показателя результативности .6
7.2 Статистический анализ данных формальной валидации результативности (в одном
сеансе) .7
7.3 Оценка общей результативности экспертной группы посредством формальной
валидации показателя результативности.8
7.4 Оценка результативности испытателей методом формальной валидации.10
7.5 Обеспечение необходимой результативности .12
7.6 Текущий контроль в рамках регулярного профилирования продуктов .12
7.7 Планирование экспериментов для анализа зависимости показателей
результативности от времени .12
7.8 Анализ временных рядов статистических данных .12
7.9 Воспроизводимость межгрупповых результатов.13
7.10 Статистический анализ сложных профилей .13
Приложение А (информативное) Пример практического применения.15
Приложение В (информативное) Пример использования критерия кумулятивных сумм.22
Приложение C (информативное) Пример использования карты Шухарта .25
Библиография.27
© ISO 2012 – Все права сохраняются iii
---------------------- Page: 3 ----------------------
ISO 11132:2012(R)
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведённым в Директивах
ISO/IEC, часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, рассылаются комитетам-членам на
голосование. Для публикации в качестве международного стандарта требуется одобрение не менее
75 % комитетов-членов, принявших участие в голосовании.
Принимается во внимание тот факт, что некоторые из элементов настоящего документа могут быть
объектом патентных прав. ISO не принимает на себя обязательств по определению отдельных или
всех таких патентных прав.
ISO 11132 был подготовлен Техническим комитетом ISO/TC 34, Пищевые продукты, Подкомитетом
SC 12, Органолептический анализ.
iv © ISO 2012 – Все права сохраняются
---------------------- Page: 4 ----------------------
МЕЖДУНАРОДНЫЙ СТАНДАРТ ISO 11132:2012(R)
Сенсорный анализ. Методология. Руководящие указания по
мониторингу результативности работы группы по
количественному анализу
1 Область применения
Настоящий международный стандарт содержит руководящие указания по контролю и оценке с
помощью методов описательной статистики общего показателя эффективности экспертной группы
количественного анализа и каждого члена этой группы в отдельности.
Такая группа экспертов может использоваться для количественного оценивания тех или иных
качественных характеристик.
Показатель эффективности, о котором идёт речь, - это мера способности экспертной группы или
отдельного её члена давать правильные оценки характеристик контролируемых изделий. Оценка
характеристики может производиться в конкретный момент времени или отслеживаться в течение
определённого периода. При этом показатель эффективности отражает способность группы экспертов
обнаруживать, идентифицировать и измерять контролируемую характеристику, использовать
оценочные характеристики аналогично другим экспертным группам или экспертам, различать входные
сигналы, применять надлежащим образом оценочную шкалу, повторно получать собственные
результаты и воспроизводить результаты других экспертных групп или отдельных экспертов.
Рассматриваемые методы обеспечивают согласованность, повторяемость и отсутствие смещения оценок, а
также возможность выявления экспертных групп и отдельных экспертов, подлежащих контролю и оценке.
Охватываются также задачи оценки согласованности решений между членами экспертной группы. Контроль
и оценивание могут выполняться в одном сеансе или распределяться во времени.
Текущий контроль показателей результативности позволяет руководителю группы экспертов повышать
эффективность работы каждого её члена и группы в целом, выявлять направления, по которым
необходимо повышение квалификации специалистов, или определять, какие члены экспертной группы
не выполняют свои функции должным образом и потому не могут продолжать оставаться участниками
процедур экспертного оценивания.
Методы, определяемые данным международным стандартом, могут использоваться руководителем
экспертной группы для организации непрерывного оценивания эффективности как экспертных групп,
так и отдельных экспертов.
Настоящий международный стандарт применим как к специалистам или группам, проходящим
обучение, так и к действующим экспертным группам.
2 Нормативные ссылки
Перечисленные ниже ссылочные документы обязательны для применения данного документа. В
случае датированных ссылок действующим является только указанное издание. Применительно к
недатированным ссылочным документам применяются их самые последние издания (включая все
последующие изменения).
ISO 5492, Органолептический анализ. Словарь
© ISO 2012 – Все права сохраняются 1
---------------------- Page: 5 ----------------------
ISO 11132:2012(R)
ISO 8586, Сенсорный анализ. Общее руководство по отбору, обучению и контролю за работой
отобранных испытателей и экспертов
ISO 8589, Органолептический анализ. общее руководство по проектированию помещений для исследований.
3 Термины и определения
В рамках настоящего документа используются термины и определения из стандарта ISO 5492 и
термины, приведённые ниже.
3.1
согласованность
agreement
способность различных экспертных групп или отдельных испытателей присваивать сравнимые оценки
конкретному свойству выборочных экземпляров одного и того же изделия или продукта
3.2
единообразие, однородность
homogeneity
мера согласованности балльных оценок, даваемых конкретными экспертами в сеансе тестирования:
например, группой испытателей или отдельным испытателем в повторяющихся сеансах испытаний
3.3
смещение оценок испытателя
assessor bias
характерная для испытателя тенденция формирования балльных оценок, постоянно оказывающихся
выше или ниже истинной оценки, когда она известна, или средней групповой экспертной оценки в
противном случае
3.4
постороннее значение, выброс
outlier
оценка, которая не согласуется с общей совокупностью данных или резко отличается от других оценок
того же самого продукта или аналогичных продуктов
3.5
дрейф экспертных оценок
panel drift
явление, заключающееся в том, что показатели чувствительности группы испытателей с течением
времени изменяются или начинают дрейфовать, приводя в конечном итоге к смещению диапазона
оценок на шкале, по которой ранжируются значения некоторой характеристики постоянно
контролируемого продукта
3.6
результативность
performance
способность экспертной группы или отдельного испытателя давать правильные и надёжные оценки
конкретных воспринимаемых раздражителей (стимулов) и характеристик каждого конкретного стимула
3.7
повторяемость
repeatability
согласованность оценок эквивалентных выборок продуктов одной и той же экспертной группой или
одним и тем же испытателем при одних и тех же условиях
2 © ISO 2012 – Все права сохраняются
---------------------- Page: 6 ----------------------
ISO 11132:2012(R)
3.8
воспроизводимость
reproducibility
согласованность оценок эквивалентных выборок продуктов при разных условиях тестирования, в
рамках разных задач или разными экспертными группами либо другим испытателем
ПРИМЕЧАНИЕ Воспроизводимость может оцениваться одним из следующих способов:
— путём проверки краткосрочной воспроизводимости результатов экспертной группы в двух или более сеансах,
разделённых интервалом в несколько дней;
— путём проверки среднесрочной или долгосрочной воспроизводимости результатов экспертной группы в
сеансах, разделённых интервалом в несколько месяцев;
— путём проверки воспроизводимости результатов разными экспертными группами в одной и той же
лаборатории или в разных лабораторных условиях;
— путём проверки воспроизводимости оценок разных характеристик продукта одним испытателем.
3.9
валидация
validation
процесс установления факта корреляционной связи конкретных сенсорных данных с другими данными
по образцам того же самого продукта (например, с данными лабораторных измерений, с
потребительской реакцией, с результатами других экспертных групп, с жалобами потребителей) или
факта соответствия экспертной группы либо отдельного испытателя установленным критериям
результативности
3.10
сеанс
session
конкретный случай оценивания характеристик продукта
ПРИМЕЧАНИЕ В отдельном сеансе могут оцениваться один или несколько продуктов одним или несколькими
испытателями. Применительно к каждому испытателю, работающему отдельно или в составе экспертной группы,
сеансы разделяются во времени.
3.11
повторные сеансы
replicate sessions
сеансы, в которых испытатели, продукты, условия тестирования и целевые задачи не меняются
4 Принцип оценивания
Настоящий международный стандарт касается экспертных групп сенсорного анализа, которые
используются для проведения оценки значений одной или нескольких сенсорных характеристик
продуктов с целью подготовки их количественных описаний, или профилей. Существует множество
адекватных методов оценки и текущего контроля результативности экспертных групп, используемых
для проведения такого тестирования.
Результативность экспертной группы сенсорного анализа может определяться с помощью уже
существующих оценочных показателей или в рамках сессий экспертного оценивания, проводимых
специально для получения данных, касающихся результативности.
Настоящий международный стандарт может использоваться для организации как периодического
контроля, так и пересмотра текущих профильных данных.
© ISO 2012 – Все права сохраняются 3
---------------------- Page: 7 ----------------------
ISO 11132:2012(R)
В стандарте представлена специализированная процедура, подходящая для проведения
периодической аттестации, сертификации и других аналогичных процессов. Блок-схема этой
процедуры показана на Рисунке 1.
Для анализа текущих профильных данных, порождаемых экспертной группой, целесообразно
использовать данные, полученные в ходе совершенно разных экспериментов по определению
профилей с использованием разных типов продуктов, разного числа изделий и т.п. Процедура анализа
отображена на Рисунке 1. Однако в связи с тем, что никакие возможные значения отклонений заранее
не определены, рекомендуется, чтобы характеристики данного профиля, которые согласованно
выделяются всей экспертной группой в целом, использовались как ключевые критерии для проверки
результативности отдельных участников экспертной группы. Характеристики, по которым не
наблюдается значимых отклонений, не могут служить надёжной основой для проверки
согласованности оценок экспертов, поскольку наличие разногласий по ним в рамках экспертной группы
и между её членами может означать, что эти продукты слишком похожи друг на друга, чтобы служить
критериями для оценки результативности экспертов.
a) Текущий контроль посредством валидации результативности
Используется небольшое число образцов (возможно, три или четыре), о которых заведомо
известно, что их характеристики различаются. Эти характеристики могут в дальнейшем
служить ключевыми показателями для измерения результативности.
b) Общая результативность экспертной группы
1) Сколько ожидаемых ключевых характеристик существенно отличается друг от друга?
2) Сколько из этих ключевых характеристик имеет признаки зависимости от образца и
испытателя? Ответ на этот вопрос первоначально указывает точку наименьшей
согласованности оценок в рамках экспертной группы (7.3.2)
3) Какова повторяемость оценок ключевых характеристик в повторных сеансах (7.3.3)?
c) Результативность отдельного испытателя
1) Различающая способность: сколько ожидаемых ключевых характеристик были существенно
различными?
2) Повторяемость: есть ли согласие в различающей способности по данной характеристике и по
продукту (7.4.2)?
3) Вклад во взаимодействие: для каких характеристик появляется взаимодействие?
i) Взаимодействие перекрёстных эффектов (7.4.4)
ii) Взаимодействие из-за различий в способе использования оценочной шкалы (7.4.5)
d) В тех случаях, когда выявляются проблемы с результативностью экспертной группы в целом или
отдельных испытателей, требуется проведение соответствующих тренировочных сеансов.
Рисунок 1 — Блок-схема процедуры контроля результативности
4 © ISO 2012 – Все права сохраняются
---------------------- Page: 8 ----------------------
ISO 11132:2012(R)
В рамках отдельного сеанса подлежат определению следующие показатели:
— смещение оценок, даваемых испытателем, которое вычисляется как разность среднего значения
оценки испытателя и известного “истинного значения” или усреднённой оценки экспертной группы
как приближения для “истинного значения”;
— повторяемость оценок испытателя, представляемая обратной величиной стандартного
отклонения (SD) повторных оценок испытателем того же самого образца или разных реплик
одного и того же продукта;
— воспроизводимость оценок испытателя, представляемая стандартным отклонением (SD)
смещения оценок испытателя на множестве отдельных продуктов;
— различительная способность испытателя, представляемая как его способность присваивать
существенно отличающиеся балльные оценки разным продуктам.
Смещение оценок испытателя может указывать на то, что его сенсорная чувствительность отличается
от сенсорной чувствительности других испытателей и/или его способ использования оценочной шкалы
отличен от того, который свойствен другим испытателям.
Если возникает ситуация, когда какой-то испытатель даёт оценки, существенно отличающиеся от
оценок других испытателей, то пересматриваются все результаты с целью определения:
a) устойчивы или изменчивы оценки повторно отобранных образцов того же продукта;
b) одинаковы или различны оценки разных образцов разных продуктов;
c) сохраняется ли смещение оценок при использовании любых или только определённых оценочных
шкал.
Для получения ответов на эти вопросы может использоваться метод дисперсионного анализа [Analysis
of variance (ANOVA)].
В некоторых случаях смещение оценок может указывать на то, что соответствующий испытатель
обладает более высокой сенсорной чувствительностью, что делает его результаты особенно ценными.
Однако бывают и такие случаи, когда выявленное смещение оценок испытателя может потребовать
его переобучения и удаления из состава экспертной группы.
Ниже описывается единый согласованный подход к использованию статистического анализа
результатов экспертного оценивания. Однако ряд характеристик результативности экспертной группы
может оцениваться с помощью нескольких мер описательной статистики. Например, как средний
квадрат, так и стандартное отклонение ошибок SD (среднее значение квадратного корня) выражают
изменчивость оценки продукта. Используемые на практике способы измерения должны быть
привычными для конкретной области применения.
Другие релевантные методы измерения согласованности способов использования испытателями
оценочной шкалы для той или иной характеристики продукта – это взаимодействие испытателя и
продукта и коэффициент корреляции между оценками испытателя и оценками экспертной группы.
Оценки испытателя могут быть несмещёнными, но сам он может использовать оценочную шкалу иным
способом, чем его коллеги. Согласованность испытателя с остальными членами экспертной группы
считается хорошей при коэффициенте корреляции близком к единице, наклоне линии регрессии
близком к единице и близкой к нулю величине отрезка, отсекаемого линией регрессии на координатной
оси.
© ISO 2012 – Все права сохраняются 5
---------------------- Page: 9 ----------------------
ISO 11132:2012(R)
При небольшом числе оценок (меньше шести) коэффициент корреляции должен интерпретироваться с
особой осторожностью, поскольку в таких случаях он может быть высоким (достигать величины 0,7)
лишь чисто случайно.
5 Условия эксперимента
Условия эксперимента должны соответствовать требованиям ISO 8589.
6 Квалификация испытателей
Группа должна иметь уровень квалификации и практического опыта, установленный применительно к
экспертам в ISO 8586, или более высокий.
7 Процедура
7.1 Текущий контроль путём формальной валидации показателя результативности
В каждом сеансе группа экспертов снабжается множеством образцов, подобных тем, что подлежат
экспертной оценке в процессе контроля продукции, для которых хотя бы применительно к одной паре
может гарантироваться наличие статистически значимых отличий от других образцов не менее чем по
восьми характеристикам.
Именно такое число образцов, рекомендуется для того, чтобы содействовать лидерам групп
сенсорного анализа или организаторам сенсорного контроля в идентификации и отборе
аттестационных образцов, которые позволят определить реальный и статистический показатели
результативности экспертной группы.
Значения этих ключевых характеристик используются как эталоны, относительно которых будет
оцениваться результативность группы экспертов. Набор образцов должен включать в себя реплики
оцениваемых образцов в количестве, одинаковом для каждого из них. Число испытателей,
оцениваемых образцов и реплик зависит от конкретных продуктов, контролируемых сенсорных
характеристик и от целей процедуры экспертных оценок. Например, могут использоваться две или три
реплики трёх или четырёх образцов. Следует ограничивать число оценок в сеансе во избежание
притупления сенсорной чувствительности испытателей. Значения характеристик образцов должны
лежать в диапазоне, который используется экспертной группой при оценке контролируемых продуктов.
Для проведения оценки строится рандомизированный блочный план, в котором испытатели выступают
в качестве “блоков”.
Если ожидается эффект переноса обобщений от текущего образца к следующему, то подходящим
блочным планом будет латинский квадрат Вильямса. В этом случае в базовом плане используются
четыре испытателя и четыре образца.
Таблица 1 — Латинский квадрат Вильямса
Порядок следования
Испытатель
1 2 3 4
1 A B C D
2 B D A C
3 C A D B
4 D C B A
6 © ISO 2012 – Все права сохраняются
---------------------- Page: 10 ----------------------
ISO 11132:2012(R)
В этом блочном плане каждый испытатель отбирает образцы четырёх продуктов в разной
последовательности, и каждый отобранный продукт сопровождается другим продуктом для каждого
испытателя: например, за A следует B для испытателя 1, C для испытателя 2, D для испытателя 3 и не
следует ничего для испытателя 4.
При наличии множественных четвёрок испытателей для каждой четвёрки может повторяться тот же
самый план.
7.2 Статистический анализ данных формальной валидации результативности (в
одном сеансе)
Таблица 2 иллюстрирует один из способов табулирования и суммирования результатов. Некоторые
компьютерные программы могут требовать иной организации данных: например с расположением
образцов в столбцах, а испытателей – в строках.
Таблица 2 — Результаты испытателей
Испытатель
Образец 1 2 j n Среднее
q
Оценки Среднее Оценки Среднее Оценки Среднее Оценки Среднее
Y Y
111 1j1
Y Y
112 1j2
Y
Y Y
1
1.j
11. 1.
Y Y
11n 1jn
r r
2
Y
i11 Y
ij1
Y Y
i12 2
Y ij Y
i Y
i1. ij.
i.
Y Y
in1 ijn
r r
n
p
Y
Y
Среднее
..j
...
В этой таблице предполагается, что:
n ≡ число образцов (i = 1,2 … n );
p p
n ≡ число испытателей (j = 1,2 … n );
q q
n ≡ число реплик на образец (k = 1,2 … n ).
r r
Для измерения результативности экспертной группы в целом и отдельных испытателей без признаков
смещения оценок необходимо проведение дисперсионного анализа данных.
Подробности, касающиеся выполняемых для этого базовых вычислений, в настоящем международном
стандарте не рассматриваются, поскольку операции дисперсионного анализа обычно реализуются
пакетом прикладных программ.
Данные по каждому испытателю исследуются с применением одностороннего дисперсионного анализа
(Таблица 3).
© ISO 2012 – Все права сохраняются 7
---------------------- Page: 11 ----------------------
ISO 11132:2012(R)
Таблица 3 — Дисперсионный анализ данных отдельного испытателя по одной характеристике
Средний квадрат
Источник Число степеней Сумма квадратов Коэффициент F
дисперсии свободы
Между образцами ν = n - 1 S MS = s /ν
1 p 1 1 1 1
F = MS /MS
1 2
Ошибка S MS = s /ν
ν = n (n - 1) 2
2 p r 2 2 2
Сумма S
ν = n n - 1 3
3 p r
n ≡ число образцов
p
n ≡ число реплик на образец
r
Данные по всему сеансу исследуются с применением дисперсионного анализа рандомизированного
блочного плана (Таблица 4).
Таблица 4 — Дисперсионный анализ данных всего сеанса по одной характеристике
Источник Число степеней Сумма
Средний квадрат Коэффициент F
дисперсии свободы квадратов
Между образцами
ν = n - 1
4 p MS = s /ν
4 4 4
S
4
Между
a
MS = s /ν F = MS /MS
ν = n - 1 5 5 5 5 7
5 q S
5
испытателями
F = MS /MS
MS = s /ν 6 7
6 6 6
S
6
Взаимодействие ν = (n - 1)(n - 1)
6 p q
MS = s /ν
ν = n n (n - 1) S 7 7 7
7 p q r 7
Ошибка
Сумма ν = n n n - 1 S
8
8 p q r
n ≡ число образцов
p
n ≡ число испытателей
q
n ≡ число реплик на образец
r
a
Если взаимодействие значимо, то коэффициент F для дисперсии между испытателями вычисляется по формуле F =
MS /MS со среднеквадратическим значением показателя взаимодействия в знаменателе дроби.
5 6
7.3 Оценка общей результативности экспертной группы посредством формальной
валидации показателя результативности
7.3.1 Выделение ключевых характеристик
Подлежат определению ожидаемые ключевые характеристики, которые существенно отличаются друг
от друга. Каждая такая характеристика идентифицируется по значимому изменению от образца к
образцу при уровне значимости 0,05 в таблице дисперсионного анализа (Таблица 4). Чем больше доля
различающихся ключевых характеристик, тем эффективней работа экспертной группы. Экспертная
группа, не продемонстрировавшая ожидаемой различительной способности ключевых характеристик,
должна пройти процедуру повышения квалификации.
7.3.2 Обеспечение однородности экспертной группы
Экспертная группа считается неоднородной, если какие-либо входящие в её состав испытатели дают
оценки, не согласующиеся с оценками остальных коллег.
8 © ISO 2012 – Все права сохраняются
---------------------- Page: 12 ----------------------
ISO 11132:2012(R)
Экспертная группа признаётся неоднородной, если взаимодействие образца и испытателя в схеме
дисперсионного анализа оказывается значимым при уровне доверительной вероятности 0,95.
Степень однородности экспертной группы определяется параметром s , который обратно
i
пропорционален стандартному отклонению показателя взаимодействия:
MSM− S
67
s =
i
n
r
(см. Таблицу 4).
Далее на основе таблицы дисперсионного анализа определяется число ключевых характеристик,
показывающих наличие значимого взаимодействия между оцениваемым образцом и испытателем.
Путем обращения к таблице дисперсионного анализа по каждой характеристике отмечаются те из них,
которые показывают наличие взаимодействия при уровне значимости 0,05. Чем больше число
ключевых характеристик, дающих значимое взаимодействие, тем ниже результативность работы
экспертной группы. Применительно к характеристикам, которые дают значимое взаимодействие,
экспертная группа должна пройти процедуру повышения квалификации.
7.3.3 Повторяемость результатов экспертной группы
Повторяемость оценок экспертной группы может оцениваться по показателю повторяемости оценок
отдельных испытателей. Значение этого параметра s обратно пропорционально стандартному
e
отклонению ошибок
s = MS
e7
(см. Таблицу 4).
7.3.4 Воспроизводимость результатов экспертной группы
Для проверки воспроизводимости результатов экспертной группы проводятся сеансы оценивания
других образцов тех же самых продуктов.
Дисперсия оценок "между сеансами” в трёхфакторном дисперсионном анализе (по образцам,
испытателям и сеансам) не должна быть значимым фактором при уровне значимости 0,05.
Взаимодействие между образцами и сеансами не должно быть значимым при уровне значимсости
0,05. Нарушение этого условия будет говорить о наличии изменений в оценке различий между
образцами от сеанса к сеансу.
Взаимодействие между испытателями и сеансами не должно быть значимым при уровне значимости
0,05. Нарушение этого условия означает, что смещение оценок, даваемых отдельными испытателями,
меняется от сеанса к сеансу.
Если анализ проводится с целью описания результативности экспертной группы в целом, то факторы,
фигурирующие в дисперсионном анализе (сеансы, образцы и испытатели) являются случайными. При
этом составляющие стандартные отклонения в совокупности служат мерой воспроизводимости.
Результирующее стандартное отклонение s определяется по формуле:
R
222 2 2
ss=+s+s +s +s ,
R e a sess a××sess prod sess
© ISO 2012 – Все права сохраняются 9
---------------------- Page: 13 ----------------------
ISO 11132:2012(R)
где
e индекс ошибки;
a индекс испытателей;
sess индекс сеансов;
prod индек
...
INTERNATIONAL ISO
STANDARD 11132
First edition
2012-11-01
Sensory analysis — Methodology —
Guidelines for monitoring the performance
of a quantitative sensory panel
Analyse sensorielle — Méthodologie — Lignes directrices pour le
contrôle de la performance d’un jury sensoriel quantitatif
Reference number
ISO 11132:2012(E)
©
ISO 2012
---------------------- Page: 1 ----------------------
ISO 11132:2012(E)
COPYRIGHT PROTECTED DOCUMENT
© ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or ISO’s
member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved
---------------------- Page: 2 ----------------------
ISO 11132:2012(E)
Contents Page
Foreword .iv
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Principle . 2
5 Experimental conditions . 4
6 Qualification of assessors . 4
7 Procedure . 4
7.1 Monitoring via formal performance validation . 4
7.2 Statistical analysis of data from formal performance validation (a single session) . 5
7.3 Overall panel performance from formal performance validation . 6
7.4 Individual assessor performance from formal performance validation . 7
7.5 Performance issues . 9
7.6 Monitoring via routine product profiling . 9
7.7 Experimental design for study of performance over time . 9
7.8 Statistical analysis of data over time . 9
7.9 Reproducibility between panels .10
7.10 Statistical analysis of complete profiles .10
Annex A (informative) Example of practical application . 11
Annex B (informative) Example of use of cusum analysis .18
Annex C (informative) Example of use of Shewhart chart .21
Bibliography .23
© ISO 2012 – All rights reserved iii
---------------------- Page: 3 ----------------------
ISO 11132:2012(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the International
Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 11132 was prepared by Technical Committee ISO/TC 34, Food products, Subcommittee SC 12,
Sensory analysis.
iv © ISO 2012 – All rights reserved
---------------------- Page: 4 ----------------------
INTERNATIONAL STANDARD ISO 11132:2012(E)
Sensory analysis — Methodology — Guidelines for monitoring
the performance of a quantitative sensory panel
1 Scope
This International Standard gives guidelines for monitoring and assessing the overall performance of a
quantitative descriptive panel and the performance of each member.
A panel of assessors can be used as an instrument to assess the magnitude of sensory attributes.
Performance is the measure of the ability of a panel or an assessor to make valid attribute assessments across
the products being evaluated. It can be monitored at a given time point or tracked over time. Performance
comprises the ability of a panel to detect, identify, and measure an attribute, use attributes in a similar way to
other panels or assessors, discriminate between stimuli, use a scale properly, repeat their own results, and
reproduce results from other panels or assessors.
The methods specified allow the consistency, repeatability, freedom from bias and ability to discriminate of
panels and assessors to be monitored and assessed. Monitoring and assessment of agreement between panel
members is also covered. Monitoring and assessment can be carried out in one session or over time.
Monitoring performance data enables the panel leader to improve panel and assessor performance, to
identify issues and retraining needs or to identify assessors who are not performing well enough to continue
participating.
The methods specified in this International Standard can be used by the panel leader to appraise continuously
the performance of panels or individual assessors.
This International Standard applies to individuals or panels in training as well as for established panels.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced document
(including any amendments) applies.
ISO 5492, Sensory analysis — Vocabulary
ISO 8586, Sensory analysis — General guidelines for the selection, training and monitoring of selected and
expert assessors
ISO 8589, Sensory analysis — General guidance for the design of test rooms
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 5492 and the following apply.
3.1
agreement
ability of different panels or assessors to assign similar scores on a given attribute to samples of the same product
3.2
homogeneity
measure of the agreement of responses among individual assessors within a test session, as a panel of
assessors in replicate sessions, or for an individual assessor in replicate sessions
© ISO 2012 – All rights reserved 1
---------------------- Page: 5 ----------------------
ISO 11132:2012(E)
3.3
assessor bias
tendency of an assessor to give scores which are consistently above or below the true score when that is
known or the panel mean when it is not
3.4
outlier
an assessment that does not conform to the overall pattern of the data or is extremely different from other
assessments of the same or similar products
3.5
panel drift
phenomenon where a panel, over time, changes in sensitivity or becomes susceptible to biases and as a
consequence changes the location on the scale where an attribute is rated for a constant, reference product
3.6
performance
ability of a panel or an assessor to make valid and reliable assessments of stimuli and stimulus attributes
3.7
repeatability
agreement in assessments of equivalent product samples under the same test conditions by the same
assessor or panel
3.8
reproducibility
agreement in assessments of equivalent product samples under different test conditions, with different tasks
or by a different assessor or panel
NOTE Reproducibility may be measured as any of the following:
— the reproducibility of a panel in the short term, measured between two or more sessions separated by several days;
— the reproducibility of a panel in the medium or long term, measured among sessions separated by several months;
— the reproducibility between different panels, in the same laboratory or in different laboratories;
— the reproducibility of assessments by a single assessor of different attributes of a product.
3.9
validation
process of establishing that sensory data correlate with other data on samples of the same product (e.g.
laboratory measurements, consumer perception, results from other panels, consumer complaints) or that a
panel or assessor is able to meet specified performance criteria
3.10
session
occasion on which products are assessed
NOTE In a single session either one or several products may be assessed by one or several assessors. For an
assessor, whether alone or as part of a panel, sessions are separated in time.
3.11
replicate sessions
sessions in which the assessors, the products, the test conditions, and the task are the same
4 Principle
This International Standard is concerned with sensory panels used to assess the magnitude of one or more
sensory attributes in order to make quantitative descriptions or profiles of products. Different methods are
appropriate to the assessment and monitoring of the performance of panels used for difference testing.
2 © ISO 2012 – All rights reserved
---------------------- Page: 6 ----------------------
ISO 11132:2012(E)
The performance of a quantitative sensory panel may be evaluated by using assessments already available or
from panel sessions conducted specifically for the purpose of obtaining performance data.
This International Standard may be used either for periodic monitoring or for reviewing ongoing profile data.
A dedicated monitoring procedure at periodic intervals is appropriate for accreditation and other purposes.
Figure 1 is a flow chart for this procedure.
To review ongoing profile data generated by a panel, it can be appropriate to use data that originated from quite
different profiling experiments using different product types, product numbers, etc. The procedure is the same
as that shown in Figure 1. However, as there are no predefined differences, it is recommended that attributes
that are significantly discriminated by the panel as a whole for a given profile be used as the key measures
to check the performance of individual panelists. Attributes that result in no significant difference cannot be
reliably used to check consistency since the lack of agreement within and between panelists probably means
that the products are very similar for those characteristics.
a) Monitoring by means of performance validation.
Use a small set of samples (perhaps three or four) for which some attributes are known to be different.
These attributes are then used as the key measures on which to measure performance.
↓
b) Overall panel performance
1) How many of the expected key attributes have been significantly discriminated?
2) How many of the key attributes show an interaction of sample and assessor? This gives an initial
indication of where there is least consistency across the panel (7.3.2)
3) Repeatability of the panel for the key attributes in replicate sessions (7.3.3)?
↓
c) Individual assessor performance
1) Discrimination ability: how many of the expected key attributes have been significantly discriminated?
2) Repeatability: consistency of discrimination for a given attribute and product (7.4.2)?
3) Contributions to interaction: for which attributes do interactions occur?
i) Interaction due to cross-over effects (7.4.4)
ii) Interaction due to different use of the scale (7.4.5)
↓
d) Where performance issues have been identified, either for the panel or for individual assessors,
appropriate training sessions should be planned.
Figure 1 — Flow chart for performance monitoring
In a single session, the following indicators can be determined.
— Bias of an assessor, measured as the difference between the assessor’s mean and a known, ‘true’ value,
or the mean of the panel as an estimate of the ‘true’ value.
— Repeatability of an assessor, inversely related to the standard deviation (SD) of repeat assessments by the
assessor of the same sample, or between replicates of the same product.
— Reproducibility of an assessor, inversely related to the SD of the assessor’s biases across individual products.
© ISO 2012 – All rights reserved 3
---------------------- Page: 7 ----------------------
ISO 11132:2012(E)
— Discrimination of an assessor, measured as the ability to assign consistently different scores to
different products.
Bias in an assessor may indicate sensory sensitivity that is different from other assessors and/or use of the
response scale in a way that differs from other assessors.
If an assessor appears to give assessments that differ from those of other assessors, review all the results with
a view to determining whether:
a) the assessments are consistent or variable for repeated samples of the same product;
b) the assessments are similar or different for samples of different products;
c) bias occurs with all, or only some, assessment scales.
Analysis of variance (ANOVA) can be used to investigate these questions.
In some cases, bias may indicate an assessor of superior ability whose results are particularly useful. In other
cases, an assessor showing bias may require retraining or removal from the panel.
A single, consistent approach to statistical analysis of the results is described here. However, some attributes
of panel performance can be assessed by more than one descriptive measure. For instance, error mean
square and error SD (its square root) both express variability in the evaluation of a product. The measures used
should be those that are usual in the field of application.
Other relevant measures of agreement between assessors in the use of the scale for an attribute are the
interaction of assessor and product and the coefficient of correlation between an assessor’s scores and the
panel means. An assessor may have no bias, but may be using the scale in a different way. A correlation close
to 1, a regression slope close to 1, and a regression intercept close to 0 indicate good agreement between an
assessor and the rest of the panel.
With a small number of assessments (fewer than six) the correlation coefficient should be interpreted with
caution, as it can be high (up to 0,7), by chance alone.
5 Experimental conditions
The test facilities shall be in accordance with ISO 8589.
6 Qualification of assessors
The panel shall have the level of qualification and experience of selected assessors (ISO 8586) or better.
7 Procedure
7.1 Monitoring via formal performance validation
At each session, the panel of assessors should be presented with a set of samples similar to those the panel
are to assess when evaluating products and for which statistically significant differences between at least one
pair of the samples can be guaranteed for at least eight attributes.
This number is recommended to encourage panel leaders or sensory managers to identify and select validation
samples that show a realistic as well as a statistical measure of a panel’s performance.
These key attributes are used as key measures against which to assess panel performance. The sample
set should include replicates. There shall be the same number of replicates of each sample. The numbers of
assessors, samples, and replicates depends on the products, the sensory attributes assessed and the purpose
of the procedure. For example 2 or 3, replicates of three or four samples might be used. Care should be taken
to limit the number of assessments required so as to avoid sensory fatigue. The attributes of the samples
should be similar to the range of values that the panel assesses when evaluating products.
4 © ISO 2012 – All rights reserved
---------------------- Page: 8 ----------------------
ISO 11132:2012(E)
A randomized block experimental design has been adopted, in which the assessors are the “blocks”.
If there is expected to be a carry-over effect from one sample to the next, a suitable experimental design is the
Williams Latin square. The basic design uses four assessors and four samples.
Table 1 — Williams Latin square
Order
Assessor
1 2 3 4
1 A B C D
2 B D A C
3 C A D B
4 D C B A
In this design, each assessor samples the four products in a different order and any particular product is
followed by a different one for each assessor, for example A is followed by B for assessor 1, C for assessor 2,
D for assessor 3 and none for assessor 4.
If multiples of four assessors are available, the same design can be repeated for each set of four.
7.2 Statistical analysis of data from formal performance validation (a single session)
Table 2 illustrates one way to tabulate and summarize the results. Some computer software may require a
different organization of the data, for instance with the samples in columns and the assessors in rows.
Table 2 — Results of the assessors
Assessor
Sample 1 2 j n Mean
q
Scores Mean Scores Mean Scores Mean Scores Mean
Y Y
111 1j1
Y Y
112 1j2
Y
Y Y
1
1.j
11. 1.
Y Y
11n 1jn
r r
2
Y Y
i11
ij1
Y
Y
i12 ij2
Y
Y Y
i
ij.
i1. i.
Y Y
in1 ijn
r r
n
p
Y
Y
Mean
..j
...
In this table it is assumed that there are:
n ≡ number of samples (i = 1,2 … n );
p p
n ≡ number of assessors (j = 1,2 … n );
q q
n ≡ number of replicates per sample (k = 1,2 … n ).
r r
Measures of the performance of the panel as a whole and individual assessors, other than bias, require the
data to be analysed by ANOVA.
The details of the basic calculations are not shown in this International Standard, since the analyses are
normally carried out by a computer package.
© ISO 2012 – All rights reserved 5
---------------------- Page: 9 ----------------------
ISO 11132:2012(E)
Each assessor’s data are analysed by one-way ANOVA (Table 3).
Table 3 — ANOVA for an individual assessor for one attribute
Source of variation Degrees of freedom Sum of squares Mean square F-ratio
Between samples ν = n - 1 S MS = s /ν
1 p 1 1 1 1
F = MS /MS
1 2
Error ν = n (n - 1) S MS = s /ν
2 p r 2 2 2 2
Total ν = n n - 1 S
3 p r 3
n ≡ number of samples
p
n ≡ number of replicates per sample
r
The data for the complete session are analysed by randomized block ANOVA (Table 4).
Table 4 — ANOVA for a complete session for one attribute
Source of variation Degrees of freedom Sum of squares Mean square F-ratio
Between samples ν = n - 1 S MS = s /ν
4 p 4 4 4 4
a
Between assessors ν = n - 1 S MS = s /ν F = MS /MS
5 q 5 5 5 5 5 7
Interaction ν = (n - 1)(n - 1) S MS = s /ν F = MS /MS
6 p q 6 6 6 6 6 7
Error ν = n n (n - 1) S MS = s /ν
7 p q r 7 7 7 7
Total ν = n n n - 1 S
8 p q r 8
n ≡ number of samples
p
n ≡ number of assessors
q
n ≡ number of replicates per sample
r
a
If the interaction is significant, the F-ratio for between assessors is calculated by F = MS /MS with the interaction mean square in
5 6
the denominator.
7.3 Overall panel performance from formal performance validation
7.3.1 Key attribute discrimination
The proportion of key attributes that have been significantly discriminated as expected should be determined.
For each attribute, this is indicated by significant variation between samples at a level of 0,05 in the ANOVA
table for a session (Table 4). The higher the proportion of key attributes significantly discriminated, the better
the panel is performing. The panel should receive further training on key attributes that are not significantly
discriminated as expected.
7.3.2 Homogeneity of the panel
A panel is not homogeneous when any assessors are in disagreement with the rest of the panel.
A panel is not homogeneous if the interaction of sample and assessor in the ANOVA is significant at a level of 0,05.
The degree of homogeneity of the panel is inversely related to the interaction SD, s .
i
MS −MS
67
s =
i
n
r
See Table 4.
The number of key attributes giving significant interaction of sample and assessor should be determined. Refer
to the ANOVA table for each attribute and note those showing interaction at a level of 0,05. The higher the
6 © ISO 2012 – All rights reserved
---------------------- Page: 10 ----------------------
ISO 11132:2012(E)
number of key attributes giving significant interaction, the less consistently the panel is performing. The panel
should receive further training on key attributes that are giving significant interaction.
7.3.3 Repeatability of the panel
The repeatability of the panel can be estimated from the repeatability of the individual assessors. This is
inversely related to the error SD, s :
e
sM= S
e 7
See Table 4.
7.3.4 Reproducibility of the panel
To check for reproducibility of the panel, make evaluations of other samples of the same products at different sessions.
The “between-sessions” factor in a three-way ANOVA (samples, assessors, sessions) should not be significant
at a level of 0,05.
The interaction of samples and sessions should not be significant at a level of 0,05. If it were significant it would
indicate that the evaluation of differences between samples was changing from session to session.
The interaction between assessors and sessions should not be significant at a level of 0,05. If it were significant
it would indicate that the biases of individual assessors were varying from session to session.
If the analysis is being used to describe the performance of the panel as a whole, then the factors in the
ANOVA (sessions, samples and assessors) are random factors. The component SDs may be combined to give
a measure of reproducibility:
Reproducibility SD, s :
R
222 22
s =+sss++ss+
R ea sess as××essprodsess
where
e represents error;
a represents assessors;
sess represents sessions;
prod represents products.
Estimates of bias and variation can be tabulated and/or plotted. Plots over time will show if drifts, step changes
or occasional problems have occurred.
Examples of such presentations are cusum analysis (see Annex B) and Shewhart control charts (see Annex C).
7.4 Individual assessor performance from formal performance validation
7.4.1 Discrimination ability of an assessor
Discrimination ability is measured by the proportion of expected key attributes that have been significantly
discriminated. For each attribute, this is indicated by “between samples” variation significant at a level of 0,05
in the ANOVA table (Table 3). The higher the proportion of key attributes significantly discriminated, the better
the assessor is performing. The assessor should receive further training on expected key attributes that are
not significantly discriminated.
© ISO 2012 – All rights reserved 7
---------------------- Page: 11 ----------------------
ISO 11132:2012(E)
7.4.2 Repeatability of an assessor
The repeatability of an assessor is inversely related to the assessor’s error SD, s :
e
sM= S
e2
See Table 3.
7.4.3 Consistency of an assessor
Consistency of an assessor is inversely related to the SD of the bias terms calculated from each sample.
(For assessor j, the bias term for sample i is the difference between the assessor’s mean for the sample and
the panel mean for the sample,) YY− . See Table 2.
ij.i .
Where it is shown that an assessor’s performance lacks consistency, a scatter diagram of the assessor’s scores
against the panel means, along with regression and correlation analysis, shows whether the inconsistency is
random or has a pattern which indicates different use of the scale from the rest of the panel.
7.4.4 Agreement among assessors
A panel is not homogenous when one or more assessors is in disagreement with the rest of the panel.
This may be detected by:
— an assessor having a significant bias (see Annex B);
— an assessor’s residual SD being significantly greater than for the panel as a whole;
— the correlation coefficient between the assessor’s scores and the panel means being very small or negative.
The slope of the regression of the assessor’s scores on the panel means being significantly different from 1
and/or the intercept being statistically significantly different from 0.
Agreement among the assessors is inversely related to the between-assessors SD, s .
a
MS −MS
57
s =
a
nn
qr
if the interaction was not significant (see Table 4) or
MS −MS
56
s =
a
nn
qr
if the interaction was significant. See Table 4.
Disagreement among the assessors should be tested for significance using the “between assessors” F-ratio
and comparing it with tabulated values of F for the relevant degrees of freedom. If it is significant, there is good
evidence that there is a problem of panel consistency that needs to be addressed. Lack of significance does
not, by itself, give reassurance that there is no problem, because it may be obscured by poor repeatability (a
higher than expected error SD, s ).
e
7.4.5 Different use of scale/bias
A significant ANOVA assessor bias may indicate that assessors use the scale in different ways.
In most cases, no “true” value is known and the overall bias for an assessor is taken to be the difference
between that assessor’s mean and the mean for the panel.
8 © ISO 2012 – All rights reserved
---------------------- Page: 12 ----------------------
ISO 11132:2012(E)
Bias for assessor j is given by:
YY−
..j ...
[2]
Scales (see ISO 4121 ) may be used by assessors in different ways. In “universal” scale use, the intensity
of each attribute is rated in relation to the assessor’s knowledge of the total sensory variation that can be
experienced for a specific product type. Panels that work on one or only a few product categories more
commonly develop this approach. In “relative” scale use, the frame of reference used by an assessor for rating
intensity is related to the sensory variation shown by the set of products in a given test. This approach is more
likely to be used by panels that work on a wide range of product categories. To help reduce scaling bias, it is
important to ensure that the scaling approach is consistent within a panel.
7.5 Performance issues
7.5.1 General
Performance issues once identified can be listed and training sessions planned accordingly.
7.5.2 Panel
Training sessions can be organized for the panel as a whole for those attributes causing problems.
7.5.3 Individual assessor
For specific issues with individual assessor performance, it may be appropriate to discuss the problem areas
privately on a one-to-one basis first and follow through with full panel training sessions.
7.6 Monitoring via routine product profiling
The procedure is the same as for monitoring via formal performance validations (see 7.1 to 7.5). However, as
there are no predefined differences, it is recommended that the attributes which are significantly discriminated
by the panel as a whole for a given profile be then used as the key measures to check individual panellists’
performance. The attributes recording no significant difference cannot be reliably used to check consistency,
as the lack of agreement within and between assessors is probably due to the products being very similar for
those characteristics.
7.7 Experimental design for study of performance over time
If a study is to be planned in order to evaluate the consistency of a panel over time, one session per month over
a period of a year provides sufficient data. Each session should be designed as in 7.1.
If data from several sessions of routine assessments are already available, they can be analysed to show any
changes that occurred over time.
7.8 Statistical analysis of data over time
The global analysis of the data over several sessions should be undertaken using repeated measures ANOVA.
In practice, the same assessors may not be at all sessions, and it would be necessary to use the general linear
model option of ANOVA to obtain unbiased estimates of each assessor’s bias and of other parameters and
components of variance.
For the
...
NORME ISO
INTERNATIONALE 11132
Première édition
2012-11-01
Analyse sensorielle — Méthodologie —
Lignes directrices pour le contrôle de la
performance d’un jury sensoriel quantitatif
Sensory analysis — Methodology — Guidelines for monitoring the
performance of a quantitative sensory panel
Numéro de référence
ISO 11132:2012(F)
©
ISO 2012
---------------------- Page: 1 ----------------------
ISO 11132:2012(F)
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2012
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord écrit
de l’ISO à l’adresse ci-après ou du comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2012 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO 11132:2012(F)
Sommaire Page
Avant-propos .iv
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Principe . 3
5 Conditions expérimentales . 4
6 Qualification des sujets . 4
7 Mode opératoire . 4
7.1 Contrôle par validation formelle de la performance . 4
7.2 Analyse statistique des données par validation formelle de la performance (une
seule session) . 5
7.3 Performance globale du jury par validation formelle de la performance . 7
7.4 Performance de chaque sujet par validation formelle de la performance . 8
7.5 Problèmes de performance .10
7.6 Contrôle par des profils produits de routine .10
7.7 Plan expérimental pour l’étude de performance au fil du temps .10
7.8 Analyse statistique des données au fil du temps .10
7.9 Reproductibilité entre les jurys . 11
7.10 Analyse statistique de profils complets . 11
Annexe A (informative) Exemple d’application pratique .12
Annexe B (informative) Exemple d’utilisation de l’analyse CUSUM .19
Annexe C (informative) Exemple d’utilisation de la carte de Shewhart .22
Bibliographie .24
© ISO 2012 – Tous droits réservés iii
---------------------- Page: 3 ----------------------
ISO 11132:2012(F)
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes nationaux de
normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est en général confiée aux
comités techniques de l’ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du comité
technique créé à cet effet. Les organisations internationales, gouvernementales et non gouvernementales,
en liaison avec l’ISO participent également aux travaux. L’ISO collabore étroitement avec la Commission
électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI, Partie 2.
La tâche principale des comités techniques est d’élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur publication
comme Normes internationales requiert l’approbation de 75 % au moins des comités membres votants.
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de droits
de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable de ne pas avoir
identifié de tels droits de propriété et averti de leur existence.
L’ISO 11132 a été élaborée par le comité technique ISO/TC 34, Produits alimentaires, sous-comité SC 12,
Analyse sensorielle.
iv © ISO 2012 – Tous droits réservés
---------------------- Page: 4 ----------------------
NORME INTERNATIONALE ISO 11132:2012(F)
Analyse sensorielle — Méthodologie — Lignes directrices pour
le contrôle de la performance d’un jury sensoriel quantitatif
1 Domaine d’application
La présente Norme internationale donne des lignes directrices pour contrôler et évaluer la performance globale
d’un jury descriptif quantitatif et la performance de chaque membre.
Un jury de sujets peut être utilisé comme un instrument pour évaluer l’intensité d’attributs sensoriels.
La performance est la mesure de la capacité d’un jury ou d’un sujet à effectuer des jugements valides d’attributs
concernant les produits à évaluer. Elle peut être contrôlée à un moment donné ou suivie au fil du temps. La
performance est la capacité d’un jury à détecter, identifier et mesurer un attribut, à utiliser les attributs de la
même manière que d’autres jurys ou sujets, à différencier les stimulus, à utiliser correctement une échelle, à
répéter ses propres résultats et à reproduire les résultats d’autres jurys ou sujets.
Les méthodes spécifiées permettent de contrôler et d’évaluer la cohérence, la répétabilité, l’absence de biais
et la capacité de discrimination de jurys et de sujets. Le contrôle et l’évaluation de la concordance entre les
membres du jury sont également abordés. Le contrôle et l’évaluation peuvent être réalisés au cours d’une
session ou au fil du temps.
Le contrôle des données de performance permet au responsable du jury d’améliorer la performance du jury et
des sujets, d’identifier les problèmes et les besoins de remise à niveau ou d’identifier les sujets qui ne sont pas
suffisamment performants pour continuer à participer.
Les méthodes spécifiées dans la présente Norme internationale peuvent être utilisées par le responsable du
jury pour évaluer de façon continue la performance du jury ou de chaque sujet.
La présente Norme internationale s’applique à des sujets ou à des jurys en formation aussi bien qu’à des
jurys établis.
2 Références normatives
Les documents de référence suivants sont indispensables pour l’application du présent document. Pour les
références datées, seule l’édition citée s’applique. Pour les références non datées, la dernière édition du
document de référence s’applique (y compris les éventuels amendements).
ISO 5492, Analyse sensorielle — Vocabulaire
ISO 8586, Analyse sensorielle — Lignes directrices générales pour la sélection, l’entraînement et le contrôle
des sujets qualifiés et sujets experts
ISO 8589, Analyse sensorielle — Directives générales pour la conception de locaux destinés à l’analyse
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions donnés dans l’ISO 5492 ainsi que les suivants
s’appliquent.
3.1
accord
capacité de jurys ou de sujets différents à attribuer des notes similaires à un attribut donné sur des échantillons
du même produit
© ISO 2012 – Tous droits réservés 1
---------------------- Page: 5 ----------------------
ISO 11132:2012(F)
3.2
homogénéité
mesure de l’accord des réponses données entre différents sujets au cours d’une même session d’essai, entre
sessions répétées pour un même jury de sujets ou entre sessions répétées pour un même sujet
3.3
biais du sujet
tendance d’un sujet à attribuer des notes qui, de manière constante, sont au-dessus ou en-dessous de la note
vraie lorsque celle-ci est connue ou de la moyenne du jury lorsque celle-ci n’est pas connue
3.4
aberrant
jugement qui n’est pas conforme au modèle global des données ou qui est extrêmement différent des autres
jugements donnés à des produits identiques ou similaires
3.5
dérive du jury
phénomène par lequel le jury, au fil du temps, change en sensibilité ou devient sensible à d’autres biais et qui, en
conséquence, pour un produit de référence constant, modifie la position sur l’échelle sur laquelle un attribut est noté
3.6
performance
capacité d’un jury ou d’un sujet à réaliser des évaluations valides et fiables sur des stimulus et des
attributs de stimulus
3.7
répétabilité
accord entre des évaluations effectuées sur des échantillons de produits équivalents, dans les mêmes
conditions d’essai, par le même sujet ou le même jury
3.8
reproductibilité
accord entre des évaluations effectuées sur des échantillons de produits équivalents, dans des conditions
d’essai différentes, avec différentes tâches ou par un sujet ou un jury différent
NOTE La reproductibilité peut être mesurée dans l’une des situations suivantes:
— la reproductibilité d’un jury à court terme, mesurée entre deux (ou plus) sessions séparées de plusieurs jours;
— la reproductibilité d’un jury à moyen ou long terme, mesurée entre des sessions séparées de plusieurs mois;
— la reproductibilité entre différents jurys, dans le même laboratoire ou dans des laboratoires différents;
— la reproductibilité d’évaluations effectuées par un seul sujet sur différents attributs d’un produit.
3.9
validation
processus consistant à établir que des données sensorielles sont corrélées avec d’autres données obtenues
sur des échantillons du même produit (par exemple mesures de laboratoire, perception du consommateur,
résultats d’autres jurys, plaintes du consommateur) ou qu’un jury ou un sujet est capable de remplir des critères
de performance spécifiés
3.10
session
période pendant laquelle les produits sont évalués
NOTE Lors d’une même session, un ou plusieurs produits peuvent être évalués par un ou plusieurs sujets. Pour un
sujet, qu’il soit seul ou qu’il fasse partie d’un jury, les sessions sont séparées dans le temps.
3.11
sessions répétées
sessions au cours desquelles les sujets, les produits, les conditions d’essai et la tâche sont identiques
2 © ISO 2012 – Tous droits réservés
---------------------- Page: 6 ----------------------
ISO 11132:2012(F)
4 Principe
La présente Norme internationale concerne les jurys sensoriels utilisés pour évaluer l’intensité d’un ou de plusieurs
attributs sensoriels afin de réaliser des descriptions ou des profils quantitatifs de produits. Différentes méthodes
sont appropriées pour évaluer et contrôler la performance des jurys utilisés pour analyser des différences.
La performance d’un jury sensoriel quantitatif peut être évaluée soit en utilisant les évaluations déjà disponibles
soit à partir de sessions réalisées spécialement dans le but d’obtenir des données de performance.
La présente Norme internationale peut être utilisée soit pour le contrôle périodique, soit pour la vérification des
données de profil en cours d’acquisition.
Une procédure de contrôle administrée à des intervalles périodiques est appropriée pour l’accréditation et pour
d’autres fins. Un logigramme de cette procédure est donné à la Figure 1.
Pour examiner des données de profil générées par un jury, il peut être approprié d’utiliser des données qui
proviennent d’expériences de profil bien différentes en employant différents types de produits, nombres de
produits, etc. La procédure est la même que celle indiquée à la Figure 1. Cependant, comme il n’y a aucune
différence prédéfinie, il est recommandé que les attributs qui sont significativement discriminés par l’ensemble
du jury, pour un profil donné, soient ensuite utilisés comme mesures clés pour contrôler la performance
de chaque membre du jury. Les attributs pour lesquels aucune différence n’est observée ne peuvent pas
être utilisés de manière fiable pour contrôler la cohérence: en effet, l’absence de concordance intra et inter-
membres du jury signifie que les produits sont très similaires pour ces caractéristiques.
a) Contrôle par validation de la performance
Utiliser un petit jeu d’échantillon (par exemple 3 à 4) pour lesquels certains des attributs sont connus pour
être différents. Ces attributs sont ensuite utilisés comme des mesures clés pour mesurer la performance.
↓
b) Performance globale du jury
1) Nombre d’attributs clés attendus significativement discriminés ?
2) Nombre d’attributs clés pour lesquels une interaction entre échantillon et sujet est observée ? Cela
donne une première indication des attributs pour lesquels le jury est le moins cohérent (7.3.2)
3) Répétabilité du jury pour les attributs clés lors de sessions répétées ? (7.3.3)
↓
c) Performance de chaque sujet
1) Capacité de discrimination: nombre d’attributs clés attendus significativement discriminés ?
2) Répétabilité: cohérence de discrimination pour un attribut donné et le produit ? (7.4.2)
3) Contribution à l’interaction: pour quels attributs enregistre-t-on une interaction ?
i) Interaction due à des effets de report (7.4.4)
ii) Interaction due à une utilisation différente de l’échelle (7.4.5)
↓
d) Une fois les problèmes des performance identifiés, que ce soit pour le jury ou pour chaque sujet, il
convient de programmer des sessions d’entraînement appropriées.
Figure 1 — Logigramme de contrôle de la performance
© ISO 2012 – Tous droits réservés 3
---------------------- Page: 7 ----------------------
ISO 11132:2012(F)
Les indicateurs qui peuvent être déterminés au cours de la même session sont les suivants.
— Biais d’un sujet, mesuré comme la différence entre la moyenne du sujet et une valeur «vraie» connue, ou
la moyenne du jury utilisée comme une estimation de la valeur «vraie».
— Répétabilité d’un sujet, inversement reliée à l’écart-type calculé à partir d’évaluations répétées par le sujet
sur le même échantillon ou à partir de répétitions effectuées sur le même produit.
— Reproductibilité d’un sujet, inversement reliée à l’écart-type des biais du sujet en fonction de chaque produit.
— Discrimination d’un sujet, mesurée comme la capacité à attribuer, de manière cohérente, des notes
différentes à des produits différents.
Chez un sujet, le biais peut indiquer une acuité sensorielle et/ou une utilisation de l’échelle de réponses
différente de celle des autres sujets.
S’il apparaît qu’un sujet réalise des évaluations différentes de celles des autres sujets, examiner l’ensemble
des résultats afin de déterminer si:
a) les évaluations sont cohérentes ou variables pour des échantillons répétés du même produit;
b) les évaluations sont similaires ou différentes pour des échantillons de produits différents;
c) le biais se produit avec la totalité, ou une partie seulement, des échelles d’évaluation.
L’analyse de la variance (ANOVA) peut être utilisée pour répondre à ces questions.
Dans certains cas, le biais peut indiquer un sujet de capacité supérieure dont les résultats sont particulièrement
utiles. Dans d’autres cas, un sujet montrant un biais peut nécessiter un réentraînement ou il peut être exclu du jury.
Une seule approche cohérente pour l’analyse statistique des résultats est décrite ici. Toutefois, certains
attributs de la performance du jury peuvent être évalués par plus d’une mesure descriptive. Par exemple, le
carré moyen de l’erreur et l’erreur sur l’écart-type (sa racine carrée) expriment tous deux la variabilité dans
l’évaluation d’un produit. Il convient que les mesures utilisées soient celles habituellement employées dans le
domaine d’application.
D’autres mesures pertinentes concernant l’accord entre les sujets quant à l’utilisation de l’échelle pour un
attribut sont l’interaction entre sujet et produit et le coefficient de corrélation entre les notes d’un sujet et les
moyennes du jury. Il se peut qu’un sujet n’ait pas de biais mais qu’il utilise l’échelle de manière différente.
Une corrélation proche de 1, une pente de régression proche de 1 et une ordonnée à l’origine de la droite de
régression proche de 0 indiquent un bon accord entre un sujet et le reste du jury.
Avec un petit nombre de jugements (moins de six), il convient d’interpréter avec prudence le coefficient de
corrélation car il peut être élevé (jusqu’à 0,7) par le seul fait du hasard.
5 Conditions expérimentales
Les installations d’essai doivent être conformes à l’ISO 8589.
6 Qualification des sujets
Le jury doit avoir au moins le niveau de qualification et d’expérience de sujets qualifiés (ISO 8586).
7 Mode opératoire
7.1 Contrôle par validation formelle de la performance
Lors de chaque session, il convient de présenter au jury de sujets un jeu d’échantillons similaires à ceux devant
être examinés par le jury lors de l’évaluation des produits et pour lesquels des différences statistiquement
significatives entre au moins deux échantillons peuvent être garanties pour au moins huit attributs.
4 © ISO 2012 – Tous droits réservés
---------------------- Page: 8 ----------------------
ISO 11132:2012(F)
Ce nombre est recommandé pour encourager les responsables du jury ou les responsables en analyse
sensorielle à identifier et à sélectionner des échantillons de validation qui présentent une mesure réaliste et
statistique de la performance d’un jury.
Ces attributs clés sont utilisés comme des mesures clés pour évaluer la performance du jury. Il convient que
le jeu d’échantillons comprenne des répétitions. Le nombre de répétitions doit être identique pour chaque
échantillon. Le nombre de sujets, d’échantillons et de répétitions dépend des produits, des attributs sensoriels
évalués et de l’objectif du mode opératoire. Par exemple, 2 ou 3 répétitions de 3 ou 4 échantillons pourraient
être utilisées. Il convient de veiller à limiter le nombre d’évaluations requises de façon à éviter la fatigue
sensorielle. Il convient que les attributs des échantillons couvrent l’étendue des valeurs que le jury estime lors
de l’évaluation des produits.
Un plan expérimental est en blocs aléatoires a été adopté, les sujets étant les «blocs».
Si l’on attend un effet de report d’un échantillon à l’autre, un plan expérimental approprié est le carré latin de
Williams. Le plan de base utilise quatre sujets et quatre échantillons.
Tableau 1 — Carré latin de Williams
Ordre
Sujet
1 2 3 4
1 A B C D
2 B D A C
3 C A D B
4 D C B A
Dans ce plan, chaque sujet échantillonne les quatre produits dans un ordre différent et, pour chaque sujet,
chaque produit particulier est suivi d’un produit différent. Par exemple, A est suivi de B pour le sujet 1, de C
pour le sujet 2, de D pour le sujet 3 et d’aucun produit pour le sujet 4.
Si des multiples de quatre sujets sont disponibles, le même plan peut être répété pour chaque groupe de quatre.
7.2 Analyse statistique des données par validation formelle de la performance (une
seule session)
Le Tableau 2 illustre une manière de disposer les résultats en tableaux et de les résumer. Certains logiciels
informatiques peuvent nécessiter une organisation différente des données, par exemple avec les échantillons
en colonnes et les sujets en lignes.
© ISO 2012 – Tous droits réservés 5
---------------------- Page: 9 ----------------------
ISO 11132:2012(F)
Tableau 2 — Résultats sujet par sujet
Sujet
Échantillon 1 2 j n Moyenne
q
Notes Moyenne Notes Moyenne Notes Moyenne Notes Moyenne
Y Y
111 1j1
Y Y
112 1j2
Y
Y Y
1
1.j
11. 1.
Y Y
11n 1jn
r r
2
Y
Y
i11 ij1
Y Y
i12
ij2 Y
Y Y
i
ij.
i1. i.
Y
Y
in1 ijn
r r
n
p
Y
Moyenne Y
..j
...
Dans ce tableau, on suppose qu’il y a:
n = nombre d’échantillons (i = 1,2 … n );
p p
n = nombre de sujets (j = 1,2 … n );
q q
n = nombre de répétitions par échantillon (k = 1,2 … n ).
r r
Les mesures de la performance du jury dans son ensemble et de chacun des sujets, autres que le biais,
demandent que les données soient analysées par une ANOVA.
Les détails des calculs de base ne sont pas indiqués dans le présente Norme internationale car les analyses
sont normalement effectuées par un programme informatique.
Les données de chaque sujet sont analysées par une ANOVA à un facteur (Tableau 3).
Tableau 3 — ANOVA pour un sujet et un attribut
Source de variation Degrés de liberté Somme des carrés Carré moyen Rapport F
Entre les échantillons ν = n - 1 S MS = s /ν F = MS /MS
1 p 1 1 1 1 1 2
Erreur ν = n (n - 1) S MS = s /ν
2 p r 2 2 2 2
Total ν = n n - 1 S
3 p r 3
n = nombre d’échantillons
p
n = nombre de répétitions par échantillon
r
Les données pour la session complète sont analysées par une ANOVA en blocs aléatoires (Tableau 4).
6 © ISO 2012 – Tous droits réservés
---------------------- Page: 10 ----------------------
ISO 11132:2012(F)
Tableau 4 — ANOVA pour une session complète et un attribut
Source de variation Degrés de liberté Somme des carrés Carré moyen Rapport F
Entre les échantillons ν = n - 1 S MS = s /ν
4 p 4 4 4 4
a
Entre les sujets ν = n - 1 S MS = s /ν F = MS /MS
5 q 5 5 5 5 5 7
Interaction ν = (n - 1)(n - 1) S MS = s /ν F = MS /MS
6 p q 6 6 6 6 6 7
Erreur ν = n n (n - 1) S MS = s /ν
7 p q r 7 7 7 7
Total ν = n n n - 1 S
8 p q r 8
n = nombre d’échantillons
p
n = nombre de sujets
q
n = nombre de répétitions par échantillon
r
a
Si l’interaction est significative, le rapport F pour la ligne «entre les sujets» est calculé par F = MS /MS avec le carré moyen de
5 6
l’interaction au dénominateur.
7.3 Performance globale du jury par validation formelle de la performance
7.3.1 Discrimination des attributs clés
Il convient de déterminer la proportion des attributs clés qui ont été significativement discriminés comme
attendu. Pour chaque attribut, cela est indiqué par la variation significative entre les échantillons pour un
niveau de 0,05 dans le tableau ANOVA construit pour une session (Tableau 4). Plus la proportion d’attributs
clés significativement discriminés est élevée, plus le jury est performant. Il convient que le jury soit ré-entraîné
sur les attributs clés qui ne sont pas significativement discriminés comme attendu.
7.3.2 Homogénéité du jury
Un jury n’est pas homogène lorsque des sujets sont en désaccord avec le reste du jury.
Un jury n’est pas homogène si l’interaction entre échantillon et sujet dans l’ANOVA est significative pour un
niveau de 0,05.
Le degré d’homogénéité du jury est inversement relié à l’écart-type de l’interaction, s .
i
MS −MS
67
s =
i
n
r
Voir le Tableau 4.
Il convient de déterminer le nombre d’attributs clés donnant une interaction entre échantillon et sujet significative.
Consulter le tableau ANOVA pour chaque attribut et noter ceux présentant une interaction pour un niveau de
0,05. Plus le nombre d’attributs clés donnant une interaction significative est élevé, moins le jury est homogène.
Il convient que le jury soit ré-entraîné sur les attributs clés qui donnent une interaction significative.
7.3.3 Répétabilité du jury
La répétabilité du jury peut être estimée d’après la répétabilité de chaque sujet. Elle est inversement reliée à
l’erreur sur l’écart-type, s :
e
sM= S
e 7
Voir le Tableau 4.
© ISO 2012 – Tous droits réservés 7
---------------------- Page: 11 ----------------------
ISO 11132:2012(F)
7.3.4 Reproductibilité du jury
Pour vérifier la reproductibilité du jury, effectuer des évaluations d’autres échantillons de produits identiques
au cours de sessions différentes.
Dans une ANOVA à trois facteurs (échantillons, sujets, sessions), il convient que la variation de la ligne «entre
les sessions» ne soit pas significative pour un niveau de 0,05.
Il convient que l’interaction entre échantillons et sessions ne soit pas significative pour un niveau de 0,05. Une
significativité indiquerait que l’évaluation des différences entre les échantillons aurait varié d’une session à l’autre.
Il convient que l’interaction entre sujets et sessions ne soit pas significative pour un niveau de 0,05. Une
significativité indiquerait que les biais de chaque sujet auraient varié d’une session à l’autre.
Si l’analyse est utilisée pour décrire la performance du jury dans son ensemble, alors les facteurs de l’ANOVA
(sessions, échantillons et sujets) sont des facteurs aléatoires. Les écarts-types des composantes peuvent être
combinés pour donner une mesure de la reproductibilité.
Écart-type de reproductibilité, s :
R
222 22
s =+sss++ss+
R es sess ss××essprodsess
où
e signifie erreur;
s signifie sujets;
sess signifie sessions;
prod signifie produits.
Les estimations du biais et de la variation peuvent être présentées sous forme de tableaux et/ou de graphiques.
Les graphiques en fonction de la durée indiquent si des dérives, des sauts ou des problèmes occasionnels
sont survenus.
Des exemples de telles présentations sont l’analyse CUSUM (voir l’Annexe B) et les cartes de contrôle de
Shewhart (voir l’Annexe C).
7.4 Performance de chaque sujet par validation formelle de la performance
7.4.1 Capacité de discrimination d’un sujet
La capacité de discrimination est mesurée par la proportion d’attributs clés ayant été significativement
discriminés comme attendu. Pour chaque attribut, cela est indiqué par une variation significative de la ligne
«entre les échantillons» pour un niveau de 0,05 dans le tableau ANOVA (Tableau 3). Plus la proportion
d’attributs clés significativement discriminés est élevée, plus le sujet est performant. Il convient que le sujet
soit ré-entraîné sur les attributs clés qui ne sont pas significativement discriminés comme attendu.
7.4.2 Répétabilité d’un sujet
La répétabilité d’un sujet est inversement reliée à l’erreur sur l’écart-type du sujet, s :
e
sM= S
e2
Voir le Tableau 3.
8 © ISO 2012 – Tous droits réservés
---------------------- Page: 12 ----------------------
ISO 11132:2012(F)
7.4.3 Cohérence d’un sujet
La cohérence d’un sujet est inversement reliée à l’écart-type des termes de biais calculé à partir de
chaque échantillon.
(Pour le sujet j, le terme de biais pour l’échantillon i est la différence entre la moyenne du sujet pour l’échantillon
et la moyenne du jury pour l’échantillon) YY− . Voir le Tableau 2.
ij.i .
S’il s’avère que la performance d’un sujet manque de cohérence, un graphique donnant la dispersion des notes
du sujet en fonction des moyennes du jury, accompagné d’une analyse de régression et de corrélation, indique
si l’incohérence est aléatoire ou si elle présente un modèle indiquant que ce sujet utilise l’échelle d’une manière
différente de celle du reste du jury.
7.4.4 Accord entre les sujets
Un jury n’est pas homogène lorsqu’un ou plusieurs sujets est/sont en désaccord avec le reste du jury.
Ce phénomène peut être détecté quand:
— un sujet a un biais significatif (voir l’Annexe B);
— un sujet a un écart-type résiduel significativement plus élevé que celui du jury pris dans son ensemble;
— le coefficient de corrélation entre les notes d’un sujet et les moyennes du jury est très faible ou négatif;
— la pente de la régression des notes d’un sujet par rapport aux moyennes du jury est significativement
différente de 1 et/ou l’ordonnée à l’origine est significativement différente de 0.
L’accord entre les sujets est inversement relié à l’écart-type entre les sujets, s :
s
MS −MS
57
s =
s
nn
qr
si l’interaction n’était pas significative (voir le Tableau 4) ou
MS −MS
56
s =
s
nn
qr
si l’interaction était significative. Voir le Tableau 4.
Il convient d’évaluer la significativité du désaccord entre les sujets en utilisant le rapport F pour la ligne «entre
les sujets» et en le comparant avec les valeurs tabulées de F pour les degrés de liberté appropriés. Si F est
significatif, cela prouve qu’il existe un problème d’accord au sein du jury et que ce problème doit être résolu. Si
F n’est pas significatif, cela ne prouve nullement qu’il n’existe pas de problème car un rapport F non significatif
peut être obscurci par une mauvaise répétabilité (une erreur sur l’écart-type, s , plus élevée que celle attendue).
e
7.4.5 Utilisation différente de l’échelle/biais
Un biais sujet significatif dans une ANOVA peut indiquer que les sujets utilisent l’échelle de différentes manières.
Dans la plupart des cas, la valeur «vraie» n’est pas connue et le biais global, pour un sujet, est pris comme
étant égal à la différence entre la moyenne de ce sujet et la moyenne du jury
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.