Валеев Г. Х. Методология и методы психолого-педагогических исследований



Сторінка4/9
Дата конвертації15.04.2016
Розмір1.68 Mb.
1   2   3   4   5   6   7   8   9

Глава 4. Тестирование в психолого-педагогическом исследовании

§ 1. Генезис и развитие метода тестирования


Термин «тест» [< англ. test – проба, проверка, опыт, испытание, исследование] был введен основателем тестовой диагностики американским психологом Д.Кеттелом в конце XIX века. Позднее тесты совершенствовали французский психолог А.Бине, позже другой американский психолог Э.Торндайк и его ученики. Тест – это стандартизированное задание или система контрольных заданий, нацеленных на измерение актуального уровня знаний, умений и навыков, а также способностей испытуемого. Соответственно, под тестированием понимается метод психолого-педагогической диагностики, применяющий стандартизированные задания.

Тестовая методика с момента зарождения постоянно находилась в процессе совершенствования. Альфред Бинэ (1857-1911) один из основоположников учения о тестах. Им разработана (в вариантах теста 1908 и 1911 гг.) система возрастных шкал для диагностики детей. Он сгруппировал тестовые задания по возрастным группам, в которых «нормальные» дети решали их на 50-90%. Если данную задачу решало около 75% определенного количества детей одинакового возраста, она считалась показательной для данного возраста. По числу заданий, которые решил ребенок, вычислялся возраст его интеллектуального развития. Задания, как правило, предполагали владение логическими, логико-перцептивными и арифметическими действиями, выявляли общую осведомленность, ориентировку в практических ситуациях, произвольную память и пр. Таким образом была составлена серия тестов для каждого возраста.

Однако этот возраст интеллектуального развития может сообщить что-то об умственных способностях ребенка и перспективах его развития только в том случае, если его сопоставить с возрастом жизни ребенка. Поэтому немецкий психолог Вильям Штерн (1871-1938) предложил разделить возраст интеллектуального развития на возраст жизни и получить таким образом сопоставимый коэффициент интеллектуального развития. Чтобы получить целые числа, полученную величину умножали на 100. Величина, равная 100, соответствовала совпадению возраста интеллектуального развития и возраста жизни и обозначала тем самым средний уровень интеллектуального развития. Английский психолог Берт, а также американский ученый Термен попытались усовершенствовать эту систему. По их именам названы шкалы Бине-Берта и Бине-Термена.

Шкала тестов Бине-Термена устроена таким образом, что на каждый период детского возраста дает шесть тестов. Каждый тест считается за два месяца. Вначале испытуемому предъявляли задания, которые соответствовали возрасту на год меньшему, чем его собственный. Он должен был дать подряд пять правильных ответов. Этим фиксировался умственный «базовый возраст». Далее необходимо было к числу тестов «базового возраста» прибавить число всех правильных ответов. К примеру, если ребенок решил все задачи его возраста, допустим, для 6 лет и примерно три теста для более старших детей, то его умственный возраст считается равным 6 годам и 6 месяцам. В этом случае коэффициент интеллекта для данного ребенка высчитывается по формуле:



image002.gif,

Где УВ – умственный возраст (в соответствии с тестами);



ХВ – хронологический (паспортный) возраст.

IQ - «Ай-кью» - равняется умственному возрасту (в данном случае 6,5 лет), умноженному на 100 и деленному на действительный хронологический возраст ребенка (в нашем примере 6 лет). Для нашего примера коэффициент умственного развития ребенка будет равен приблизительно 108%, что является чуть выше нормы.

Впервые шкала IQ была применена в 1916 г. при адаптации теста Бине-Термена. Но применение данной шкалы сразу натолкнуло исследователей на тот недостаток, что невозможно рассчитать возраст жизни старше 16 или 19 лет, так как не было заданий, могущих выявить прогресс в возрасте интеллектуального развития. Вследствие чего невозможно было разработать шкалу коэффициента интеллекта для взрослых.

Д. Векслер в 1939 г. рассчитал для этого теста стандарты, полученные при вычислении отклонений от средней величины конкретной взрослой группы. Тем самым, он полностью отказался от определения возраста интеллектуального развития и деления его на возраст жизни. В этом случае название «коэффициент интеллекта» более не соответствовало существу полученной величины, но было сохранено ввиду широкой распространенности этого термина. Эту новую величину, сразу же вошедшую в научный обиход, называют «IQ-отклонением». Она характеризуется средней величиной, определяемой при выверке репрезентативной выборки, которая умножается на 100 и имеет стандартное отклонение в положительную или отрицательную стороны равную примерно 15 единицам.

На первом этапе создания тестов IQ испытуемого исчисляли путем деления умственного возраста на хронологический возраст, при этом основное внимание уделялось повышению качества измерений на основе главным образом классического аппарата теории погрешностей измерений. С накоплением экспериментального опыта теория тестов стала развиваться на базе латентно-структурного анализа (П. Лазарсфельд и др.) и связанного с этим анализом ряда математических моделей измерения. Теперь используется математическая теория оценки качества заданий и параметров личности. На этой основе делаются все современные тесты. Отклонения от коэффициента интеллектуального развития вычисляются при подсчете отклонения отдельных результатов от средней величины (нормально распределенных) данных. На шкале, с помощью которой определяется отклонение от коэффициента интеллектуального развития, средняя величина составляет 100, а стандартное отклонение в обе стороны примерно 15 единиц IQ.


§ 2. Типы тестирования


Существуют три основных сферы тестирования: 1) тестирование в образовании; 2) профессиональное тестирование; 3) психологическое тестирование. Во всех трех сферах применяют следующие виды тестов: личностные, проективные, тесты интеллекта, тесты достижений, тесты креативности, тесты критериально-ориентированные.

Личностные тесты – методы психодиагностики, с помощью которых измеряют различные стороны личности индивида: установки, ценности, отношения, эмоциональные, мотивационные и межличностные свойства, типичные формы поведения. Обычно личностные тесты применяются в одной из форм: 1) шкалы и опросники; 2) ситуационные тесты или тесты действия, использующие перцептивные, когнитивные или оценочные задачи (определяется усвоение знаний), оценку себя, своих личностных конструктов и пр.

Проективные тесты – [< лат. projectio – выбрасывание вперед] – совокупность методик целостного изучения личности, основанного на психологической интерпретации результатов проекции. Составители проективных тестов исходят из предположения о том, что человек всегда преобразует (хотя бы в восприятии и представлении) ситуацию, в которой он оказался, «насыщает» ее собственными проблемами, «проецирует» на нее содержание своей личности, так как процесс восприятия всегда обусловлен следами прошлых впечатлений. Сюда относятся, например, тест чернильных пятен Роршаха, тест по объяснению сюжета на картинках и др. Проективные тесты конструируются в двух видах. В ассоциативном проективном тесте предлагаются незаконченные предложения, рассказы, рисунки и др. В экспрессивном тесте предлагается принять участие в психодраме, игре, рисовании на свободную тему и др. Достоинством методики проективных тестов является то, что они облегчают демонстрацию скрытого содержания внутреннего мира субъекта, которые он не может выразить открыто. Это позволяет сориентироваться в сложных свойствах личности, не поддающихся точной оценке.

Тесты интеллекта – методики психодиагностики, ориентированные на выявление умственного потенциала индивида. Обычно в интеллектуальных тестах испытуемому предлагается установить логические отношения классификации, аналогии, обобщения и др. между терминами и понятиями, из которых составлены задачи теста. Иногда в задачах теста необходимо правильно составить рисунок, собрать геометрическую фигуру, сложить из представленных деталей изображение предмета и др.

Тесты достижений – одна из методик психодиагностики, выявляющая степень владения испытуемым конкретными знаниями, умениями, навыками. Направлены на выявление уровня усвоенности конкретных навыков, а не обобщенных умений, которые человек приобретает в итоге разнообразного жизненного опыта. Тесты достижений проводятся в трех формах: 1) тесты действия; 2) тесты письменные и 3) тесты устные. Тесты действия выявляют умения оперировать инструментами, механизмами, материалами. В письменных тестах необходимо выбрать верный ответ среди нескольких предложенных либо отметить что-то на графике, либо указать что-то в предложенном рисунке. Устные тесты достижений – заранее подготовленная система вопросов, на который испытуемый должен дать правильные ответы.

Тесты креативности [< лат. creatio – сотворение, создание] – методики для изучения и оценки творческих способностей личности. Диагностика творческих способностей ведется в двух направлениях: анализ жизненного опыта и индивидуальных особенностей творческой личности; анализ творческого мышления и его продуктов. Вопрос о креативности как о самостоятельном, независимом от интеллекта свойстве, пока остается нерешенным. Тесты креативности до сих пор остаются не надежными. При их помощи можно измерить такие качества, как беглость, гибкость мышления, оригинальность, чувствительность к проблемам и некоторые другие, но творческие достижения требуют более сложного сочетания способностей и свойств личности.

Более-менее корректному измерению доступны далеко не все творческие достижения, а только конвергентные. Конвергентными [<лат. convergere – приближаться, сходиться] называются такие достижения, которые могут быть выражены в правильном или однозначно лучшем результате. Это громадная сфера в самых различных специальных областях и на различных уровнях, которая простирается от знания фактов до аргументированной оценки. Конвергентные успехи в учебе вполне доступны измерению. Иначе обстоит дело с дивергентными творческими достижениями.

Дивергентные [< лат. divergere – отклоняться, расходиться] достижения те, которые могут привести ко многим в принципе равноправным результатам. Типичным примером является сфера креативного, художественного творчества. Одна и та же тема может быть разработана с помощью музыкальных, поэтических, изобразительных средств в различных вариациях, которые не могут быть классифицированы по принципу «правильно-неправильно» или «лучше-хуже», если абстрагироваться от более «ремесленного» аспекта, имеющего лишь второстепенное значение. Очень редко удается измерить дивергентные креативные способности, иногда с помощью вспомогательных проблемных конструкций.

Тесты критериально-ориентированные – методики психодиагностики, направленные на выявление уровня владения знаниями и навыками умственных действий, которые необходимы и достаточны для выполнения определенных классов учебных или профессиональных заданий. Критерием служит наличие или отсутствие этих знаний. Это инструмент обратной связи в организации процессов обучения. Результаты тестирования, проведенного с помощью этих методик, оцениваются не по порядковому месту испытуемого в выборке и не по отношению этих результатов к статистической норме, а по отношению ко всей сумме тестовых задач. Критериально-ориентированное тестирование позволяет обнаружить при анализе результатов недочеты умственного развития как отдельных индивидов, так и целых групп, и наметить меры для их ликвидации.

Тесты могут быть вербальные (словесные, смысловые) и невербальные (фигурные, рисуночные), то есть без слов.

По методике выполнения теста выделяют рефлективный и верификационный методы. Рефлективные тестовые задания подразделяются на два вида: 1) элективные [< лат. electus – избранный] задания на распознавание с выбором верного ответа из нескольких данных альтернатив, установление логической или иной связи; 2) инвентивные [< лат. inventiv – выдумка, изобретение] задания на дополнение, преобразование и на свободную форму ответа. Сущность верификационного метода выполнения тестовых заданий заключается в том, что ученик должен дать ответ типа «верно-неверно», «да-нет».

§ 3. Тесты школьной успеваемости


Тесты школьной успеваемости являются методами педагогической диагностики, с помощью которого результаты планируемого учебного процесса могут быть максимально объективно, надежно и валидно измерены, обработаны, интерпретированы и подготовлены к использованию в педагогической практике учителями.

Выделяют следующие виды тестов школьной успеваемости: а) ориентированные на соотносительную группу; б) ориентированные на критерии. Также они могут быть формализованными и неформализованными (неформальными).

Тесты школьной успеваемости, ориентированные на соотносительную группу, предполагают сопоставление индивидуального результата тестирования каждого ученика с результатами, полученными с помощью релевантной выборки (чаще всего это все классы школьного выпуска). Составление тестов данного типа включает следующие этапы: а) подготовительное планирование, б) анализ учебных программ и учебников, в) конструирование заданий, г) анализ заданий, д) выверка.

Этап подготовительного планирования предполагает обдумывание следующих вопросов: кто, что и почему подлежит исследованию? Например, если необходимо определить учащихся для дополнительных занятий, то нет необходимости тестировать весь класс, можно взять лишь более слабую его половину. Необходимо продумать, какие формы успеваемости будут исследоваться – устные, письменные или моторные, что будет выноситься на первый план – умение мыслить или запоминать и т.д.

После определения цели и функции тестирования необходимо провести анализ учебных планов, программ и учебников. Здесь обращается внимание на то, каков уровень требуемых знаний, умений и навыков. Уровень узнавания изученного материала, репродуктивного воспроизведения усвоенного или творческого использования в новой ситуации.

При конструировании заданий рекомендуется создавать на 50 или 100% заданий больше, чем это требуется, ибо только часть заданий (это зависит от опыта авторов теста) выдерживает проверку.

Тесты школьной успеваемости, ориентированные на критерии,– это тесты, сообщающие индивидуальный результат учащегося по отношению к критериям, заранее установленным исследователем (педагогом) или учебной программой. В этом случае учащиеся заранее предупреждаются, что результаты предстоящего тестирования на владение грамотной письменной речью успешно пройдут лишь те, кто наберет такую-то сумму баллов. То или иное количество тестовых баллов может быть определено для получения той или иной отметки успеваемости.

Неформальные тесты школьной успеваемости являются методом педагогической диагностики, конструируемыми школьными педагогами с целью объективной фиксации результатов процесса обучения в своем классе. Неформальные тесты характеризуются отсутствием строго научного подхода на всех этапах создания. Если даже формализованные тесты никогда не дают уверенности в абсолютной надежности, то несовершенным тестам, создаваемым учителями для собственного пользования, это присуще еще в большей степени. Несовершенство измерений с точки зрения их надежности находит свое практическое выражение в вычислении стандартной измерительной ошибки, то есть величины стандартного отклонения теста, которая объясняется его надежностью.

Стандартная измерительная ошибка учитывается создателями теста в процессе его подготовки. Пользователь теста в специальном приложении к тесту предупреждается, что стандартная ошибка в измерении, допустим, составляет ±4 балла. В этом случае он знает, что «истинное» значение успеваемости для ученика, набравшего 24 балла, располагается между 20 и 28 баллами. Если знать измерительные ошибки инструментария, то можно избежать переоценки его надежности и не принимать случайные расхождения результатов при их интерпретации за подлинные различия в успеваемости.

Надежность инструментария зависит – при прочих равных условиях – от количества заданий. Для неформальных тестов ошибка в измерении может быть вычислена с помощью следующего основного правила: при количестве заданий менее 24 ошибка составляет ±2 балла; при количестве заданий между 24 и 47 ошибка составляет ±3 балла; при количестве заданий между 48 и 89 ошибка составляет ±4 балла.


§ 4. Mетодические критерии качества измерений в социальных науках


Качество результатов измерения принято оценивать
по следующим общепринятым критериям: 1) объективность;
2) надежность; 3) валидность и др.

Тест успеваемости считается объективным тогда, когда удается максимально исключить интерсубъектные воздействия исследователей на его результаты, когда результаты не зависят от личности человека, проводящего измерение, подводящего итоги и интерпретирующего полученные данные. Объективность характеризуется корреляцией между результатами, полученными двумя оценивающими лицами. Необходимо, чтобы коэффициенты корреляции в этом случае были близки к единице ( = 1).

В целях обеспечения объективности проведение, обработка и интерпретация (оценка) результатов работы должны быть строго нормированы. Констатация и оценка или измерение и интерпретация должны быть максимально отделены друг от друга. С этой целью должны быть составлены точные инструкции проведения работы, исправления ошибок и оценки результатов.

Объективность проведения измерений требует, чтобы все учащиеся были подвергнуты одному и тому же испытанию в аналогичных условиях. Например, испытание должно длиться для всех одинаковое количество времени. Необходимо следить за тем, чтобы учащиеся не списывали друг у друга в процессе выполнения работы. Во избежание этого тест успеваемости необходимо проводить с совершенно отделенными друг от друга учащимися в двух или даже в четырех параллельных вариантах.

Большую трудность представляет обеспечение объективности интерпретации результатов исследования. Об объективности интерпретации можно говорить в том случае, когда несколько лиц одинаковым образом интерпретируют одни и те же результаты при обработке данных, устанавливают одни и те же взаимосвязи. Для большей объективности обработки данных рекомендуется в анкетировании, тестировании, наблюдении использовать закрытые вопросы, когда достаточно поставить крестик, цифру, выбрать одно слово из нескольких. Так как при оценке одной и той же работы с открытыми вопросами, свободной формой конструирования ответа разными учителями по-разному, имеет место субъективность обработки данных.

Объективность никогда не становилась самоцелью. Она является только предпосылкой надежности и валидности измерений. Необъективное измерение не может быть надежным и валидным.

Надежность теста – один из критериев качества теста, относящийся к степени точности измерений того или иного конкретного признака. Чем больше надежность теста, тем относительно свободнее он от погрешностей измерения.

В тестовой методике общепринято учитывать три коэффициента надежности: 1) коэффициент стабильности или постоянства, который представляет собой коэффициент корреляции между результатами тестирования при первом и повторном испытании одним тестом одного и того же ученического коллектива; 2) коэффициент эквивалентности, представляющий собой коэффициент корреляции результатов тестирования одного и того же контингента испытуемых вариантами одного и того же теста, либо разными, но эквивалентными по форме и цели тестами; 3) коэффициент внутреннего постоянства, или внутренней однородности, являющийся коэффициентом корреляции результатов частей теста, показанных одними и теми же испытуемыми.

При определении надежности теста успеваемости чаще всего используется коэффициент внутреннего постоянства, обычно посредством методов дисперсионного и факторного анализа. В тесте успеваемости коэффициент надежности (коэффициент корреляции) должен быть > 0,7.

При определении надежности следует учитывать, что в каждом результате измерения присутствуют «истинная» и «искажающая» части. Предпринимаются попытки оценить соотношение этих частей с помощью различных методов, которые применяются при конструировании тестов. Обычно используется метод повторного тестирования, метод деления пополам и метод параллельного тестирования.

Метод ретеста или повторного теста позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте самокорреляции (коэффициенте релиабильности). Тем самым замеряется внутренняя константность теста, то есть в какой мере все задания теста замеряют одно и то же свойство. Обычно коэффициент релиабильности обозначается rjj. Положительным считается результат самокорреляции теста, при котором, как указывалось выше, rjj > 0,7. Этот метод редко применяется при измерении успеваемости, так как при повторном тестировании приходится считаться с эффектом тренировки, который оказывается тем сильнее, чем легче для запоминания задания и короче промежуток времени между первой и второй обработкой полученных данных.

Метод деления пополам может устранить вышеназванное препятствие. В этом случае подборка однажды выполненных заданий делится пополам. В первый полутест входят задания с нечетным порядковым номером, а во второй полутест – с четным. Подборка заданий может быть разделена надвое и на основании какого-либо другого принципа. Затем устанавливаются результаты каждого испытуемого по обоим полутестам и вычисляется коэффициент корреляции между полутестами, что дает сведения о надежности применяемого метода. Надежность теста успеваемости вычисляется по формуле:



image004.gif

Где R – надежность теста успеваемости;



r1,2 – коэффициент корреляции между половинами теста успеваемости.

Метод параллельного теста. При методе параллельного теста для измерения одних и тех же знаний конструируются два различных набора заданий, которые по своему содержанию напоминают близнецов. Оба параллельных набора заданий можно предложить непосредственно друг за другом или при удобном случае. Эффект запоминания возникнуть не может, так как актуальная постановка заданий в каждом наборе несколько иная.

Составление эквивалентных тестов по естественно-математическим циклам достаточно просто, а по гуманитарным – более сложно. Каждый вопрос теста или контрольной работы проверяется методом image006.gif (хи-квадрат). Учащиеся при этом выполняют задание по первому варианту, потом по второму. После чего вычисляется корреляция между полученными результатами. Если коэффициент корреляции тестов > 0,7, то тест считается надежным. Для вычисления корреляции применяют формулу:

image008.gif

Помимо общепринятых вышеперечисленных методик при определении надежности тестов иногда используются метод сравнения групп и метод сравнения трудности заданий.

Метод сравнения групп организуется следующим образом. Проводится контрольная работа в «сильной» и «слабой» группах учащихся, после чего подводятся итоги, сравниваются полученные результаты и вычисляется коэффициент корреляции по следующей формуле:

Где k – количество вопросов;

– 27 % от общего количества учащихся N;

S(VN + VT) – сумма ошибок в «слабой» и «сильной» группах.

Сравнение степени трудности задач. Степень трудности задач обычно сравнивается методом теста с использованием системы четырех полей:

image012.gif

Где Б – количество учащихся, которые решили правильно первую задачу, неправильно вторую задачу;



B – количество учащихся, которые решили правильно вторую задачу, неправильно первую (см. табл. 3).

image014.gif

Число степеней свободы 1, поэтому можно считать разность между степенями трудности первой и второй задач незначительной, и эти задачи можно применять в разных вариантах контрольной работы (по специальной таблице мы узнаем, что image016.gif).

Таблица 3

Сравнение степени трудности задач


Первую задачу


решили

Вторую задачу решили


Всего

Правильно

Неправильно





Правильно


40 (А)

10 (Б)

50

Неправильно

20 (В)

5 (Д)

25

Итого

60

15





Валидность [< англ. valid – пригодный] – один из основных критериев качества теста. Валидность (адекватность) теста в настоящее время понимается как точное соответствие содержания задаваемой тестом пробы смыслу и содержанию выявляемого признака.

Валидность теста успеваемости характеризуется корреляцией между результатами теста и каким-либо выбранным критерием валидности. Такими критериями могут быть оценка знаний учащихся учителем, результаты, полученные с помощью других методов оценки (например, опроса или контрольной работы), проанализированные компетентными судьями, опытными методистами или преподавателями. При коэффициенте корреляции 0,7-0,9 считается, что валидность теста высока, при 0,45-0,65 удовлетворительная.

Проблема валидности возникает в процессе применения теста, когда ставится задача установить соответствие между степенью выраженности интересующего свойства личности и методом его измерения. Чем валиднее тест, тем лучше он отражает то качество (свойство), ради измерения которого он создан.

Понятие валидности относится не только к тесту, но и к критерию оценки его качества. Чем выше коэффициент корреляции теста с критерием, тем выше валидность. Развитие факторного анализа позволило создавать тесты, валидные по отношению к идентифицируемому фактору. Только проверенные на валидность тесты могут быть использованы в научных исследованиях.

В то же время необходимо заранее предполагать, что ни один элемент измерительного инструментария не является валидным вообще, он может быть валидным лишь в определенном смысле. Математический тест не дает сведений о развитии интеллекта, об уровне владения лингвистическими навыками и др. Математический тест, предназначенный для второго полугодия 6-го класса, не является валидным для другой стадии обучения. Если тест ориентирован на содержание конкретного учебника, то его валидность для учащихся, работавшим по иным учебникам, является проблематичной. В связи с этим определение валидности теста требует постановки дополнительных вопросов: валидность для чего, для какой цели, по какому критерию?

На валидность измерения могут влиять различные факторы. Возрастные, социальные или временные изменения влияют, помимо заранее спланированных педагогических условий, на сформированность тех или иных качеств личности. Незапланированное и неучитываемое воздействие личности педагога-экспериментатора на учащихся. Ошибки и неточности, связанные с субъективностью оценки поступков, мнений и действий наблюдаемых учащихся. Нередко наблюдается случайный отбор школьников для проведения опытно-экспериментальной работы без учета требований типичности характерных проявлений изучаемых сторон личности, в этом случае нарушается условие репрезентативности выборки из генеральной совокупности. Преобладание в экспериментальном классе учащихся с крайними позитивными или негативными проявлениями изучаемого свойства или качества влияет на весь ход опытноэкспериментальной работы. Большая психологическая настроенность, определенная установка на участие в исследовательской работе, которая существует в экспериментальном классе в отличие от контрольного. Как правило, ученики экспериментального класса более податливы к различным воздействиям и влияниям экспериментатора, чем такие же ученики в независимых условиях. Неравномерные изменения в составе классов во время проведения исследовательской работы, так как появление в классе большого количества новых для этого коллектива учеников будет влиять на конечный результат.

Наряду с тремя важнейшими критериями качества измерения в литературе называются и другие критерии. Линерт (Lienert, 1969) различает, например, следующие: а) нормирование теста, позволяющее включать результаты индивидуального тестирования в систему соотносительных понятий; б) сопоставимость теста, возможная благодаря параллельным формам или благодаря тестам с одинаковой валидностью. В таком случае тест можно сравнить с его «близнецом» или «двойняшкой». К тому же при групповых исследованиях в школьных классах параллельные формы затрудняют списывание; в) экономичность теста, имеющая место в том случае, если для проведения тестирования и обработки данных не требуется больших затрат времени и средств, если тест несложен и может использоваться в группах; г) полезность теста, являющаяся максимальной, если существует большая практическая потребность в исследовании данного поведения и если для этой цели еще не разработано или разработано слишком мало методов.

Советский исследователь А. А. Кыверялг подробно описал такой критерий, как диагностическая ценность теста, используемый при конструировании тестов успеваемости.

Диагностическая ценность теста успеваемости определяется путем проведения предварительного опыта с так называемым «нейтральным классом», результаты которого в дальнейшей исследовательской работе не используются. В процессе обработки результата предварительной контрольной работы все полученные данные располагают в возрастающем порядке и определяют медиану, т.е. величину члена, находящегося в середине ряда. Учеников, которые получили оценку ниже медианы, считают «слабыми», тех, кто получил оценку выше медианы, считают «сильными».

Далее при каждом задании выясняется количество правильных и ошибочных ответов «сильных» и «слабых». Результаты заносятся в схему четырех полей.

Предположим, что на первый вопрос из 15 «сильных» учеников 10 ответили правильно, 5 – ошибочно; из «слабых» – 3 правильно, 12 ошибочно.

Составим схему четырех полей (см. табл. 4).

Таблица 4

Результаты теста успеваемости


Количество правильных ответов


Количество неправильных ответов


«Сильные» ученики


10

5

«Слабые» ученики


3

12


Диагностическая ценность задачи представляет собой частное скрещивающихся сумм диагоналей четырех полей, т. е.:

image018.gif.

Критической величиной диагностической ценности задачи считают 1,5. Если диагностическая ценность, полученная путем вычисления, больше критической величины 1,5 тогда задача имеет нужную диагностическую ценность. Практически считают частное скрещивающихся сумм диагоналей 3 хорошей диагностической ценностью. Надо обратить внимание на то, что при одной задаче, данной в предварительной контрольной работе, нецелесообразно делить экспериментальную группу на «сильных» и «слабых», это надо делать на основании оценки учителя.

Для оценки диагностической ценности (D) каждого вопроса правильные и неправильные ответы учащихся на каждый вопрос вносятся в таблицу (см. табл. 5).

Таблица 5

Ответы на каждый вопрос теста успеваемости

Вопрос

Неправильные ответы в «слабой» группе VN

Неправильные ответы в «сильной» группе VT


Остаток «сильных» и «слабых»


VN – VT

Сумма ответов «сильных» и «слабых» VN+VT


1.

2

0

2

2

2.

12

2

10

14

3.

14

10

4

24

и т.д.

¼

¼

¼

¼

S

= 80

= 60








Диагностическая ценность каждого D вопроса вычисляется по форму

.– 134 с.

оглавление

предыдущая

следующая



Начало формы

Стр   из 124

Конец формы

Начало формы

Конец формы



image020.gif

Где K – общее количество вопросов (следовательно, и возможных ответов);

– количество учеников в «сильной» («слабой») группе.

image022.gif

Где N – общее количество учеников, которые написали работу;

VN – ошибки в «слабой» группе;

VT – ошибки в «сильной» группе.

Предположим, что для определения диагностической ценности вопросов контрольной работы была проведена контрольная работа с 50 учениками, причем правильные и неправильные ответы трех первых вопросов распределились так, как приведено в таблице (в обеих группах, т.е. в «слабой» и «сильной», было 14 учеников):

image024.gif количество вопросов 15.

Диагностическая ценность первого вопроса:



image026.gif.

Диагностическая ценность второго вопроса:



image028.gif.

Диагностическая ценность третьего вопроса:



image030.gif.

Практически диагностирующими считаются те задачи, диагностическая ценность которых составляет от 16% до 84%. Если задача слишком легкая и большинство учеников могут решить ее, тогда диагностическая ценность ее ниже 16%, если задача слишком трудная и ее не может решить большинство учеников, тогда диагностическая ценность ее больше 84%. Следовательно, первая задача, приведенная в примере, слишком легкая, третья – слишком трудная, вторая задача имеет удовлетворительную диагностическую ценность.

На основании таблицы 5 можно также сделать заключение о диагностической ценности задач. Это показывает число
(VN – VT), приведенное в четвертом столбце таблицы 5. Чем больше это число, тем выше диагностическая ценность вопроса. Пятый столбец показывает степень трудности задач: чем больше это число, тем труднее задача.

Иногда случается, что число, находящееся в четвертом столбце отрицательное, т.е. на некоторые вопросы «сильные» отвечают неправильно, «слабые» – правильно. Обычно такие вопросы неясно сформулированы, поэтому ответы случайны. При выявлении таких вопросов их следует переформулировать иначе.

Диагностическую ценность теста успеваемости или контрольной работы можно легко определить при помощи знакового теста.

На основании предварительного опыта выбирают «сильных» и «слабых» учеников (27%) и проводят с ними предварительную контрольную работу. Для каждой задачи отмечают в «слабой» и «сильной» группах правильный или неправильный ответ каждого ученика буквой П или Н. Затем вычисляют достоверность различия знаков. Если общее количество однородных знаков («+», или «–»), полученных путем вычисления, больше критического числа, приведенного в специальной таблице, тогда задача имеет достоверную диагностическую ценность.

Хорошим способом проверки валидности теста успеваемости или контрольной работы является и коррелирование результатов теста с оценками учителя об учениках или сравнение с результатами, полученными путем проведения теста, сформулированного по-другому. В таком случае надо также проверить достоверность коэффициента корреляции.

Другим методом решения вопроса о дифференцирующей способности задания может быть следующий способ вычисления так называемого «индекса дифференциации». Испытуемых по результатам выполненных заданий делят на три группы – сильную, среднюю и слабую. Если общее число не делится на 3, то сильную и слабую группу делают по количеству одинаковыми. Индекс дифференциации вычисляется по формуле:



image032.gif

Где K’ – количество правильных ответов в сильной группе,



K” – количество правильных ответов в слабой группе,

– число испытуемых в группе.



E имеет пределы от –1 до +1. Допустимым считается значение E = +0,4. Меньшее значение E говорит о том, что такая формулировка задания не позволяет различать испытуемых по уровню подготовки. Отрицательное значение E свидетельствует о том, что слабо подготовленные лучше справились с заданием, чем сильные. Следовательно, задание необходимо либо переделать, либо отказаться от него.

После определения диагностической ценности вопросов нельзя исключать вопросы из контрольной работы механически, потому что низкая диагностическая ценность вопроса не всегда зависит от содержания, она может зависеть и от формулировки. Рекомендуется переформулировать вопросы, имеющие малую диагностическую ценность, и затем вторично дать их ученикам в предварительном опыте. Практически вопросами основного эксперимента могут быть те, которые при предварительном опыте дали приблизительно 50% правильных и 50% неправильных ответов.

Если тест или контрольная работа состоит из отдельных вопросов, которые не обязательно систематизированы по содержанию, тогда вопросы основного эксперимента должны быть поданы в тексте по порядку их трудности – в начале более легкие, в конце более трудные.

Трудность или легкость определяется по процентному отношению правильных ответов к общему числу возможных. Тест или контрольная работа имеет хорошую диагностическую ценность в том случае, когда за предусмотренное время сможет ответить на все вопросы 90% учеников (некоторые считают 75%). Это означает, что если все ученики за предусмотренное время смогут ответить на все вопросы, то тест слишком легкий, если за это время на вопросы сможет ответить ниже 90% учеников, то тест слишком трудный.

Степень сложности заданий можно определить при вычислении процента учащихся, получивших верный результат. Если 80% учеников, обрабатывающих задание, решили его правильно, то в таком случае степень сложности этого задания составляет 80 единиц. Степень сложности задания можно вывести с помощью следующей формулы:

image034.gif

Где K – количество учащихся, получивших верные ответы;



N – количество учащихся, решавших задания.

Степень сложности P в числовом выражении тем больше, чем легче задание.

В том случае, когда требуется провести дифференциацию учащихся с самой низкой успеваемостью, создаются легкие тесты, когда необходимо отобрать сильных, обращаются к сложным тестам. В остальных случаях для достижения хорошего результата распределения результатов тестирования стремятся к распределению степени сложности от P = 20 до P = 80 со средней величиной P = 50.

§ 5. Техника построения тестов


Отечественный исследователь В. П. Беспалько рассматривает конструирование педагогических тестов на четырех уровнях в соответствии с четырьмя уровнями обученности испытуемых.

На уровне знакомства должны использоваться тесты по узнаванию, т.е. отождествлению объекта и его обозначения. Такими тестами могут стать задания на опознание, различение или классификацию объектов, явлений и понятий. Тесты на опознание достаточно просты, они должны привести в результате к одному из альтернативных ответов: да – нет, относится – не относится, согласен – не согласен. Тесты на различение более сложные, от предыдущих отличаются тем, что их выполнение осуществляется в условиях выбора правильного решения среди имеющихся различных вариантов.

На втором уровне, уровне репродукции, наиболее простыми являются тесты-подстановки, в которых намеренно пропущено слово, фраза, формула или другой какой-либо существенный элемент текста. Здесь возможны также конструктивные тесты, в которых учащимся в отличие от теста-подстановки не содержится никакой помощи даже в виде намеков. Пример: «Что такое галлюцинация?».

В качестве тестов второго уровня могут использоваться и типовые задачи. Это такие задачи, условия которых позволяют «с места» применять известную разрешающую их процедуру (правило, формулу, алгоритм) и получать необходимый ответ на поставленный в задаче вопрос. Именно необходимость поисковой деятельности исключается в типовых задачах, так как условия в них формулируются близкими к тем, которые имели место в учебной обстановке, а для их решения можно воспользоваться готовым алгоритмом или формулой. Например, тест «Является ли слово «белизна» существительным?» может служить примером типовой задачи, так как отнесение различных слов к определенным частям речи требует использования определенного правила (разрешающей процедуры). Эти правила применяются здесь непосредственно. В тех случаях, когда условия задачи не позволяют непосредственно усмотреть то правило, которое может быть использовано для получения необходимого ответа, и требуется соответствующее предварительное преобразование условий задачи или самого правила, мы имеем дело с нетиповой задачей. Примером нетиповой задачи может быть следующая: «Образуйте из слова «белый» другие возможные части речи». Деятельность в данном случае не регулируется однозначно правилами, а требует их преобразованного применения. Это уже тест третьего уровня.

При выполнении тестов второго уровня учащимся демонстрируется только знание способов деятельности применительно к разобранным в процессе обучения ситуациям. Учащийся, воспроизводя сообщенные ему правила действия на типовых примерах, никакой новой информации самостоятельно не получает.

Третьему уровню соответствуют задания, содержащие продуктивную деятельность, в процессе которой необходимо использовать знания-умения. Тестами третьего уровня могут стать нетиповые задачи на применение знаний в реальной практической деятельности. Условия задачи формулируются близкими к тем, которые имели место в реальной жизненной обстановке.

Решение задачи третьего уровня сводится в сведении ее к типовой задаче путем очистки от привходящих обстоятельств, рассеивающих внимание, и нахождения скрытых в ней дополнительных условий.

При решении тестов этого уровня учащийся не просто оперирует имеющейся информацией о способах деятельности, но и получает субъективно новый результат, который раньше не был ему известен. В ходе выполнения тестов третьего уровня учащийся каждый раз решает для себя вопрос, как использовать известный ему способ деятельности в новой ситуации. Он не просто применяет этот способ действия в известной обстановке, как в тестах второго уровня, а каждый раз преобразует его в связи с необычной ситуацией, осуществляет поиск метода решения, а не только результатов.

Тесты четвертого уровня – это проблемы, решение которых есть творческая деятельность, сопровождающаяся получением объективно новой информации. Тестами четвертого уровня выявляется умение учащихся ориентироваться и принимать решения в новых, проблемных ситуациях.

Тест имеет задание и эталон, по которому сравниваются ответы учащихся. При конструировании тестов четвертого уровня трудно предусмотреть эталон, так как предполагается, что результат предстоит получить объективно новый. Если метод получения результата известен, то данный тест становится тестом третьего уровня, то есть с получением лишь субъективно нового результата.

В качестве проблем для создания тестов четвертого уровня рекомендуется выбирать такие, которые могут быть разрешены существующими средствами современной науки, уже хорошо «просматриваются» методически и стоят на повестке дня. В решении таких проблем проявляется научная эрудиция испытуемого, умение выдвигать и проверять обоснованные гипотезы, применять соответствующие методики исследования, прогнозировать возможные трудности.

Проблемные ситуации в тестах четвертого уровня создаются двумя способами.

Во-первых, в учебных целях применяются уже исследованные проблемы, решение которых широко не опубликовано. В этом случае найденное в публикациях решение проблемы может стать эталоном теста четвертого уровня. Этот путь создания тестов пригоден лишь в студенческих учебных условиях, но не пригоден для поступающих в аспирантуру. Именно этим должны отличаться диссертации на соискание ученой степени бакалавра наук от кандидатских диссертаций.

Во-вторых, в качестве задания теста четвертого уровня может быть проблема, еще не получившая своего разрешения. В качестве эталона используется созданная экспертами методика разрешения сформулированной проблемной операции, хотя решения в деталях теста-проблемы еще нет.


1   2   3   4   5   6   7   8   9


База даних захищена авторським правом ©shag.com.ua 2016
звернутися до адміністрації

    Головна сторінка