Главная страница |    Контент-анализ как метод исторического исследования   |   Открыть архив

1.      История метода. Понятие контент-анализа.

Контент-анализ в литературных и лингвистических расчетах начал интенсивно развиваться в 1950-х годах. Он оказался приемлемым для изучения широкого круга проблем гуманитарного знания и социальных наук. Контент-анализ нашел эффективное применение в исследованиях этно- культурных, политических явлений, истории мысли. Первыми контент-анализ разработали и приняли на вооружение американские социологи. В дальнейшем при участии математиков его применили в политологии, философии, лингвистике.

Понятие "анализ текста" в большинстве случаев использовалось историками-клиометристами для обозначения всего, что не является просто поиском в документе и проверкой правописания. Среди формальных методов обработки исторических текстов на первом месте обычно упоминается контент-анализ. Причина его популярности в том, что его использование не требует специального знания математики, и дает хорошие результаты при исследовании.

Работа, связанная с систематизацией и упорядочением ма­териала при анализе содержания документов, имеет давние тра­диции. В марксистской социологии они восходят к трудам К. Маркса, содержащим анализ современной ему прессы. Однако лишь 30-40 лет назад в связи с потребностями социологических ис­следований по анализу содержания массовой коммуникации были сформулированы общие принципы формализации приемов анализа текстов, получивших в совокупности название контент-анализ. В течение 60-х и 70-х годов советскими исследователями в области общественных наук опубликованы десятки работ как по проблемам методологии и методики контент-анализа, так и по результатам применения контент-анализа в конкретных исследованиях по социологии, психологии, этнографии, фольклористика и т.д.

Определений контент-анализа существует много, но среди них трудно найти удовлетворительное. Объективным на наш взгляд является определение: Контент-анализ - методика выявления частоты появления в тексте определенных, интересующих исследователя характеристик, с помощью которой появляется возможность сделать некоторые выводы относительно намерений создателя данного текста или возможных реакций адресата.

Под текстами в контент-анализе понимают книги, книжные главы, эссе, интервью, дискуссии, заголовки газетных статей и сами статьи, исторические документы, дневниковые записи, речи выступлений, рекламные тексты и т.д.

Использование формализованных приемов анализа нарратив­ных исторических источников как средства для извлечения скры­той информации встречается в работах советских историков. Существенное значение в таких исследованиях отводится приме­нению методик контент-анализа.

Лидия Михайловна Брагина исследовала позиции авторов философских трактатов эпохи Возрождения при определении смысла основных этических категорий. Количественному анализу подвергнуты тексты итальянских гуманистов ХV в. - трактат Ландино 'Об истинном благородстве' и сочинение Нези 'О нравах'. Относительная устойчивость и четкость терминологии этих текстов позволили выбрать в качестве смысловой единицы тер­мин, полностью или частично раскрывающий этическое понятие. В трактате 'Об истинном благородстве' выделены глав­ные термины - 'благородство'     и 'добро­детель', частота встречаемости которых оказалась наибольшей. В трактате 'О нравах' с наибольшей частотой встре­чались термины 'добродетель' и 'счастье'.

Интересные результаты в области социально-экономической истории России 18-19 вв. с помощью контент-анализа по­лучены Б.Н.Мироновым. Б.Н. Миронов обработал ответы на 4 хозяйственные анкеты 60-х гг. 18 в. Эти ценные источни­ки по экономическому развитию России позволили исследовать материалы сенатской анкеты 1767 г. о причинах повышения цен на хлеб. По предложению Екатерины II Сенат должен был собрать сведения по 14 вопросам и затем, подводя итоги, пред­ставить ей отчет. Тексты вопросов были посланы 18 губернато­рам и 153 уездным воеводам. Всего анкетой было охвачено 176 уездов, или 56% всех уездов России на 1767 г. В первичном виде ответы на вопросы сенат­ской анкеты 1767 г. не поддаются статистической обработке из-за их расплывчатого характера и "пестроты" содержания.

Для статистической обработки анкет Б.Н. Миронов составил (после детального анализа материалов по каждому вопросу ан­кеты) все возможные варианты ответов, которые стало возмож­но группировать и определить частоту их встречаемости. Для различных вопросов насчитывалось от 5 до 31 варианта от­ветов.

Результаты частотного анализа показали (по ответам на вопросы анкеты 1767 г.), что главной причиной роста хлебных цен считают неурожай - 74% ответов. Следующей по важности причиной повышения хлебных цен уездным воеводам представля­ется увеличение числа людей, покупавших хлеб, и соответствую­щее сокращение числа людей, производивших хлеб (47% отве­тов). В качестве третьей причины указан рост плотности насе­ления ("умножение людей в уезде") - 15% ответов. В ответах на вопросы анкеты отмечаются возросшее винокурение (14% ответов) и спекуляция хлебом (10% ответов) и т.д.

Вопросы изучения периодической печати методами Контент-анализа рассматриваются также в работе И.Д. Архангельской. Критикуя иллюстративный подход к изучению периодики, автор статьи отмечает актуальность разработки способов повышения информативной отдачи источника, одним из которых может стать формализованно - системный анализ материала.

При разработке методики источниковедческого изучения материалов "Торгово-промышленной газеты' за 1910-1914 гг. И.Д Архангельская за смысловую единицу анализа приняла определенную проблему, а за единицу счета - частоту ее встречаемости, которая может служить показате­лем значимости проблемы с точки зрения печатного органа, а следовательно, и характеризовать его интерес к данному во­просу и классовые позиции. Всего выявлено более 30 проблем и среди них статьи и заметки о Германии, ее торгово-промыш­ленных связях с Россией; законопроекты и реформы, их подго­товка и обсуждение; синдикаты и тресты; состояние финансов России, финансовые проблемы и т.д.

Таким образом, имеющийся опыт применения историками Контент-анализа показывает эффективность этого подхода при изучении источников различных типов. Использова­ние приемов систематизации и формализации изучаемого мате­риала, а также несложных вычислений создает возможности для реализации системного подхода к анализу содержания исто­рического источника. В итоге историк может получить более обоснованную аргументацию своих выводов, а в ряде случаев извлечь и новую ("скрытую" в тексте) информацию об изучае­мом историческом явлении или процессе.

2.      Виды контент-анализа, основные категории и этапы исследования. Интерпретация результатов

В современной науке наблюдается два полюса восприятия метода контент-анализа:

Количественный контент-анализ в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания.

Качественный контент-анализ позволяет делать выводы даже на основе единственного присутствия или отсутствия определенной характеристики содержания.

Различие двух подходов довольно легко проиллюстрировать примерами.

В 50-е годы западные аналитики на основе количественного анализа статей газеты "Правда" обнаружили резкое снижение числа ссылок на Сталина. Отсюда они сделали закономерный вывод, что последователи Сталина стремятся дистанцироваться от него.

С другой стороны, качественный аналитик мог бы сделать аналогичный вывод на основе единственного факта, что в публичной речи одного из партийных функционеров, посвященной победе СССР в Великой Отечественной войне, Сталин вообще не был упомянут. Прежде такое было бы немыслимо.

Следует обратить внимание на то, что когда говорят о контент-анализе текстов, то главный интерес всегда заключается не в самих характеристиках содержания, а во внеязыковой реальности, которая за ними стоит - личных характеристиках автора текста, преследуемых им целях, характеристиках адресата текста, различных событиях общественной жизни и пр.

Первым можно назвать этап в развитии контент-анализа, когда внимание исследователей было направлено в основном просто на подсчет частот появления в текстах различных слов или тем. Г.Г. Почепцов условно относит появление контент-анализа к 18 веку, "когда в Швеции частота появления тем, связанных с Христом, использовалась для принятия решения о еретичности книги.

Однако, просто частота появления того или иного слова или темы мало что говорят. Гораздо более информативны не абсолютные, а относительные частоты, которые вычисляются как отношение абсолютной частоты к длине анализируемого текста. В зависимости от того, что является переменной содержания, под длиной текста может пониматься количество слов в нем, количество предложений, абзацев и пр.

В качестве реального примера такого анализа текстов можно привести анализ президентских посланий стране, с которыми обратился Б.Клинтон в 1994 и 1995 годах. Эти послания содержат от 7000 до 10000 слов. Были сформированы категории слов, относящихся к экономике, бюджету страны, образованию, преступности, вопросам семьи, международным делам, социальной помощи и др. По изменению относительных частот в посланиях 1994 и 1995 гг. были сделаны выводы об изменении политики государства в различных областях. Т.е. все эти темы нашли отражение в обоих посланиях, но в одном из них некоторым темам уделялось больше внимания, а в другом меньше. Например, в послании 1995 года больше внимания было уделено вопросам образования, семьи, но меньше внимания - преступности, международным делам, социальной помощи. Это дало основания для того, чтобы судить о приоритетах правительства США.

В приведенном выше примере было упомянуто понятие категории. В качестве категории может выступать набор слов, объединенных по определенному основанию. Можно сказать, что посредством категорий в контент-анализе представлены определенные концептуальные образования. Так в случае с посланиями Б.Клинтона была образована категория ЭКОНОМИКА, в которую входили слова - экономика, безработица, инфляция. В категорию СЕМЬЯ входили слова – ребенок, семья, родители, мать, отец. Именно учет частот встречаемости категорий, а не отдельных слов, позволяет судить о внимании, уделенном в послании тем или иным вопросам.

Очевидно, что от качества составления таких категорий во многом зависит качество результатов анализа. Контент-анализ текстов с использованием категорий иногда называют концептуальным анализом. Сфера его применения довольно широка. Два основных типа задач, решаемых с его помощью:

1.      Есть два или более текстов, которые необходимо сравнить в отношении нагрузки на определенные категории. Например, задача выяснить, какое внимание уделяют две разные газеты определенным темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах позволит судить о различиях в политике, проводимой людьми, стоящими за ними.

2.      Задача отслеживания динамики изменения нагрузки на определенные категории. Например, выяснить частоту упоминания темы внешнего долга России в фиксированном наборе центральных газет на протяжении какого-то времени и соотнести ее с колебаниями курса доллара путем простого корреляционного анализа.

Из истории разведки известно, как по изменению в специальной литературе частоты упоминания определенных научных тем и фамилий ученых делались достоверные выводы об успехах, достигнутых в конкретных областях исследований.

К середине 50-х годов исследователи стали все больше уделять внимания не простому наличию/отсутствию категорий в т-те, а связям м/у категориями. Для этого обращают внимание на совместную встречаемость (cooccurence) слов различных категорий. Например, для каждого предложения мы можем выяснить, слова каких категорий в нем встречаются. После этого легко подсчитать обычный коэффициент корреляции, который даст нам силу связи между категориями и знак этой связи. Может оказаться, что для некоторых категорий наблюдается тенденция их совместного употребления, а для других - наоборот. В некоторых случаях это может быть отражением сознательной позиции автора статьи, а в некоторых - связью на уровне подсознания.

Понятно, что изучение связей между категориями значительно расширяет круг задач, которые может решать контент-анализ.

Представим, что мы взяли статью натуралиста о змеях и решили ее проанализировать. Для этого мы отметили в тексте все предложения, в которые входит слово змея, и составили статистику слов из этих предложений. Можно предположить, что частотными в этих предложениях окажутся слова: яд, ядовитый, укус, ползать, длинный... т.е. те слова, которыми наиболее часто характеризуются змеи. Таким образом, наш формальный метод анализа текстов позволил выделить существенные признаки, характеризующие змей. В англоязычной литературе такие контексты употребления слов как раз и называют collocations.

Ценность описанного метода анализа текстов очевидна, так как позволяет на основе формальных методов извлекать из массивов текстов содержательную информацию.

Метод нахождения контекстов употребления слов (collocations) допускает дальнейшее развитие. Выбрав предложения, в которых встречается конкретное слово или категория, мы получили некоторую подвыборку текста, к которой в свою очередь применимы все методы контент-анализа. Т.е. контексты употребления слов и категорий в свою очередь могут быть подвергнуты контент-анализу - выяснению простых частот категорий, относительных частот, оценок категорий относительно нормы и т.д.

Если выразиться образно, то контекстный анализ позволяет выделить в тексте несколько тематических нитей и анализировать их отдельно.

Очевиден огромный потенциал контекстного анализа при мониторинге больших объемов информации, так как он позволяет полностью автоматизировать весь процесс сбора информации.

Использование при контент-анализе определенного набора категорий задает концептуальную сетку, в терминах которой и анализируется текст. От того, насколько удачен набор используемых категорий, зависит качество результатов анализа. Поэтому исследователей давно интересовала задача автоматической категоризации слов текста, т.е. выделение обсуждаемых в нем тем.

Были предложены ряд подходов для решения этой задачи. Следует отметить, что автоматическая категоризация возможна лишь в том случае, если объем анализируемых текстов достаточно велик.

1)     В распоряжении текстологов находится ряд программ автоматизированного анализа для компьютеров IBM. Среди них назовем ARRAS, TACT, TextPack V, SYREX, SATO.

Основные требования, предъявляемые к контент-анализу:

1)     исчерпаемость

2)     взаимоисключаемость

3)     надежность

Исчерпаемость подразумевает использование всех смысловых единиц. Если вы исследуете соц-классовый состав  города, то выбрав в качестве смысловой единицы – наименование сословия: мещан, уд. Крестьян, и т.д. нельзя не принимать во внимание и священников, солдат и т.п.

Взаимоисключаемость: смысловые единицы не должны пересекаться, например, если исследуя национально-религиозный состав города выделили католиков, то уже нельзя выделять поляков или литовцев и т.п.

Надежность: смысловые единицы должны быть постоянны и однозначны. Например такая единица как дворовый человек может включать в себя и крепостного у помещика и вольноотпущенного мещанина и т.д. следовательно эта единица нарушает принцип надежности.

Основные принципы контент-анализа: объективность, систематичность и обобщенность. Основная трудность контент анализа: перевод качественных признаков в количественную форму.

Итак, контент-анализ оперирует  четырьмя основными понятиями:

1)     единица текста – единица содержания

2)     смысловая единица – качественная  единица, категория анализа

3)     единица счета. Количественная мера взаимосвязи текстовых и внетекстовых явлений. Наиболее употребительны такие единицы счета, как время-пространство (число строк, площадь в квадратных сантиметрах, минуты, время вещания и т.п.), появление признаков в тексте, частота их появления (интенсивность).

4)     индикатор – признак.

Методы контент-анализа привлекались при исследованиях различных по времени и характеру источников. Ближе всего к социологическому фундаменту этого метода оказались исследования исторической прессы. Именно для периодики контент-анализ был разработан, и благодаря интересу к процессам массовой коммуникации историки получили возможность формального анализа текстов.

Таким образом, как правило источником исследования являются газетные заметки, частные письма, записи в дневниках и т.д.

В этих случаях, одна заметка, письмо, запись принимается за единицу текста. Вопросы, ответы на которые вы хотите получить  принимаются за смысловую единицу. Отношение «респондентов» к этим вопросам (полож,отр, нейтральное) – за индикатор. Частота употребления смысловых единиц  принимается за единицу счета.

Отметим, что компьютерный анализ исторических текстов вобрал в себя достижения нескольких научных подходов. Выяснилось, например, что при обработке и анализе текста для исследователей важное значение имеет показ частоты встречаемости различных классов лексики (concordances). Это позволяет точно определять значение конкретных слов и фраз в контексте.


Проектное задание.

Используя материалы «Калининградской правды» проанализировать следующие темы:

1)     Городской транспорт (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

2)     Животные в городе (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

3)     Городская связь (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

4)     Дети в городе (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

5)     Городское благоустройство (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

6)     Достопримечательности (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

7)     Королевский замок в прессе (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

8)     Сеть здравоохранения (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

9)     Сеть учреждений презрения (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

10) Городской досуг (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

11) Кинотеатры в городе (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

12) Рекреационные зоны в городе (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

13) Санитарное состояние Калининграда (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

14) Общественное питание (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

15) Городская «Индустрия красоты» (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

16) Учебная городская сеть (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

17) Городской спорт (1950-е гг, 1960-е гг., 1970 е гг, 1980-е гг.)

Проектное задание связано с изучением городской социально-культурной инфраструктуры. Понятие «социально-культурная инфраструктура» является полидисциплинарным и исследуется помимо исторической науки в архитектуре, социологии, культурологии. В архитектуре и строительстве в понятие включается все, что образует материальную структуру города – «начиная от элементарных ячеек внутреннего пространства зданий до громадных территорий жилых и промышленных районов города».

Под инфраструктурой обычно понимается система вспомогательных отраслей какого-либо производства, обеспечивающих нормальную деятельность этого производства, а под социальной инфраструктурой - комплекс отраслей хозяйства, обеспечивающих условия жизнедеятельности общества.

Городская инфраструктура представляет собой многообразный объект, для описания которого сложно подобрать адекватную метафору. На наш взгляд, наиболее удачным является представление отдельных элементов этой инфраструктуры как сети взаимодействующих объектов. Это в принципе, соответствует форме взаимодействия конкретных учреждений, формирующих ту или иную сторону городской среды.

Этапы контент-анализа

1)     Описание источника.

·          заданный тип источника

·          один тип сообщений (статьи, заметки, плакаты);

·          заданные стороны, участвующие в процессе коммуникации

·          сопоставимый размер сообщений (минимальный объём или длина)

·          частота появления сообщений,

·          время появления сообщений.

2)     Выявление единиц анализа.

3)     Выделение единиц счета, которые могут совпадать со смысловыми единицами или носить специфический характер. В первом случае процедура анализа сводится к подсчету частоты упоминания выделенной смысловой единицы, во втором — исследователь на основе анализируемого материала и целей исследования сам выдвигает единицы счета, которыми могут быть:

·          физическая протяженность текстов;

·          площадь текста, заполненная смысловыми единицами;

·          число строк (абзацев, знаков, колонок текста);

·          длительность трансляции по радио или ТВ;

·          метраж пленки при аудио- и видеозаписях,

·          количество рисунков с определенным содержанием, сюжетом и прочее.

4)     Непосредственно процедура подсчета.

5)     Интерпретация полученных результатов в соответствии с целями и задачами конкретного исследования. Обычно на этом этапе выявляются и оцениваются такие характеристики текстового материала, которые позволяют делать заключения о том, что хотел подчеркнуть или скрыть его автор. Возможно выявление процента распространенности в обществе субъективных смыслов объекта или явления.

Материал рекомендуется представлять в следующей таблице:

Время

Название статьи

Автор

Количество смысловых единиц

Количество единиц счета

Индикатор

           
           

Примечание

1.              Рекомендуется по результатам проекта создать облако тэгов. Создание облака тегов по любой категории с помощью программы manyeyes (https://www-958.ibm.com/software/data/cognos/manyeyes/login)

2.              Частотный анализ проводить в WordStaat