Библиотека сайта rus-linux.net
Невозможное #2: Полноценные хранилища свободных знаний - Википедия и Проект Гутенберг
Оригинал: Impossible thing #2: Comprehensive free knowledge repositories like Wikipedia and Project Gutenberg
Автор: Terry Hancock
Дата: 19 февраля 2008
Перевод: Александр Тарасов aka oioki
Дата перевода: 20 апреля 2008
Продолжение. Начало смотри здесь: часть 1.
Проект Гутенберг, основанный в 1971, является старейшей частью современного движения свободной культуры. Википедия только набирает обороты, она стала популярной на волне успеха свободного ПО, и распространяет идею свободы на другие типы информации. На сегодняшний день Проект Гутенберг, содержащий более 24 тысяч электронных книг, является объемнее легендарной Александрийской библиотеки. Википедия - крупнейшая и самая полная энциклопедическая работа, когда либо созданная человечеством. Обычно ее сравнивают с Энциклопедией Британника, но на самом деле это не совсем справедливо, ведь Википедия в несколько раз больше и покрывает большее количество тем. Точность Википедии - куда более обсуждаемый вопрос, однако исследования показали, что Википедия не так много проигрывает в точности Британнике, как некоторые полагают.
Миф #2
"Даже если и возможно делать серьезные вещи базарными методами, корпорации всегда сделают это лучше"В отличие от предыдущего мифа, этот сложно опровергнуть. Даже внутри сообщества свободной культуры есть стойкое убеждение, что сообщество - это мятежники, борющиеся против куда более сильного противника. Но многие проекты бросают вызов такому мнению.
Измеряя Википедию
На самом деле довольно сложно оценить точный размер Википедии, потому что движок журналирования, который использует система, начал давать сбои с 2006 года, из-за огромного размера базы данных. С тех пор нет каких-либо прямых сведений ни о полном размере Википедии, ни об английской ее части (содержащей больше статей, чем на каком-либо другом языке). Есть сведения по каким-то отдельным языкам, просто потому что они еще не достигли большого размера.
Тем не менее, мы можем сделать кое-какую оценку, основанную на статистике, доступной до 2006 года, и несколько менее полной статистике за последущее время, которая все же доступна. 2006 год был поворотным для Википедии. В этом году ее объем превысил объем крупнейшей до тех пор энциклопедической работы в мире - Энциклопедии Yong-Le, начатой по указанию Китайского Императора в 1403 году. Эта энциклопедия была столь велика, что было возможно сделать лишь одну копию. Она насчитывала 23 тысячи томов и, к сожалению, не сохранилась до сегодняшних дней (ведь всего было 2 экземпляра).
Рост Википедии по количеству слов. В конце 2006 размер базы данных превысил допустимый порог для системы журналирования, поэтому для оценки пришлось воспользоваться менее точными данными. Ромбиками отмечены оценочные размеры, в предположении, что средний размер статьи оставался постоянным (однако из ранних данных известно, что средний размер статей постоянно рос).
В том же году Википедия, видимо, перешла наконец из фазы "экспоненциального" роста в фазу роста "линейного", что можно рассматривать как важный шаг, говорящий о зрелости проекта. Вместо взрывообразного роста, который наблюдался в первые годы существования, Википедия теперь стабильно прирастает, причем больше усилий прилагается для улучшения качества статей, а не их количества. Но нельзя сказать, что новых статей нет. Хотя рост линеен, но ежегодный прирост практически равен по объему Энциклопедии Yong-Le!
Такое поведение характерно для многих процессов роста: вся кривая представляет собой "сигмоид" (S-образная форма), в котором начальный этап имеет экспоненциальную форму (когда нет силы сопротивления), после которой следует линейный рост, и затем асимптотическое приближение (когда явление упирается в пределы среды). Видимо, Википедия уже израсходовала начальный потенциал и собрала все "низко висящие плоды" энциклопедических статей. Теперь за ее движение и развитие отвечают заинтересованные википедисты (относительно стабильный коллектив, рост которого саморегулируется). Поэтому на данный момент скорость развития Википедии постоянна. Также становится ясно, что теперь поддержка (ревизии статей редакторами) и контроль качества существующих статей будут играть более важную роль, чем добавление новых. И, разумеется, в малообъемных языковых частях Википедии наблюдается все еще экспоненциальный рост, что дает вклад в общий рост Википедии.
Количество и качество
Википедию часто сравнивают с чем-то типа "огромной кучи слухов", и если это было бы так, то большой размер не был бы положительным показателем. Но на самом деле, Википедия удивительно точна. Исследование журнала Nature в 2005 году показало, что в области науки Википедия лишь ненамного менее точна, чем Британника, было найдено множество ошибок в обоих источниках [1]. Интересно, что после обнаружения ошибок в Википедии все они были исправлены, чего нельзя сказать о Британнике - ее исправить намного сложнее.
Википедия освещает многие области знания, такие как популярная культура. Другие энциклопедии просто не могут успеть за изменяющимся миром (попробуйте найти описания эпизодов "Баффи - Истребительница вампиров" в Британнике!). Понятно, в частности, что Википедия практически полна в областях компьютерных наук и программного обеспечения.
Пожалуй, самым слабым местом в Википедии является то, что она чувствительна к намеренным искажениям: известно, что многие люди, организации и даже правительства редактировали статьи Википедии с целью выставить себя или соответствующие события в лучшем свете. С другой стороны, критично настроенные организации пытаются описать тему как можно острее. В конце концов, эти две силы уравновешивают содержимое статей, за исключением статей слишком уж спорных тем. Даже здесь нужно признать, что Википедия честно отражает суть таких тем во всей их спорности (взгляните на статьи Evolution, Creationism и George W. Bush - это интересные примеры спорных тем).
Эти слабости показывают, насколько Википедия отражает желание общества, а не только редакторов, изменять статьи. Все же стоит помнить, что обычная энциклопедическая работа (такая как Британника) под ответственностью сугубо редакторов, и обычно все они из одной организации. Таким образом, студенты и исследователи, пользующиеся Википедией, должны критично оценивать получаемый из нее материал, как и материал из какого-либо другого источника.
Хотя всегда были проблемы, связанные с намеренным вандализмом - особенно проводимым анонимными участниками, но на самом деле это не такая большая проблема, как можно себе представить. Исследование в Дартмутском колледже показало, что анонимные участники почти так же улучшают статьи, как и зарегистрированные пользователи. Судя по всему, метод Дельфи в Википедии становится сильнее вандализма и предвзятости. Другими словами, распределенное сообщество редакторов работает аналогично сообществу программистов в случае со свободным ПО. Влияние заинтересованных сторон и предвзятость авторов всегда были проблемой, но в конце концов ситуация в большинстве случаев уравновешивается.
Количество работ в Проекте Гутенберг. Взято с Википедии (Hellisp@Wikipedia / всеобщее достояние)
Проект Гутенберг
Начатый в 1971 году, Проект Гутенберг является дедушкой всех свободных культурных проектов. Он предшествовал всем идеям об "интеллектуальном общественной собственности" ("intellectual commons"), и был запущен за 13 лет до написания Манифеста GNU. Поэтому он не отражает современных идей о свободном лицензировании, а содержит в основном работы, являющиеся общественным достоянием (public domain). Из-за этого, а также по той причине, что в основном он содержит книги в виде "плоского текста", кто-то может подумать, что проект Гутенберг устарел. Однако ситуация несколько улучшилась за последние годы.
Размер проекта Гутенберг можно оценивать в терминах размера электронных книг, что может привести к недоразуменям, ведь электронная книга имеет несколько разных "размеров". Тем не менее, грубая оценка показывает, что по количеству слов проект Гутенберг превосходит прославленную Александрийскую библиотеку [2].
Сначала коллекция была маленькой, поскольку в первые годы в проект вкладывали мало труда и времени. Казалось бы, проект никак не мог повлиять на обыкновенное отношение к проектам такого рода.
Тем не менее, по мере созревания интернета и веба, появилось сообщество, поддерживающее Проект Гутенберг. На сегодняшний день есть значительное число добровольцев, сканирующих и вычитывающих книги, что позволило выйти проекту на тот уровень, которого он достиг за последние 10 лет.
На сегодняшний день размер Проекта Гутенберг ограничен скорее доступностью материала, являющимся достоянием общественности, нежели работоспособностью сообщества. Объем материала, находящегося в общественом достоянии, за последние десятилетия заметно сократился, в основном из-за расширений понятия авторских прав. Но, как только тексты будут переходить во всеобщее достояние, сообщество Гутенберг конечно же сможет включить их в свое хранилище.
Абсолютный размер
Размеры Википедии и Проекта Гутенберг представляют серьёзный вызов для нашего восприятия и сравнения этих работ с великими работами отдельных личностей, корпораций или правительств. Поэтому, чтобы восприятие как-то было прикреплено к реальности, возьмем логарифмическую шкалу, сильно сокращающую большие величины. Такая диаграмма не годится для точных сравнений (потому что даже отличающиеся в 2 раза значения лежат на логарифмической шкале очень близко), однако по этой же причине позволяет устранить погрешности, которые мы допустили в процессе оценке. Для нас сейчас важно, какого сорта вещи нужно сравнивать.
Логарифмическая шкала различных трудов, сравнение ведется по числу слов. Труды сгруппированы: слева работы отдельных писателей (хотя Библию можно рассматривать и как коллективную работу); посередине оригинальные энциклопедические работы; справа - целые библиотеки.
Предположительно, самая большая современная библиотека - это библиотека Конгресса США, и не является открытием то, что она на несколько порядков крупнее Проекта Гутенберг. Однако здесь есть два замечания. Во-первых, Библиотека Конгресса содержит копию любой книги, зарегистрированной с авторским правом в США (по той причине, что отправка копии книги в библиотеку - это часть процесса регистрации), в то время как Проект Гутенберг ограничен лишь трудами, находящимися в общественном достоянии, либо на которые истек срок чьих-либо авторских прав. Во-вторых, на диаграмме данные для Библиотеки Конгресса являются грубой оценкой его печатной коллекции (которая может включать в себя множество дубликатов из-за переизданий), в то время как Проект Гутенберг является сугубо электронным проектом. Было бы интересно сравнить Проект Гутенберг с каким-нибудь правительственным проектом по оцифровке текстов, так было бы куда справедливей. Сам по себе тот факт, что Проект Гутенберг по объему превзошел легендарную Александрийскую библиотеку, ошеломляет.
Трудно, смотря на эту диаграмму, не поразиться размахом Википедии! Самой крупной корпоративной энциклопедической работой, пожалуй, является Энциклопедия Британника, и даже она далеко отстает в этом сравнении! Самой крупной правительственной энциклопедической работой является Энциклопедия Yong-Le, инициированная Китайским Императором в 1403 году. Но и она в несколько раз меньше всей Википедии (заметьте, что в диаграмме приведены данные на конец 2006 года; а на данный момент ее размер еще больше).
Традиционным является представление, что самыми производительными являются корпорации и правительства - организации, к которым следует относиться с трепетом и страхом. Но в последние несколько лет появился новый игрок - Проект, Создаваемый Сообществом (the Commons Based Enterprise). Более того, некоторые проекты, поддерживаемые сообществом, во многом выигрывают у корпораций и правительств (как мы увидели в этой статье, как минимум в области энциклопедий).
Определенно, необходимо менять традиционные взгляды.
[1] "Internet encyclopaedias go head to head". Jim Giles. Nature 438, 900 - 901 (2005).
[2] Трудно проверить это высказывание, потому что никто не знает, насколько велика была Александрийская библиотека, и существуют оценки, которые, вероятно, сильно преувеличены. Тем не менее, основываясь на самых справедливых оценках, можно сказать, что Проект Гутенберг объемнее. Объем Александрийской библиотеки измерялся числом пергаментных свитков, но свиток - определенно меньше по объему, чем любая книга (в том числе и любая электронная из Проекта Гутенберг), но то и другое можно оценить числом слов, чтобы сделать сравнение возможным.