Накопленные человечеством знания исчезают из-за «битых» ссылок

Технологии
18:03
101 229 просмотров

Почему интернет портится со временем и как решают проблему учёные и технологи. Пересказ колонки профессора права Джонатана Зиттрейна.

До интернета основным способом сохранить информацию было письмо: сначала её записывали на камне и папирусе, затем — на магнитных лентах и дискетах. Тогда «носители» хранились в церквях и библиотеках, в идеале — сразу в нескольких зданиях и не в одном экземпляре:

  • Во-первых, чтобы повреждение одной копии не уничтожило знание.
  • Во-вторых, чтобы копии можно было сравнить, если документ вдруг тайно изменят.

Интернет должен был упростить процесс: предложить глубокую систематизацию знаний, которые потом хранились бы в библиотеках, считает профессор.

Вместо этого децентрализованная сеть стала складом ссылок — как на канонические источники вроде научных и газетных статей, так и на множество личных файлов, блогов и публикаций.

Накопленные человечеством знания исчезают из-за «битых» ссылокПрофессор права Джонатан Зиттрейн

Ссылки ведут не туда или вовсе «вымирают»

Чтобы помочь поисковым системам сортировать источники, разработчики создали поисковых роботов: они фиксируют каждую найденную ссылку, а затем составляют из них упорядоченные списки.

Источники, считает Зиттрейн, — это клей, скрепляющий знания человечества. Они позволяют перепроверить факты и узнать больше о том, что автор упоминает лишь вкратце.

Однако разорвать эту связь угрожают два явления — вымирание ссылок и «дрейф» контента, то есть его перемещение. Сталкиваются с этими проблемами в том числе и правительственные структуры.

В 2010 году 44-й президент США Барак Обама подписал Закон о доступном здравоохранении, однако в 2013 году республиканцы прекратили финансирование программы. Агентствам пришлось отключить ряд правительственных сайтов и вместе с этим закрыть доступ к миллиону официальных документов.

Накопленные человечеством знания исчезают из-за «битых» ссылок

Такое сообщение видели тогда посетители страницы NASA:

«Сайт приостановил работу в связи с прекращением финансирования со стороны федерального правительства. Приносим извинения за доставленные неудобства».

В 2010 году американский судья Сэмюэль Алито в качестве аргумента по делу о дурном влиянии видеоигр на подростков сослался на один из сайтов. Страница вскоре стала недоступной, а её содержимое намеренно изменили.

Накопленные человечеством знания исчезают из-за «битых» ссылок

«Вы наверняка рады, что не сослались на эту страницу, как в своё время судья Алито. Нужного вам источника здесь бы уже не было, а домен бы выкупили, чтобы написать о том, как теперь недолговечны ссылки».

В 2014 году Зиттрейн изучил ссылки в тех документах, которые, по его мнению, должны храниться бессрочно — это научные статьи юридического журнала Harvard Law Review, а также судебные заключения Верховного суда США. 75% ссылок в Harvard Law Review и 50% источников в судебных заключениях не работали.

Зиттрейн также проанализировал около 2 млн глубоких ссылок в электронных статьях The New York Times — тех, что вели не на главные страницы сайтов, а на конкретные материалы. 25% из них «вымерли», а в материалах одного только 1998 года нерабочими оказалось сразу 72%.

В 2001 году учёные из Принстонского университета обнаружили, что в академических статьях, собранных с 1994 года, «мёртвыми» оказалось 53% URL-адресов. Через 13 лет они создали расширенный корпус из более чем 3,5 млн статей: каждая пятая вела на неверный источник, и в 2016 году доля таких ссылок составила 75%.

Бумажные копии создают всё реже, а цифровые удаляют, изменяют и цензурируют

Раньше физические документы считались оригиналами, а цифровые — дополнением. Именно с бумажными копиями сверялись студенты Гарварда при проверке цитат. Для этого университет хранил в библиотеках экземпляры разных законов и дел.

Однако теперь разместить информацию в интернете легче и дешевле, чем создать и хранить её бумажные копии, пишет Зиттрейн. Поэтому университет разрешает студентам пользоваться отсканированными документами и всё чаще перевозит тома из библиотек в хранилища.

Библиотека Гарвардской школы права владеет уникальными документами — например, по Нюрнбергскому процессу. Чтобы сохранить и опубликовать их в открытом доступе, университет запустил многоэтапный проект по оцифровке.

Только цифровые материалы не вечны, отмечает Зиттрейн. Теперь люди всё чаще читают книги на электронных устройствах — например, на Kindle компании Amazon, которая в любой момент может удалить купленную читателем книгу. Так она поступила в 2009 году с работой Джорджа Оруэлла «1984» — сторонняя фирма продавала её в обход авторских прав.

Информацию можно не только удалить, но и переиначить. До интернета единственным способом изменить содержание книги являлось переиздание. В цифровой же среде легко не только перевыпустить книгу, но и обновить уже опубликованную версию, пишет Зиттрейн.

«Такая цифровая «податливость» может стать инструментом для давления и цензуры. А появление устройств вроде Kindle ставит под угрозу саму концепцию URL-ссылок, поскольку у книг из его библиотеки нет адресов, которые вели бы на веб-страницы», – говорит Джонатан Зиттрейню

Если читатель сочтёт отрывок клеветническим или оскорбительным, то может подать на автора в суд или потребовать издательство внести правки. Для последнего не нужен даже иск: достаточно предать ситуацию огласке.

Так поступили читатели романа Элин Хилдербранд, героиня которого сравнивает лето, проведённое взаперти, с жизнью Анны Франк — та два года прожила в чердачном помещении во время Второй мировой войны.

Пользователи соцсетей назвали фрагмент антисемитским, после чего писательница попросила издательство немедленно удалить его из цифровой версии книги.

По словам автора, издатели порой даже не знают, как сильно и часто правят электронные книги после публикации.

В начале 2000-х годов Зиттрейн участвовал в создании проекта Lumen: он собирает запросы на удаление контента от различных организаций — начиная от университетов и заканчивая «Википедией», Twitter и Google.

Lumen фиксирует не только автора и текст требований, но также и характер изменений. Те же Amazon и YouTube подобную информацию не разглашают. Благодаря его базе профессор права Евгений Волох обнаружил целую серию мошеннических запросов: почти 200 из 700 судебных постановлений, на которые ссылались «пострадавшие», оказались поддельными.

Позже компания, регулярно отправлявшая фальшивые приказы в Google, получила иск от генпрокурора штата Техас.

Ответственность за сохранность контента стала общей и ничьей одновременно

Успех архитектуры интернета Зиттрейн связывает с «принципом прокрастинации»: согласно ему, задачи, которые стоят сейчас перед интернетом, смогут решить её же пользователи в будущем.

Накопленные человечеством знания исчезают из-за «битых» ссылокПрофессор права Джонатан Зиттрейн

Им руководствовались основатели «Википедии» — они создали открытую энциклопедию и позволили людям свободно создавать и редактировать статьи. Такая свобода не защищала сервис от спам-атак и неверных правок. Однако сообщество со временем научилось бороться с недобросовестными пользователями.

Если бы создатели внедрили модерацию сразу, то, возможно, оттолкнули бы энтузиастов, которые заложили основу сайта, считает Зиттрейн.

Так же размышлял создатель Всемирной паутины Тим Бернерс-Ли: он не собирался проверять новые сайты или прописывать правила для их создания. И то, что сайты будут удалять, а страницы — изменять, было особенностью интернета, а не ошибкой в её архитектуре.

Однако именно это подрывает миссию, о которой когда-то говорила Google. «Структурировать знания всего мира и сделать их универсально доступными» не так просто, поскольку источники этих «знаний» легко изменить или уничтожить, полагает Зиттрейн.

Накопленные человечеством знания исчезают из-за «битых» ссылокСоздатель Всемирной паутины Тим Бернерс-Ли

Как исследователи пытаются сохранить источники

Решить проблему пытался компьютерный технолог Брюстер Кейл. В 1996 году Кейл основал некоммерческую организацию «Архив Интернета», где разработал сервис Wayback Machine: он сохранял содержимое веб-страниц и предоставлял доступ к ним даже после удаления.

Несмотря на то, что хранить удалённый контент не всегда законно, Кейл верил, что делает значимое для человечества дело, пишет Зиттрейн. По словам самого Зиттрейна, деятельность сервисов вроде Wayback Machine следует поддерживать в том числе и государственными субсидиями.

Накопленные человечеством знания исчезают из-за «битых» ссылокСкриншот сайта Wayback Machine

Таким «веб-скрейпингом» активно занимаются и другие компании. Например, Clearview: она собрала миллиарды фотографий из социальных сетей Facebook, LinkedIn и Instagram и создала систему распознавания лиц на основе искусственного интеллекта.

В свою очередь, исследователи из Центра Беркмана по изучению интернета и общества разработали сервис Amber. Его плагин копирует страницы и позволяет пользователям зайти на их сохранённую версию, если основной сайт подвергся DDoS-атаке или вышел из строя. Похожая функция есть и у Google: браузер открывает кэшированную копию страницы.

Накопленные человечеством знания исчезают из-за «битых» ссылокСкриншот сервиса Amber

В 2020 году «Архив Интернета» также объявил о партнёрстве с компанией по защите от кибератак Cloudflare — вместе они создадут программу «Всегда онлайн». Если сайт-участник станет недоступен для Cloudflare, то его копия откроется из архива Wayback Machine.

Правда, и у этого подхода есть недостатки, отмечает Зиттрейн. Авторы судебных заключений и научных статей чаще всего ссылаются на конкретные фрагменты исходника. А если страницу изменят, тем более тайно, то копия её вариации за 2017 год, возможно, будет неактуальна после.

Сам Зиттрейн вместе с исследователями гарвардской лаборатории инноваций создал платформу Perma. Учёные и судьи могут попросить Perma преобразовать указанные ими ссылки в постоянные. Располагаться они будут на perma.cc, а скриншоты страниц будут бессрочно хранить участвующие в проекте библиотеки — на сегодня их более 150.

Накопленные человечеством знания исчезают из-за «битых» ссылок

«Perma — лёгкий способ сохранить ссылки. Добавь URL-адрес, создай «постоянную» ссылку на Perma и ссылайся на неё когда угодно».

Четверо учёных развили идею Зиттрейна и выпустили сервис Robustify, который позволяет включать в одну ссылку сразу несколько адресов — на действующую страницу и её архивную копию.

Накопленные человечеством знания исчезают из-за «битых» ссылок

Robust создаёт два варианта ссылок: одна ведёт на действующий сайт, а другая — на архивную версию

Изменения нужно фиксировать независимо от их характера

Возможность быстро изменить содержание публикаций — заманчивая практика, признаёт Зиттрейн. Исправить неточности в указах пытался даже Верховный суд США. Поэтому проблему цифровой «податливости», по его мнению, нужно решать на уровне не только технологий, но и закона:

Судам — реже одобрять правки, тем более если их вносят без предупреждения читателей.

Издатели должны чаще противостоять давлению общественности и не менять содержание без постановления суда.

Некоторые исправления не следует разглашать публично, считает автор: например, если нужно удалить контактную информацию, которой пользуются злоумышленники. Или если пользователь ссылается на «право о забвении».

Например, Google не раскрывает такие запросы сервису Lumen — чтобы общественность не увидела материал, который, по мнению европейских властей, подрывает чью-либо репутацию.

Однако даже эти изменения должны фиксироваться — в специальных базах, которые будут недоступны широкой публике, но зато помогут исследователям понять, как пользуются инструментами цензуры государство и общественность. Только так, считает автор, человечество сможет увидеть, где и когда оступилось, и понять, куда хочет двигаться в будущем.

Лекция Зиттрейна о том, какое влияние имеют алгоритмы: почему человек считает поисковик «инструментом», а соцсеть «другом», и о мире, в котором учёные при написании трудов ориентировались бы на потенциальную реакцию читателей.

Читайте также: «Риски GPT-4 для человечества: Сможет ли искусственный интеллект уничтожить человечество»