Проблема Сканторпа - Scunthorpe problem
Проблема Сканторпа заключается в непреднамеренной блокировке веб-сайтов, электронной почты, сообщений на форумах или результатов поиска спам-фильтром или поисковой системой, поскольку их текст содержит строку (или подстроку ) писем, которые имеют непристойное или иным образом неприемлемое значение. Чаще всего проблема затрагивает имена, сокращения и технические термины.
Проблема возникает из-за того, что компьютеры могут легко идентифицировать строки текста в документе, но для интерпретации слов такого рода требуется значительная способность интерпретировать широкий диапазон контекстов, возможно, во многих культурах, что является чрезвычайно сложной задачей. В результате общие правила блокировки могут привести к ложным срабатываниям, затрагивающим невинные фразы.
Происхождение и история
Проблема была названа в честь инцидента в 1996 году, когда фильтр ненормативной лексики AOL не позволил жителям города Сканторп , Северный Линкольншир , Англия, создать учетные записи в AOL, поскольку в названии города содержится подстрока « cunt ». В начале 2000 - х годов, Google «s неавтоматического Безопасного фильтры также влияет на город, предотвращая людей от поиска местных предприятий или URL - адресов , которые включены Сканторп в их именах.
Другие примеры
Ошибочные решения, принятые фильтрами непристойности, включают:
Отказано в регистрации веб-доменных имен и учетных записей
- В апреле 1998 года Джефф Голд попытался зарегистрировать доменное имя
shitakemushrooms.com
, но из-за дерьма с подстроками он был заблокирован фильтром InterNIC, запрещающим « семь грязных слов ». ( Шиитаке происходит от японского названия съедобного гриба Lentinula edodes .) - В 2000 году в новостном сюжете канадского телевидения о программном обеспечении веб-фильтрации было обнаружено, что веб-сайт Городского сообщества Монреаля (Communauté urbaine de Montréal, на французском языке) был полностью заблокирован, поскольку его доменное имя было его французским сокращением CUM (www.cum.qc.ca ); « cum » (среди других значений) - это англоязычный сленг для обозначения спермы .
- В феврале 2004 года в Шотландии Крейг Кокберн сообщил, что не может использовать свою фамилию (произносится как «Кобурн») в Hotmail . Кроме того, у него были проблемы с электронной почтой на рабочем месте, потому что его должность, специалист по программному обеспечению , содержала подстроку Cialis , лекарство от эректильной дисфункции, обычно упоминаемое в спаме . Hotmail сначала сказал ему написать свое имя C0ckburn (с нулем вместо буквы «o»), но позже отменил запрет. В 2010 году у него была аналогичная проблема с регистрацией на веб-сайте BBC, где снова первые четыре символа его фамилии вызвали проблему для фильтра содержимого.
- В феврале 2006 года Линде Каллахан изначально запретили зарегистрировать свое имя в Yahoo! как адрес электронной почты, поскольку он содержит подстроку Аллах . Yahoo! позже отменил запрет.
- В июле 2008 года доктор Герман И. Либшиц не смог зарегистрировать адрес электронной почты, содержащий его имя, в Verizon, потому что его фамилия содержала подстроку shit , и Verizon изначально отклонил его запрос об исключении. В последующем заявлении пресс-секретарь Verizon извинилась за то, что не утвердила его желаемый адрес электронной почты.
- В августе 2018 года, Натали Вайнер сообщил о социальных медиа , что она не смогла создать учетную запись для себя на сайте, потому что ее фамилия тоже слово используется как сленг для пениса . Сообщается, что «сотни» людей ответили, что это коснулось и их. Имена тех, кто ответил, включали Бен Шмук (фамилия на идише означает «пенис») и Арун Дикшит (фамилия на санскрите означает того, кто учит или дает знания, содержащие подстроку « дерьмо» ). В статьях, посвященных этому вопросу, говорилось, что это обычная и чрезвычайно сложная техническая проблема, для которой в настоящее время не существует надежного решения.
Заблокированный поиск в Интернете
- В течение нескольких месяцев, предшествовавших январю 1996 года, некоторые поисковые запросы по Super Bowl XXX были отфильтрованы, поскольку римские цифры, обозначающие игру и сайт (XXX), также используются для определения порнографии .
- Гарет Рулофсе, веб-дизайнер RomansInSussex.com , отмечал в 2004 году: «Мы обнаружили, что многие станции библиотечной сети, школьные сети и интернет-кафе блокируют сайты со словом« секс »в доменном имени. Это было проблемой для RomansInSussex.co. uk, потому что его целевая аудитория - школьники ".
- В 2008 годе , фильтр свободной беспроводной службы города Факатан в Новой Зеландии заблокировал поиски с участием собственного названного по имени города , потому что фильтр в фонетическом анализ считается «whak» звучать как трахается ; название города на языке маори, а на языке маори «wh» чаще всего произносится как «f». Впоследствии город поместил название города в белый список фильтра .
- В июле 2011 года поиск в Интернете по имени Цзян был заблокирован после того, как на сайте микроблогов Sina Weibo появились сообщения о смерти бывшего генерального секретаря коммунистической партии Китая (КПК) Цзян Цзэминя . Поскольку слово «Цзян», означающее «река», написано одним и тем же китайским иероглифом (江), поиски, связанные с реками, включая Янцзы ( Чанг Цзянь ), дали следующее сообщение: «Согласно соответствующим законам, постановлениям и политике, результаты этот поиск не может быть отображен ".
- В феврале 2018 года веб-поиски на торговой платформе Google были заблокированы для таких предметов, как клеевые пистолеты , Guns N 'Roses и бургундское вино после того, как Google поспешно исправил свою поисковую систему, которая отображала результаты для оружия и аксессуаров, которые нарушали заявленную политику Google.
Заблокированные электронные письма
- В 2001 году Yahoo! Mail представила фильтр электронной почты, который автоматически заменял связанные с JavaScript строки альтернативными версиями, чтобы предотвратить возможность межсайтового скриптинга в электронной почте HTML . Фильтр будет переносить термины « JavaScript », « JScript », « VBScript » и « LiveScript »; и заменил « eval », « мокко » и « выражение » аналогичными, но не совсем синонимичными терминами « обзор », « эспрессо » и « утверждение » соответственно. При написании фильтров использовались предположения: не было предпринято никаких попыток ограничить эти замены строк
anchor script
разделами и атрибутами или соблюдать границы слов, в случае, если это оставит некоторые лазейки открытыми. В результате таких ошибок , как medireview на месте средневекового . - В феврале 2003 года члены парламента в британской палате общин обнаружили, что новый спам-фильтр блокирует им электронные письма. Он заблокировал электронные письма, содержащие ссылки на обсуждаемый в то время законопроект о сексуальных преступлениях, а также некоторые сообщения, относящиеся к консультационному документу либерал-демократов о цензуре. Он также блокировал электронные письма, отправленные на валлийском языке, потому что не распознавал язык.
- В октябре 2004 года сообщалось, что лондонский музей Хорнимана не смог получить часть своей электронной почты, потому что фильтры ошибочно восприняли его имя как версию слов « возбужденный мужчина» . Возбужденный - это распространенный сленговый термин, означающий «сексуально возбужденный или возбуждающий».
- Проблемы могут возникнуть со словами социализм , социалист и специалист, потому что они содержат подстроку Сиалис . При блокировке слова « специалист» будут заблокированы отправленные по электронной почте резюме и учебные планы, а также другие материалы, включая описания должностных обязанностей.
Заблокировано для слов с несколькими значениями
- В октябре 2004 года электронные письма с рекламой пантомимы Дика Уиттингтона, отправленные учителем из Норвича в Великобритании, были заблокированы школьными компьютерами из-за использования имени Дик , которое иногда использовалось как сленг для пениса .
- В мае 2006 года мужчина из Манчестера, Великобритания, обнаружил, что электронные письма, которые он писал в местный совет с жалобой на приложение для планирования, были заблокированы, так как в них содержалось слово « эрекция» при упоминании конструкции.
- Заблокированные электронные письма и поиск в Интернете, относящиеся к журналу The Beaver , базирующемуся в Виннипеге , вынудили издателя сменить название на Canada's History в 2010 году, после 89 лет публикации. Издатель Дебора Моррисон прокомментировала: «Еще в 1920 году Бобр был совершенно подходящим названием. И хотя другое его значение [ вульва ] не является чем-то новым, его двусмысленность стала представлять собой совершенно новую проблему с развитием Интернета. препятствие для нашего роста ".
- В июне 2010 года Twitter заблокировал пользователя из Люксембурга через 29 минут после того, как он открыл свою учетную запись и опубликовал свой первый твит. В твите говорилось: «Наконец-то! В мой скворечник засела пара больших сисек (Parus major)!» Несмотря на включение латинского названия, указывающего на то, что твит был о птицах, любые попытки разблокировать аккаунт были тщетными.
- В 2011 году член совета в Дадли обнаружил письмо, помеченное программным обеспечением безопасности его совета за ненормативную лексику, после упоминания блюда из Черной страны , педиков (разновидность фрикаделек , но также уничижительный термин для геев ).
- Жителям Пенистона в Южном Йоркшире заблокировали электронную почту, потому что в названии города есть подстрока « пенис» .
- Lightwater из Суррея пострадала точно так же, потому что в его названии есть подстрока twat .
- Жители Clitheroe ( Ланкашир , Англия) неоднократно испытывали неудобства, потому что в названии их города есть подстрока clit , что является сокращением от « клитор ».
- Резюме, содержащие ссылки на получение диплома с латинскими отличиями, такими как cum laude , summa cum laude и magna cum laude , были заблокированы спам-фильтрами из-за включения слова cum , которое на латыни означает с (в данном случае), но иногда используется как сленг для обозначения спермы или эякуляции в английском языке.
Новостные статьи
- В июне 2008 года новостной сайт, управляемый Американской семейной ассоциацией против ЛГБТ, отфильтровал статью Associated Press о спринтере Тайсоне Гее , заменив слова «гей» на « гомосексуалист », таким образом сделав его имя «Тайсон гомосексуалист». Эта же функция ранее изменила имя баскетболиста Руди Гея на «Руди-гомосексуалист».
- Иногда имя бывшего вице-президента Дика Чейни в статьях отфильтровывалось как «Пенис Чейни» или «Вайнер Чейни» из-за использования имени Дик , которое иногда использовалось как сленг для обозначения пениса .
- Слово или строка «задница» может быть заменена на «задница», в результате чего получается «clbuttic» для «классического», «buttignment» для «присвоения» и «buttbuttinate» для «убийства».
Другой
- В 2008 году Microsoft подтвердила, что ее политика по предотвращению использования слов, относящихся к сексуальной ориентации, означала, что имя Ричарда Гейвуда считалось оскорбительным и не могло использоваться в его «теге игрока» или в поле «Настоящее имя» его биографии.
- В 2011 году в видеоиграх Pokémon Black and White Pokémon Cofagrigus нельзя было продавать онлайн другим игрокам без прозвища, потому что его название вида содержало в качестве подстроки уничижительное пидор . С тех пор система была обновлена, чтобы позволить торговать покемонами без ников. Та же проблема возникла с Nosepass и Probopass из-за включения в них подстроки ass .
- В ноябре 2013 года Facebook временно заблокировал британских пользователей за использование уничижительного пидораса в отношении традиционного одноименного блюда .
- По сообщениям, в январе 2014 года файлы, используемые в онлайн-игре League of Legends, были заблокированы некоторыми фильтрами британских интернет-провайдеров из-за имен VarusExpirationTimer.luaobj и XerathMageChainsExtended.luaobj, содержащих буквы s , e и x . Позже это было исправлено.
- В мае 2018 года на сайте продуктового магазина Publix нельзя было заказать торт, содержащий латинскую фразу summa cum laude . Клиент попытался исправить проблему, включив специальные инструкции, но все равно получил торт с надписью «Summa --- Laude».
- В мае 2020 года, несмотря на тщательную проверку СМИ, некоторые хэштеги, прямо относящиеся к британскому политическому советнику Доминику Каммингсу, не смогли найти тренд в Твиттере, потому что подстрока cum активировала антипорнфильтр.
- В октябре 2020 года фильтр ненормативной лексики в Твиттере запретил слова «кость», « лобок » и «поток» на палеонтологической конференции.
- В январе 2021 года Facebook извинился за отключение звука и блокировку пользователей после того, как он ошибочно назвал достопримечательность Девона Плимут-Хоу женоненавистником.
- В апреле 2021 года официальная страница Французской коммуны Битче в Facebook была закрыта . В ответ официальные лица коммуны создали новую страницу со ссылкой на почтовый индекс Mairie 57230 . Позже Facebook извинился и восстановил исходную страницу. В качестве меры предосторожности официальные лица Рорбах-ле-Битш переименовали свою страницу в Facebook в Ville de Rohrbach .
Смотрите также
- Цензура со стороны Google
- Эффект Купертино
- Ложно положительный
- Интеллектуального ввода текста
- Обнаружение спама
- Wordfilter