Средство просмотра Google Ngram - Google Ngram Viewer
Google Ngram просмотра или Google Книги Ngram просмотра является онлайн поисковой системы , что графики частоты любого набора строк поиска с помощью ежегодно кол - п-граммы найдены в источниках напечатанных между 1500 и 2019 в Google «s текстовых корпусов на английском, китайском (упрощенный), французский, немецкий, иврит, итальянский, русский или испанский. Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература.
Программа может искать слово или фразу , включая орфографические ошибки или тарабарщину . N-граммы сопоставляются с текстом в выбранном корпусе, при необходимости используя орфографию с учетом регистра (которая сравнивает точное использование прописных букв), и, если они найдены в 40 или более книгах, затем отображаются в виде графика.
Средство просмотра Google Ngram поддерживает поиск по частям речи и подстановочным знакам . Он обычно используется в исследованиях.
История
Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. Она была вдохновлена прототипом под названием «Книжный червь», созданным Жан-Батистом Мишелем и Эрезом Эйденом из Культурной обсерватории Гарварда и Юань Шен из Массачусетского технологического института и Стивеном Пинкером .
Ngram Viewer изначально был основан на выпуске Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 года программа поддерживает корпуса 2009, 2012 и 2019 годов.
Эксплуатация и ограничения
Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу для поиска. Ngram Viewer возвращает построенную линейную диаграмму в течение нескольких секунд после нажатия пользователем клавиши Enter или кнопки «Поиск» на экране.
В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализованы , как относительный уровень, по количеству книг, издаваемых за каждый год.
Из-за ограничений на размер базы данных Ngram, только совпадения, найденные по крайней мере в 40 книгах, индексируются в базе данных; в противном случае база данных не смогла бы сохранить все возможные комбинации.
Обычно поисковые запросы не могут заканчиваться знаками препинания, хотя можно искать отдельную точку (точку). Кроме того, конечный вопросительный знак (например, «Почему?») Вызовет второй поиск вопросительного знака отдельно.
Пропуск точек в сокращениях позволит использовать форму сопоставления, например, использование «R M S» для поиска «RMS» по сравнению с «RMS».
Корпорация
Корпусы используется для поиска состоят из TOTAL_COUNTS, 1-г, 2-г, 3-граммы, 4-граммы, и 5-грамм файлов для каждого языка. Формат файла каждого из файлов - данные, разделенные табуляцией . Каждая строка имеет следующий формат:
- total_counts файл
- год TAB match_count TAB page_count TAB volume_count NEWLINE
- Файл ngram версии 1 (создан в июле 2009 г.)
- ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
- Файл ngram версии 2 (создан в июле 2012 г.)
- ngram TAB год TAB match_count TAB volume_count NEWLINE
Средство просмотра Google Ngram использует match_count для построения графика.
Например, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом:
нграм | год | match_count | volume_count |
---|---|---|---|
Википедия | 1904 г. | 1 | 1 |
Википедия | 1912 г. | 11 | 1 |
Википедия | 1924 г. | 1 | 1 |
Википедия | 1925 г. | 11 | 1 |
Википедия | 1929 г. | 11 | 1 |
Википедия | 1943 г. | 11 | 1 |
Википедия | 1946 г. | 11 | 1 |
Википедия | 1947 г. | 11 | 1 |
Википедия | 1949 г. | 11 | 1 |
Википедия | 1951 г. | 11 | 1 |
Википедия | 1953 г. | 22 | 2 |
Википедия | 1955 г. | 11 | 1 |
Википедия | 1958 г. | 1 | 1 |
Википедия | 1961 г. | 22 | 2 |
Википедия | 1964 г. | 22 | 2 |
Википедия | 1965 г. | 11 | 1 |
Википедия | 1966 г. | 15 | 2 |
Википедия | 1969 г. | 33 | 3 |
Википедия | 1970 г. | 129 | 4 |
Википедия | 1971 г. | 44 год | 4 |
Википедия | 1972 г. | 22 | 2 |
Википедия | 1973 | 1 | 1 |
Википедия | 1974 г. | 2 | 1 |
Википедия | 1975 г. | 33 | 3 |
Википедия | 1976 г. | 11 | 1 |
Википедия | 1977 г. | 13 | 3 |
Википедия | 1978 г. | 11 | 1 |
Википедия | 1979 г. | 112 | 12 |
Википедия | 1980 г. | 13 | 4 |
Википедия | 1982 г. | 11 | 1 |
Википедия | 1983 г. | 3 | 2 |
Википедия | 1984 г. | 48 | 3 |
Википедия | 1985 г. | 37 | 3 |
Википедия | 1986 г. | 6 | 4 |
Википедия | 1987 г. | 13 | 2 |
Википедия | 1988 г. | 14 | 3 |
Википедия | 1990 г. | 12 | 2 |
Википедия | 1991 г. | 8 | 5 |
Википедия | 1992 г. | 1 | 1 |
Википедия | 1993 г. | 1 | 1 |
Википедия | 1994 г. | 23 | 3 |
Википедия | 1995 г. | 4 | 1 |
Википедия | 1996 г. | 23 | 3 |
Википедия | 1997 г. | 6 | 1 |
Википедия | 1998 г. | 32 | 10 |
Википедия | 1999 г. | 39 | 11 |
Википедия | 2000 г. | 43 год | 12 |
Википедия | 2001 г. | 59 | 14 |
Википедия | 2002 г. | 105 | 19 |
Википедия | 2003 г. | 149 | 53 |
Википедия | 2004 г. | 803 | 285 |
Википедия | 2005 г. | 2964 | 911 |
Википедия | 2006 г. | 9818 | 2655 |
Википедия | 2007 г. | 20017 | 5400 |
Википедия | 2008 г. | 33722 | 6825 |
График, построенный программой просмотра Google Ngram Viewer с использованием приведенных выше данных, находится здесь:
Критика
Набор данных подвергался критике за то, что он полагался на неточное распознавание текста , переизбыток научной литературы и за включение большого количества неправильно датированных и категоризированных текстов. Из-за этих ошибок и из-за неконтролируемой предвзятости (например, растущее количество научной литературы, что вызывает снижение популярности других терминов), использовать этот корпус для изучения языка или проверки теорий рискованно. Поскольку набор данных не включает метаданные , он может не отражать общие языковые или культурные изменения и может только намекать на такой эффект.
Были предложены рекомендации по проведению исследований с данными из Google Ngram, которые решают многие из проблем, рассмотренных выше.
Проблемы с распознаванием текста
Оптическое распознавание символов или OCR не всегда надежно, и некоторые символы могут быть неправильно отсканированы. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинного s, которое по внешнему виду было похоже на «f»), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты являются надежными с 1800 года и позже, плохое распознавание текста и недостаточные данные означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов. , и данные за несколько лет, содержащие более 50% шума.
Смотрите также
использованная литература
Библиография
-
Линь Юрий; и другие. (Июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книг» (PDF) . Труды 50-го ежегодного собрания . Демо-материалы. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики. 2 : 169–174. 2390499.
Whitepaper представления в 2012 году издание Google Книги Ngram корпус