Перейти к публикации
17 сентября в Нижнем Новгороде откроется XV Всероссийская генеалогическая выставка.


Как машинное обучение и распознавание текста меняют семейную историю


Valentina
 Поделиться

Рекомендованные сообщения

Что такое оптическое распознавание символов (OCR)?
Проще говоря, оптическое распознавание символов - это компьютер, считывающий изображение и пытающийся извлечь информацию - имена, даты, места, события и другой текст, - которые он там находит. Как и следовало ожидать, компьютер может делать это очень быстро - намного быстрее, чем человек. В свете того, что многие, многие исторические записи нуждаются в индексировании - сейчас и в будущем - оптическое распознавание символов более чем удобно. Это чудо.

Особый случай исторических записей
Использование OCR на записях - это здорово! Вы можете спросить, почему мы не использовали OCR для индексации каждой записи? Проблема в том, что компьютер не так точен, как человек, и не так хорош в разгадывании загадок. Необычный стиль почерка или небольшое изменение структуры печатной формы может бросить компьютеру настоящий кривой мяч. Компьютерная интерпретация изображения обычно достаточно точна, чтобы сделать информацию доступной для наших поисковых систем. Однако для того, чтобы информация была действительно полезной и доступной, нам все равно нужен человек, который быстро ее проанализирует и исправит любые ошибки.

Как индексаторы и OCR могут работать вместе
Сегодня FamilySearch как никогда нуждается в вашей помощи с индексацией. По мере развития технологии оптического распознавания текста, то, как вы помогаете индексировать, может немного измениться. Вместо того, чтобы индексировать запись с нуля, вы можете просмотреть запись, проиндексированную компьютером, чтобы убедиться в правильности информации и исправить любые обнаруженные ошибки. В FamilySearch индексированные записи всегда проверяются на предмет точности, поэтому именно эту задачу выполняют рецензенты, просматривая пакет записей, который был проиндексирован другим добровольцем.

FamilySearch и индексирование с помощью компьютера
На данный момент FamilySearch использует оптическое распознавание символов для индексации 64 миллионов исторических записей. Рассматриваемый проект включает сборник записей на испанском языке, а именно крещений, браков, захоронений и других церковных документов. Когда проект будет завершен, почти 900 миллионов записей будут проиндексированы и потребуют проверки реальным лицом.

Хотите помочь с индексированием записей? Найдите здесь проект индексирования.

Если у вас есть опыт индексирования, вы также можете стать рецензентом индексации.

Воспользуйтесь преимуществами всех этих записей, проиндексированных с помощью OCR
Девятьсот миллионов записей. Почти миллиард. И это число только из одного проекта. Если вам интересно, что вы должны делать в результате всего этого индексирования, ответ прост: воспользуйтесь этим. Продолжайте искать своих предков и строить свое генеалогическое древо на FamilySearch.org. Если вы не можете найти то, что ищете, не сдавайтесь! Вернитесь через несколько недель или месяцев и попробуйте еще раз. Благодаря индексированию с помощью компьютера появляется больше информации.

И помните, чем больше дат и мест вы добавите о предках, тем больше намеков мы сможем вам прислать. Имея 900 миллионов новых записей, вы можете быть уверены, что у нас будет гораздо больше подсказок, которые мы можем разослать.

Хотите узнать больше об оптическом распознавании текста и записях? Смотрите нашу Facebook Live с членами команды индексирования FamilySearch.

https://www.familysearch.org/en/blog/optical-character-recognition-indexing

 

Ссылка на комментарий
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в теме...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

 Поделиться

  • Сейчас на странице   0 пользователей

    • Нет пользователей, просматривающих эту страницу.
×
×
  • Создать...

Важная информация

Пожалуйста, прочитайте Условия использования

17 сентября в Нижнем Новгороде откроется XV Всероссийская генеалогическая выставка.