Перейти к публикации

Работа над ошибками. Выверка географии


a-KaDeMi-k
 Поделиться

Рекомендованные сообщения

На текущий момент в базе более-менее выверены географические данные до уровня уездов. Думаю, мы можем потихоньку переходить к более глубоким уровням АТД.

 

Обращаюсь, прежде всего к специалистам по губерниям! Это выверка справочной информации, поэтому к её точности требования повышенные. Здесь нельзя поручить эту работу совершенно отстранённому человеку.
У кого есть желание, прошу указывать в этой теме губернии для обработки. Я буду постепенно формировать для Вас файлы и выкладывать здесь ссылки на них.

 

Файлы пока что представляют из себя следующее:
- заполненный данными из базы столбец "Губерния";
- заполненный данными из базы столбец "Уезд";
- заполненный данными из базы столбец "Волость/место";
- пустой столбец "Уезд (исправленный)"
- пустой столбец "Волость (исправленная)"
- пустой столбец "Тип нас. пункта"
- пустой столбец "Нас. пункт (исправленное)"
- пустой столбец "Примечание"
- пустой столбец "Координаты"
- вспомогательный столбец "Кол-во" - указано кол-во записей в БД, привязанных к данному географическому месту
- вспомогательный столбец "Пример" - указано ФИО, № выпуска и № страницы, по которым можно выявить одну из таких записей
- вспомогательный столбец "Ссылка" - ссылка, по которой можно посмотреть первоисточник, содержащий пример

 

Минимальный требуемый результат - выверить данные из столбца "Уезд" (там есть и такие строки, как "ошибка определения") и разбить данные из столбца "Волость/место", правильно заполнив волости и (как получится, т.е. не выверяя) населённые пункты.
Хороший результат - дополнительно к волостям выверить ещё и населённые пункты.
Идеальный - привязать населённые пункты к координатам.

 

Замечания по заполнению файлов. ВАЖНО!!!
1) Пожалуйста, не надо вносить в первые три столбца никаких изменений (т.е. вообще никаких, даже пробелы не править)!!!
2) Пишите названия в именительном падеже единственном числе без сокращений
3) Если не выверяете нас. пункты, то в этот столбец надо заносить данные из "Волость/место" за вычетом информации о волости
4) В столбец "Примечание" можно выносить негеографическую, например, информацию. У нас довольно часто встречается запись типа "мещанин города Адис-Абеба" :) . Так вот, строка "мещанин" как раз для него.
5) Волость для уездного города можно не заполнять (так же как и уезд - для губернского). Не заполнять её и для случая, когда указан только уезд. Во всех остальных столбец должен быть заполнен: либо названием волости, либо строкой "(не указано)" (если нельзя привязать населённый пункт к волости), либо строкой "(ошибка определения)" (если название волости ошибочно и непонятно, как его исправить). В последнем случае в столбец "Нас. пункт (исправленное)" переносятся один-в-один ВСЕ данные из столбца "Волость/место".
6) Координаты указывать для идентифицированных населённых пунктов в формате "широта,долгота" (например, 53.403856,35.689218)
7) Если у нас. пункта есть альтернативные названия, пишите их в круглых скобках через запятую.

 

Ссылки на файлы по губерниям / кем взяты в обработку:
Московская губерния - Фещенко И.
Нижегородская губерния
Орловская губерния - Калёнов Д. (Если есть кто-то хорошо знающий Орловщину, могу передать файл ему. "Бездвоздмездно!" (с) :) )
Харьковская губерния - Вус Н.

Ссылка на комментарий
Поделиться на других сайтах

Пример обработки по Орловской губернии.

 

Болховский уезд - Бунинской Юшкова.
Исправлено:
Болховский уезд - Бунинская волость - сельцо - Юшково (Савинка) - 53.125949,35.728333

 

Болховский уезд - Бунинской.
Исправлено:
Болховский уезд - Бунинская волость

 

Болховский уезд - Буринской.
Исправлено:
Болховский уезд - Бунинская волость

 

Болховский уезд - Бутовой.
Исправлено:
Болховский уезд - (ошибка определения) - Бутовой.

 

Болховский уезд - В. Серогозы.
Исправлено:
Болховский уезд - (не указано) - В. Серогозы.

 

(не указан) - мещ. г. Болхова.
Исправлено:
Болховский уезд - город - Болхов - мещанин

Ссылка на комментарий
Поделиться на других сайтах

Если это не срочно, то возьму Московскую. Правда, ничего не поняла в инструкции :) но, может увижу файл и пойму хоть что-то. Но точно не знаю, откуда брать географические координаты, тем более для пунктов, которые отсутствуют на картах.

Ссылка на комментарий
Поделиться на других сайтах

Ирина, файл то я ж уже выложил. Посмотрите, пожалуйста.

 

Инструкция - выжимка из того, с чем сейчас сталкиваюсь я, обрабатывая Орловскую. Т.е., фактически, это ответы на вопросы, которые возникли у меня. У Вас, возможно, будут другие. Задавайте! Будем вместе искать ответы.

 

Координаты можно определять несколькими способами.
Во-первых, их в требуемом нам виде возвращает сервис Яндекс.Карты. Надо в ряду кнопок/инструментов (верхний левый угол карты) выбрать стрелочку со знаком вопроса ("Получить информацию"), а потом щёлкнуть по карте в то место, координаты которого хотите узнать (в общем случае, пощёлкать чуть-чуть вокруг, т.к. часто попадаешь на именованную область - село, деревню и т.д.). В области поиска (там, где кнопка "Найти") Яндекс выведет координаты.

 

Во-вторых, есть такой сайт Старые карты городов России и зарубежья (http://www.retromap.ru/). Очень замечательный! (Единственно, авторы зачем то те же карты Шуберта на нём только в зоне городов выложили). Так вот, ресурс этот позволяет параллельно рассматривать сегодняшнюю географию (карты Гугла, Яндекса и т.д.) с географией по старинным картам. Одна картинка слева экрана отображается, другая - справа. Они синхронизированны, т.е. те операции, которые Вы совершаете с одной (увеличение, перемещение и т.д.), автоматически дублируются во второй.
Я справа ставлю карту Стрельбицкого 1871 года, и контролирую искомые населённые пункты по Гугловской (слева). Как ни странно, по Орловщине, большинство нас. пунктов времени 1МВ на гугле отмечены.
Координаты точки, находящейся в центре карты (под перекрестием тонких чёрных линий - не красного крестика!!!) отображаются вверху слева.

Ссылка на комментарий
Поделиться на других сайтах

Посмотрела... Рыдаю сильнее обычного :)
С координатами я буду возиться до скончания века. Есть н.п. в 10 дворов, которых нет ни на одной карте, причем я могу найти их место расположения, используя СНМ разных годов и высчитывая расстояния. Надеюсь, таких будет немного...
Но самое страшное - с московскими мещанами... Это же не география, какие координаты у Москвы, в Кремль их "селить"? И у меня тут же возникает желание их проверить по каталогу ЦИАМ :)
В общем я попробую ночью и завтра.
Первые вопросы: для уездного города уезд писать? Что делать с теми, кто попал в Московскую губ. ошибочно?

Ссылка на комментарий
Поделиться на других сайтах

О, если речь пошла о координатах, то у этого проекта тоже может скоро будет карта.
Если надо, могу поделиться координатами населённых пунктов из ФН, могу дать все координаты, могу выбрать губернии и уезды (чтоб не тратить время на поиск по карте).
По губерниям координат не очень много, но что-то есть, есть координаты многих губерний и украинских уездов.

Ссылка на комментарий
Поделиться на других сайтах

a-KaDeMi-k
А как в этом проекте Старые карты городов России и зарубежья (http://www.retromap.ru/) координаты копировать, не выписывать же их вручную?

Ссылка на комментарий
Поделиться на других сайтах

Это же не география, какие координаты у Москвы, в Кремль их "селить"?
...
Первые вопросы: для уездного города уезд писать? Что делать с теми, кто попал в Московскую губ. ошибочно?

Я бы в Кремль и селил :)

 

Для уездного города уезд писать, волость - нет.

 

Ошибочно попавшие в Московскую, по-хорошему, записывать в нужную. Для этого только надо будет ещё один столбец ввести - "Губерния (исправленная)".
По-плохому - ставить/оставлять метку "(ошибка определения)"

 

А как в этом проекте Старые карты городов России и зарубежья (http://www.retromap.ru/) координаты копировать, не выписывать же их вручную?

Выделить мышкой сначала широту, Ctrl+C > Ctrl+V. Потом, аналогично, с долготой. Обе цифры одновременно, к сожалению, не выделяются.
Ссылка на комментарий
Поделиться на других сайтах

По Московской немного из своих данных АТД отфильтровал здесь.

Вам бы как-нибудь с Ириной состыковаться, чтобы одну и ту же работу 2 раза не делать.
Ну, либо будем потом перекрёстную проверку (для надёжности) устраивать ;)
Ссылка на комментарий
Поделиться на других сайтах

А почему вы не примените фонетический поиск для данного случая? Я использовал упрощённый вариант. Просто взял список АТД и в нём в отдельных столбцах сформировал для уездов и для волостей сокращённые до первых пяти символов названия. Отсортировал эти названия и удалил из них те, которые для разных названий одного и того же уезда давали одинаковые пять символов. Например волости Троицкая и Троицко-Голенищевская. Потом сформировал аналогичные столбцы из столбцов "Уезд" и "Волость/место" основной таблицы. Ну и наконец с помощью формул, сравнивая пятисимвольные столбцы обеих таблиц, сформировал столбцы "Уезд (исправленный)" и "Волость (исправленная)". Таким образом заполнились почти все строки уездов и примерно половина всего списка волостей. После этого можно всё отсортировать по уездам и по "Волость/место" и пройтись по всей таблице, "растягивая" названия волостей на все ближайшие варианты написания (фонетика вручную). Это всё лучше сразу сделать для всего списка по всем губерниям. Займёт несопоставимо меньше времени, чем всё выверять вручную. А вручную потом доделать только оставшиеся пустые графы.

Ссылка на комментарий
Поделиться на других сайтах

Да, с волостями можно попробовать применить статистический подход...
Постараюсь файлы по следующим губерниям подготавливать в таком виде. Хоть чуть-чуть, но уменьшит ручную работу.

Ссылка на комментарий
Поделиться на других сайтах

Здравствуйте! Могу попробовать по Харьковской губернии. Все не потяну, но какой-то кусок могу. Своих и ближайших односельчан пока искала немного разобралась в ошибках-опечатках... С координатами не совсем поняла, но попробую. Посмотрим, что выйдет. Если получится, можно будет продолжить.

Ссылка на комментарий
Поделиться на других сайтах

Здравствуйте! Могу попробовать по Харьковской губернии. ...

Надежда, спасибо! Дня через два-три сделаю Вам файл по Харьковской...
Ссылка на комментарий
Поделиться на других сайтах

Надежда, ссылка на файл в первом сообщении. Я несколько строк поправил - в качестве примера.
Если что - спрашивайте.

Ссылка на комментарий
Поделиться на других сайтах

Получила! Начала работать. Вопрос: в тексте "Алексеевск. с. Лих." (это Алексеевская волость, сейчас это Лихачево (или Первомайский), но на момент ПМВ это была деревня Сиваш помещика Лихачева, как исправить? по современному или по времени ПМВ? и еще тип нас. пункта, деревня, слобода отличать от села?
У меня просто есть выписка из архивного документа о мобилизации в ПМВ с официальными названиями нас. пунктов того времени. Вот и уточняю...

Ссылка на комментарий
Поделиться на других сайтах

Думаю, надо писать Лихачево (Сиваш, Первомайский). Т.е. в скобочках альтернативные названия.
Во всяком случае я по Орловской пока что делаю так.

 

Типы нас. пунктов различаем.

Ссылка на комментарий
Поделиться на других сайтах

Все населённые пункты пишем в названиях на даты войны.

 

Именно так указано в описании нашего справочника. Любое иное поведение может стать причиной серьёзных ошибок — не делайте этого!

 

Применительно к указанному случаю надо писать «д. Сиваш (Лихачева)».

Ссылка на комментарий
Поделиться на других сайтах

Все населённые пункты пишем в названиях на даты войны.

 

Именно так указано в описании нашего справочника. Любое иное поведение может стать причиной серьёзных ошибок — не делайте этого!

 

Применительно к указанному случаю надо писать «д. Сиваш (Лихачева)».

 

О каких ошибках речь? Наоборот, мы нивелируем ошибки пользователя, когда он (по незнанию) вводит современное название населённого пункта.
Ввёл "Первомайский", а ему в результат данные по Лихачево. Но он же сразу видит, что Первомайский - это альтернативное наименование.

 

Другой вариант, что во время ПМВ существовало где-то другое Первомайское. Ну так ничего страшного! У него будет либо другие губерния/уезд/волость, либо тоже альтернативное (современное) название. Получит пользователь чуть больше данных для анализа. Не меньше же!

 

К тому же, я совсем не исключаю варианта, что даже тогда - в период ПМВ - один и тот же н.п. разные люди называли по-разному. Так что нам, только официальные названия заводить что ли?

 

Всё равно эта задача - определение соответствия между старыми и текущими названиями - перед нами когда-нибудь встанет. Так зачем второй раз перелопачивать всё АТД потом, если это можно сделать сейчас.
Если уж так принципиально отделить современное наименование от бывшего - давай его в отдельный столбец бить или в какие-нибудь квадратные скобки. Но это - лишнее, по-моему.

Ссылка на комментарий
Поделиться на других сайтах

Все населённые пункты пишем в названиях на даты войны.

 

Именно так указано в описании нашего справочника. Любое иное поведение может стать причиной серьёзных ошибок — не делайте этого!

 

Применительно к указанному случаю надо писать «д. Сиваш (Лихачева)».

 

О каких ошибках речь? Наоборот, мы нивелируем ошибки пользователя, когда он (по незнанию) вводит современное название населённого пункта.
Ввёл "Первомайский", а ему в результат данные по Лихачево. Но он же сразу видит, что Первомайский - это альтернативное наименование.

 

Другой вариант, что во время ПМВ существовало где-то другое Первомайское. Ну так ничего страшного! У него будет либо другие губерния/уезд/волость, либо тоже альтернативное (современное) название. Получит пользователь чуть больше данных для анализа. Не меньше же!

 

К тому же, я совсем не исключаю варианта, что даже тогда - в период ПМВ - один и тот же н.п. разные люди называли по-разному. Так что нам, только официальные названия заводить что ли?

 

Всё равно эта задача - определение соответствия между старыми и текущими названиями - перед нами когда-нибудь встанет. Так зачем второй раз перелопачивать всё АТД потом, если это можно сделать сейчас.
Если уж так принципиально отделить современное наименование от бывшего - давай его в отдельный столбец бить или в какие-нибудь квадратные скобки. Но это - лишнее, по-моему.

 

.

 

Если очень хочется делать соответствия между старым и новым названиями — я не мешаю, НО смешивать их нельзя.
Пользователя предупредили, что все названия — старые. Если он этого не понял, это его проблемы…
Хуже будет, если он это понял и ожидает адекватной реакции системы, а в ответ получает совсем иной результат. Первомайское, да, будет одно и перепутать его будет сложно (т.к. до ПМВ не было первого мая).

 

Но как быть с реальным примером из моих поисков, когда на расстоянии пяти километров есть два населённых пункта: один в те времена назывался с.Берёзово и сейчас называется д.Березово (и находится при этом уже в другом районе), а второй тогда назывался Печерниковские выселки, а ныне называется с.Берёзово?

 

Если исследователь плохо разбирается в географии своего места, получив два разных с.Берёзова из одного и того же уезда одной и той же волости он получит проблему идентификации. Более того, резко повысится вероятность ошибок в его исследовании, т.к. населённые пункты расположены близко и в них много однофамильцев.

 

И я уверен, что подобных примеров, будет предостаточно…

 

Как я уже говорил, любая поисковая система — это тонкий баланс между полнотой и точностью. Так вот в данном случае, желая увеличить полноту поиска, ты оказываешь исследователям «медвежью услугу», т.к. серьёзно снижаешь точность поиска и усложняешь восприятие результатов.

 

.

Изменено пользователем Николай Чернухин (Энич)
Ссылка на комментарий
Поделиться на других сайтах

...

Андрей, при переносе сообщения убрал две строки из твоего сообщения, как утратившие актуальность в связи с переносом сообщений в данную тему (вместо них поставил по одной точке).
Или отредактируй твой ответ Денису сам, тогда я уберу своё это сообщение.
Ссылка на комментарий
Поделиться на других сайтах

[Спасибо, буду работать.
Ивиниите за распросы. Просто хочется все сделать правильно

Ссылка на комментарий
Поделиться на других сайтах

...

Андрей, при переносе сообщения убрал две строки из твоего сообщения, как утратившие актуальность в связи с переносом сообщений в данную тему (вместо них поставил по одной точке).
Или отредактируй твой ответ Денису сам, тогда я уберу своё это сообщение.

Годится.

 

[Спасибо, буду работать.
Ивиниите за распросы. Просто хочется все сделать правильно

Зря извиняетесь — очень правильные вопросы. Они вскрыли потенциальную назревающую проблему. Без этих вопросов могло быть только хуже.

 

Так что Вы очень правильно делаете, что задаёте их тут — так мы совместными усилиями сделаем самую удобную и полезную поисковую систему в мире по ПМВ!

 

А потом у меня в планах завоевать и остальной мир…

Ссылка на комментарий
Поделиться на других сайтах

Надежда, извинения не принимаются! Ибо не за что извиняться. :)

 

Система у нас ещё неустоявшаяся. Правки в неё саму и в технологию работы с нею мы вносим регулярно. Поэтому часть вопросов приходится решать по ходу возникновения.

 

По сути проблемы:
Вводите современные названия в отдельный столбец. Лишней эта информация, несмотря на пример, приведённый Андреем, не будет.
А мы потом решим, как с ней работать.

Ссылка на комментарий
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в теме...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

 Поделиться

  • Сейчас на странице   0 пользователей

    • Нет пользователей, просматривающих эту страницу.
×
×
  • Создать...

Важная информация

Пожалуйста, прочитайте Условия использования