IPB

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Ответить в данную темуНачать новую тему
> Работа над ошибками. Выверка географии
a-KaDeMi-k
сообщение 23.2.2015, 17:03
Сообщение #1





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



На текущий момент в базе более-менее выверены географические данные до уровня уездов. Думаю, мы можем потихоньку переходить к более глубоким уровням АТД.

Обращаюсь, прежде всего к специалистам по губерниям! Это выверка справочной информации, поэтому к её точности требования повышенные. Здесь нельзя поручить эту работу совершенно отстранённому человеку.
У кого есть желание, прошу указывать в этой теме губернии для обработки. Я буду постепенно формировать для Вас файлы и выкладывать здесь ссылки на них.

Файлы пока что представляют из себя следующее:
- заполненный данными из базы столбец "Губерния";
- заполненный данными из базы столбец "Уезд";
- заполненный данными из базы столбец "Волость/место";
- пустой столбец "Уезд (исправленный)"
- пустой столбец "Волость (исправленная)"
- пустой столбец "Тип нас. пункта"
- пустой столбец "Нас. пункт (исправленное)"
- пустой столбец "Примечание"
- пустой столбец "Координаты"
- вспомогательный столбец "Кол-во" - указано кол-во записей в БД, привязанных к данному географическому месту
- вспомогательный столбец "Пример" - указано ФИО, № выпуска и № страницы, по которым можно выявить одну из таких записей
- вспомогательный столбец "Ссылка" - ссылка, по которой можно посмотреть первоисточник, содержащий пример

Минимальный требуемый результат - выверить данные из столбца "Уезд" (там есть и такие строки, как "ошибка определения") и разбить данные из столбца "Волость/место", правильно заполнив волости и (как получится, т.е. не выверяя) населённые пункты.
Хороший результат - дополнительно к волостям выверить ещё и населённые пункты.
Идеальный - привязать населённые пункты к координатам.

Замечания по заполнению файлов. ВАЖНО!!!
1) Пожалуйста, не надо вносить в первые три столбца никаких изменений (т.е. вообще никаких, даже пробелы не править)!!!
2) Пишите названия в именительном падеже единственном числе без сокращений
3) Если не выверяете нас. пункты, то в этот столбец надо заносить данные из "Волость/место" за вычетом информации о волости
4) В столбец "Примечание" можно выносить негеографическую, например, информацию. У нас довольно часто встречается запись типа "мещанин города Адис-Абеба" (IMG:http://forum.svrt.ru/style_emoticons/default/smile.gif) . Так вот, строка "мещанин" как раз для него.
5) Волость для уездного города можно не заполнять (так же как и уезд - для губернского). Не заполнять её и для случая, когда указан только уезд. Во всех остальных столбец должен быть заполнен: либо названием волости, либо строкой "(не указано)" (если нельзя привязать населённый пункт к волости), либо строкой "(ошибка определения)" (если название волости ошибочно и непонятно, как его исправить). В последнем случае в столбец "Нас. пункт (исправленное)" переносятся один-в-один ВСЕ данные из столбца "Волость/место".
6) Координаты указывать для идентифицированных населённых пунктов в формате "широта,долгота" (например, 53.403856,35.689218)
7) Если у нас. пункта есть альтернативные названия, пишите их в круглых скобках через запятую.

Ссылки на файлы по губерниям / кем взяты в обработку:
Московская губерния - Фещенко И.
Нижегородская губерния
Орловская губерния - Калёнов Д. (Если есть кто-то хорошо знающий Орловщину, могу передать файл ему. "Бездвоздмездно!" (с) (IMG:http://forum.svrt.ru/style_emoticons/default/smile.gif) )
Харьковская губерния - Вус Н.
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 23.2.2015, 17:10
Сообщение #2





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Пример обработки по Орловской губернии.

Болховский уезд - Бунинской Юшкова.
Исправлено:
Болховский уезд - Бунинская волость - сельцо - Юшково (Савинка) - 53.125949,35.728333

Болховский уезд - Бунинской.
Исправлено:
Болховский уезд - Бунинская волость

Болховский уезд - Буринской.
Исправлено:
Болховский уезд - Бунинская волость

Болховский уезд - Бутовой.
Исправлено:
Болховский уезд - (ошибка определения) - Бутовой.

Болховский уезд - В. Серогозы.
Исправлено:
Болховский уезд - (не указано) - В. Серогозы.

(не указан) - мещ. г. Болхова.
Исправлено:
Болховский уезд - город - Болхов - мещанин
Перейти в начало страницы
 
+Цитировать сообщение
ИринаФМ
сообщение 24.2.2015, 4:35
Сообщение #3





Группа: Главные администраторы
Сообщений: 9030
Регистрация: 24.9.2006
Из: Москва
Пользователь №: 10



Если это не срочно, то возьму Московскую. Правда, ничего не поняла в инструкции (IMG:http://forum.svrt.ru/style_emoticons/default/smile.gif) но, может увижу файл и пойму хоть что-то. Но точно не знаю, откуда брать географические координаты, тем более для пунктов, которые отсутствуют на картах.
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 24.2.2015, 10:58
Сообщение #4





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Ирина, файл то я ж уже выложил. Посмотрите, пожалуйста.

Инструкция - выжимка из того, с чем сейчас сталкиваюсь я, обрабатывая Орловскую. Т.е., фактически, это ответы на вопросы, которые возникли у меня. У Вас, возможно, будут другие. Задавайте! Будем вместе искать ответы.

Координаты можно определять несколькими способами.
Во-первых, их в требуемом нам виде возвращает сервис Яндекс.Карты. Надо в ряду кнопок/инструментов (верхний левый угол карты) выбрать стрелочку со знаком вопроса ("Получить информацию"), а потом щёлкнуть по карте в то место, координаты которого хотите узнать (в общем случае, пощёлкать чуть-чуть вокруг, т.к. часто попадаешь на именованную область - село, деревню и т.д.). В области поиска (там, где кнопка "Найти") Яндекс выведет координаты.

Во-вторых, есть такой сайт Старые карты городов России и зарубежья (http://www.retromap.ru/). Очень замечательный! (Единственно, авторы зачем то те же карты Шуберта на нём только в зоне городов выложили). Так вот, ресурс этот позволяет параллельно рассматривать сегодняшнюю географию (карты Гугла, Яндекса и т.д.) с географией по старинным картам. Одна картинка слева экрана отображается, другая - справа. Они синхронизированны, т.е. те операции, которые Вы совершаете с одной (увеличение, перемещение и т.д.), автоматически дублируются во второй.
Я справа ставлю карту Стрельбицкого 1871 года, и контролирую искомые населённые пункты по Гугловской (слева). Как ни странно, по Орловщине, большинство нас. пунктов времени 1МВ на гугле отмечены.
Координаты точки, находящейся в центре карты (под перекрестием тонких чёрных линий - не красного крестика!!!) отображаются вверху слева.
Перейти в начало страницы
 
+Цитировать сообщение
ИринаФМ
сообщение 24.2.2015, 13:44
Сообщение #5





Группа: Главные администраторы
Сообщений: 9030
Регистрация: 24.9.2006
Из: Москва
Пользователь №: 10



Посмотрела... Рыдаю сильнее обычного (IMG:http://forum.svrt.ru/style_emoticons/default/smile.gif)
С координатами я буду возиться до скончания века. Есть н.п. в 10 дворов, которых нет ни на одной карте, причем я могу найти их место расположения, используя СНМ разных годов и высчитывая расстояния. Надеюсь, таких будет немного...
Но самое страшное - с московскими мещанами... Это же не география, какие координаты у Москвы, в Кремль их "селить"? И у меня тут же возникает желание их проверить по каталогу ЦИАМ (IMG:http://forum.svrt.ru/style_emoticons/default/smile.gif)
В общем я попробую ночью и завтра.
Первые вопросы: для уездного города уезд писать? Что делать с теми, кто попал в Московскую губ. ошибочно?
Перейти в начало страницы
 
+Цитировать сообщение
frato
сообщение 24.2.2015, 18:58
Сообщение #6





Группа: Пользователи
Сообщений: 560
Регистрация: 1.3.2009
Из: Шахтёрск, Донецкая область
Пользователь №: 12009



О, если речь пошла о координатах, то у этого проекта тоже может скоро будет карта.
Если надо, могу поделиться координатами населённых пунктов из ФН, могу дать все координаты, могу выбрать губернии и уезды (чтоб не тратить время на поиск по карте).
По губерниям координат не очень много, но что-то есть, есть координаты многих губерний и украинских уездов.
Перейти в начало страницы
 
+Цитировать сообщение
Бибиков Валерий
сообщение 24.2.2015, 20:07
Сообщение #7





Группа: Правление
Сообщений: 13444
Регистрация: 21.9.2006
Из: Москва
Пользователь №: 5



a-KaDeMi-k
А как в этом проекте Старые карты городов России и зарубежья (http://www.retromap.ru/) координаты копировать, не выписывать же их вручную?
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 24.2.2015, 21:05
Сообщение #8





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Цитата(ИринаФМ @ 24.2.2015, 13:44) *
Это же не география, какие координаты у Москвы, в Кремль их "селить"?
...
Первые вопросы: для уездного города уезд писать? Что делать с теми, кто попал в Московскую губ. ошибочно?

Я бы в Кремль и селил (IMG:http://forum.svrt.ru/style_emoticons/default/smile.gif)

Для уездного города уезд писать, волость - нет.

Ошибочно попавшие в Московскую, по-хорошему, записывать в нужную. Для этого только надо будет ещё один столбец ввести - "Губерния (исправленная)".
По-плохому - ставить/оставлять метку "(ошибка определения)"

Цитата(Бибиков Валерий @ 24.2.2015, 20:07) *
А как в этом проекте Старые карты городов России и зарубежья (http://www.retromap.ru/) координаты копировать, не выписывать же их вручную?

Выделить мышкой сначала широту, Ctrl+C > Ctrl+V. Потом, аналогично, с долготой. Обе цифры одновременно, к сожалению, не выделяются.
Перейти в начало страницы
 
+Цитировать сообщение
Celler
сообщение 25.2.2015, 22:42
Сообщение #9





Группа: Пользователи
Сообщений: 86
Регистрация: 21.11.2007
Пользователь №: 2318



По Московской немного из своих данных АТД отфильтровал здесь.
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 26.2.2015, 8:21
Сообщение #10





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Цитата(Celler @ 25.2.2015, 22:42) *
По Московской немного из своих данных АТД отфильтровал здесь.

Вам бы как-нибудь с Ириной состыковаться, чтобы одну и ту же работу 2 раза не делать.
Ну, либо будем потом перекрёстную проверку (для надёжности) устраивать (IMG:http://forum.svrt.ru/style_emoticons/default/wink.gif)
Перейти в начало страницы
 
+Цитировать сообщение
Celler
сообщение 26.2.2015, 20:18
Сообщение #11





Группа: Пользователи
Сообщений: 86
Регистрация: 21.11.2007
Пользователь №: 2318



А почему вы не примените фонетический поиск для данного случая? Я использовал упрощённый вариант. Просто взял список АТД и в нём в отдельных столбцах сформировал для уездов и для волостей сокращённые до первых пяти символов названия. Отсортировал эти названия и удалил из них те, которые для разных названий одного и того же уезда давали одинаковые пять символов. Например волости Троицкая и Троицко-Голенищевская. Потом сформировал аналогичные столбцы из столбцов "Уезд" и "Волость/место" основной таблицы. Ну и наконец с помощью формул, сравнивая пятисимвольные столбцы обеих таблиц, сформировал столбцы "Уезд (исправленный)" и "Волость (исправленная)". Таким образом заполнились почти все строки уездов и примерно половина всего списка волостей. После этого можно всё отсортировать по уездам и по "Волость/место" и пройтись по всей таблице, "растягивая" названия волостей на все ближайшие варианты написания (фонетика вручную). Это всё лучше сразу сделать для всего списка по всем губерниям. Займёт несопоставимо меньше времени, чем всё выверять вручную. А вручную потом доделать только оставшиеся пустые графы.
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 26.2.2015, 21:48
Сообщение #12





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Да, с волостями можно попробовать применить статистический подход...
Постараюсь файлы по следующим губерниям подготавливать в таком виде. Хоть чуть-чуть, но уменьшит ручную работу.
Перейти в начало страницы
 
+Цитировать сообщение
Nadezhda-Vus
сообщение 16.3.2015, 21:50
Сообщение #13





Группа: Пользователи
Сообщений: 21
Регистрация: 1.6.2013
Из: Харьков
Пользователь №: 19193



Здравствуйте! Могу попробовать по Харьковской губернии. Все не потяну, но какой-то кусок могу. Своих и ближайших односельчан пока искала немного разобралась в ошибках-опечатках... С координатами не совсем поняла, но попробую. Посмотрим, что выйдет. Если получится, можно будет продолжить.
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 16.3.2015, 22:49
Сообщение #14





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Цитата(Nadezhda-Vus @ 16.3.2015, 21:50) *
Здравствуйте! Могу попробовать по Харьковской губернии. ...

Надежда, спасибо! Дня через два-три сделаю Вам файл по Харьковской...
Перейти в начало страницы
 
+Цитировать сообщение
Nadezhda-Vus
сообщение 17.3.2015, 16:42
Сообщение #15





Группа: Пользователи
Сообщений: 21
Регистрация: 1.6.2013
Из: Харьков
Пользователь №: 19193



Жду!
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 18.3.2015, 18:58
Сообщение #16





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Надежда, ссылка на файл в первом сообщении. Я несколько строк поправил - в качестве примера.
Если что - спрашивайте.
Перейти в начало страницы
 
+Цитировать сообщение
Nadezhda-Vus
сообщение 19.3.2015, 19:20
Сообщение #17





Группа: Пользователи
Сообщений: 21
Регистрация: 1.6.2013
Из: Харьков
Пользователь №: 19193



Получила! Начала работать. Вопрос: в тексте "Алексеевск. с. Лих." (это Алексеевская волость, сейчас это Лихачево (или Первомайский), но на момент ПМВ это была деревня Сиваш помещика Лихачева, как исправить? по современному или по времени ПМВ? и еще тип нас. пункта, деревня, слобода отличать от села?
У меня просто есть выписка из архивного документа о мобилизации в ПМВ с официальными названиями нас. пунктов того времени. Вот и уточняю...
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 19.3.2015, 22:30
Сообщение #18





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Думаю, надо писать Лихачево (Сиваш, Первомайский). Т.е. в скобочках альтернативные названия.
Во всяком случае я по Орловской пока что делаю так.

Типы нас. пунктов различаем.
Перейти в начало страницы
 
+Цитировать сообщение
АндрейХ
сообщение 20.3.2015, 10:56
Сообщение #19





Группа: Члены СВРТ
Сообщений: 628
Регистрация: 13.2.2013
Пользователь №: 18716



Все населённые пункты пишем в названиях на даты войны.

Именно так указано в описании нашего справочника. Любое иное поведение может стать причиной серьёзных ошибок — не делайте этого!

Применительно к указанному случаю надо писать «д. Сиваш (Лихачева)».
Перейти в начало страницы
 
+Цитировать сообщение
a-KaDeMi-k
сообщение 20.3.2015, 13:26
Сообщение #20





Группа: Пользователи
Сообщений: 735
Регистрация: 24.9.2013
Пользователь №: 19547



Цитата(АндрейХ @ 20.3.2015, 10:56) *
Все населённые пункты пишем в названиях на даты войны.

Именно так указано в описании нашего справочника. Любое иное поведение может стать причиной серьёзных ошибок — не делайте этого!

Применительно к указанному случаю надо писать «д. Сиваш (Лихачева)».


О каких ошибках речь? Наоборот, мы нивелируем ошибки пользователя, когда он (по незнанию) вводит современное название населённого пункта.
Ввёл "Первомайский", а ему в результат данные по Лихачево. Но он же сразу видит, что Первомайский - это альтернативное наименование.

Другой вариант, что во время ПМВ существовало где-то другое Первомайское. Ну так ничего страшного! У него будет либо другие губерния/уезд/волость, либо тоже альтернативное (современное) название. Получит пользователь чуть больше данных для анализа. Не меньше же!

К тому же, я совсем не исключаю варианта, что даже тогда - в период ПМВ - один и тот же н.п. разные люди называли по-разному. Так что нам, только официальные названия заводить что ли?

Всё равно эта задача - определение соответствия между старыми и текущими названиями - перед нами когда-нибудь встанет. Так зачем второй раз перелопачивать всё АТД потом, если это можно сделать сейчас.
Если уж так принципиально отделить современное наименование от бывшего - давай его в отдельный столбец бить или в какие-нибудь квадратные скобки. Но это - лишнее, по-моему.
Перейти в начало страницы
 
+Цитировать сообщение

3 страниц V   1 2 3 >
Ответить в данную темуНачать новую тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 



Текстовая версия Сейчас: 23.10.2017, 23:54