Celler

Работа над ошибками. Выверка географии

Celler ответил в теме пользователя a-KaDeMi-k в Первая Мировая война

А почему вы не примените фонетический поиск для данного случая? Я использовал упрощённый вариант. Просто взял список АТД и в нём в отдельных столбцах сформировал для уездов и для волостей сокращённые до первых пяти символов названия. Отсортировал эти названия и удалил из них те, которые для разных названий одного и того же уезда давали одинаковые пять символов. Например волости Троицкая и Троицко-Голенищевская. Потом сформировал аналогичные столбцы из столбцов "Уезд" и "Волость/место" основной таблицы. Ну и наконец с помощью формул, сравнивая пятисимвольные столбцы обеих таблиц, сформировал столбцы "Уезд (исправленный)" и "Волость (исправленная)". Таким образом заполнились почти все строки уездов и примерно половина всего списка волостей. После этого можно всё отсортировать по уездам и по "Волость/место" и пройтись по всей таблице, "растягивая" названия волостей на все ближайшие варианты написания (фонетика вручную). Это всё лучше сразу сделать для всего списка по всем губерниям. Займёт несопоставимо меньше времени, чем всё выверять вручную. А вручную потом доделать только оставшиеся пустые графы.

Работа над ошибками. Выверка географии

Celler ответил в теме пользователя a-KaDeMi-k в Первая Мировая война

По Московской немного из своих данных АТД отфильтровал здесь.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Это мои ошибки в список просочились.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Сравнил данные и исправил у себя много ошибок, а также нашёл ошибки у вас.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Список сестёр милосердия очень качественно сосканирован, поэтому попробовал на нём испытать возможности FineReader 11. Чтобы добиться лучшего результата, применил несколько хитростей. Во-первых, чтобы в итоге получить поменьше мусора, обрезал все картинки, оставив только столбцы с фамилией и с назначениями. Во-вторых, произвёл обучение FineReader на нескольких страницах текста на старорусском алфавите и на полученном шаблоне распознал текст. Затем ещё раз распознал весь текст на современном алфавите встроенным алгоритмом. В итоге получил два варианта текстов, которые разделил в табличном процессоре на отдельные столбцы. После этого каждый из столбцов в обеих вариантах копировал в таблицу и производил их сравнение. Например, из 16143-х фамилий, только около 2000 оказались различно распознаны обеими алгоритмами распознавания, а остальные следовательно с большой вероятностью верны. Таким образом потребовалось проверить около 2000 расхождений в фамилиях. В общей сложности на все корректировки всех столбцов ушло где-то около 18 часов чистого времени, а всего вместе с обрезкой картинок - сутки. Реально потребовалось около недели на выходных и после работы. Обработан только один столбец - с ФИО и без номеров расчётной книжки. Столбец с назначениями на службу не обрабатывался. Результат здесь.

Ссылки на источники информации

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Тему не читал, но если вот это уже было, то не обращайте внимания на этот пост.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Список сестёр милосердия Российского общества Красного Креста, назначенных для ухода за ранеными и больными воинами в лечебные учреждения Красного креста, военного ведомства, общественных организаций и частных лиц. тоже подходит для данного проекта.

Альтернативная генеалогия

Celler ответил в теме пользователя Celler в Общие вопросы генеалогии

Хочу описать здесь ещё одну идею, относящуюся к альтернативной генеалогии, которую можно реализовать при условии коллективной работы группы увлечённых людей. Речь о административно-территориальном делении Российской Империи. Ещё раз хочу напомнить о уникальной сложности истории этого АТД и важности во всём этом разобраться и представить в удобном виде. Саму структуру АТД удобнее всего разместить на движке Wiki, подобно всем известной Википедии. В этом случае доступ к статьям с возможностью их редактирования может быть у всех членов группы, работающих над проектом. В этом нет ничего особо сложного и организовать это всё просто. Но идея заключается в другом. Предлагается нарисовать карту всех этих административных образований вместе с их административными центрами, а в последующем и со всеми селениями, в которой будут ссылки на соответствующие статьи Википедии АТД. Если подробнее, то суть заключается вот в чём. Подобно Википедии, есть ещё один большой проект, над которым работают все желающие - OSM или OpenStreetMap. Таким образом рисуется карта всего мира. Причём карта уже сейчас выглядит великолепно, ничего подобного никогда раньше небыло. На этой карте можно показать практически всё, что встречается в селениях и на местности, вплоть до скамеек, отдельных фонарей, мусорных баков, почтовых ящиков или автоматов по продаже чего-либо. У объектов при необходимости может быть указано время их работы (например магазинов), время их постройки и масса других подробностей. Саму карту можно посмотреть здесь. Но вообще-то OSM это не карта, а база данных, на основе которой можно самостоятельно делать карты, включающие ту или иную информацию из БД. Вышеприведённая ссылка это просто пример такой карты, а вот здесь например можно включать отображение тех или иных объектов на карте. Рисовать карту очень просто, поскольку есть замечательные программы-инструменты, специально разработанные для этого. Наиболее известная из программ - JOSM. Особенностью проекта OSM на данный момент является то, что все объекты рисуются так, как они выглядят сейчас. Рисовать некоторые исчезнувшие объекты можно, но это не приветствуется. Есть предварительные наработки усовершенствования OSM, которые позволят рисовать любые исторические объекты с привязкой ко времени, но всё это пока дело будущего. OSM является открытым проектом и поэтому можно самостоятельно инсталлировать у себя все необходимые программы для организации собственного OSM и использовать у себя полностью или частично уже имеющуюся базу данных. Вот это предлагается сделать и рисовать исторические карты. Например можно для начала нарисовать все границы волостей и все волостные центры РИ. При этом параллельно делать и Википедию с перекрёстными ссылками друг на друга всех объектов. В качестве основы для этой работы можно было бы использовать такой источник, как "Волости и гмины 1890 года" с shpl.dlibrary.org. Там же есть и схемы волостного деления губерний РИ. Однако эти схемы совершенно не привязанные к современным картам и воспользоваться ими в таком виде для рисования границ волостей не получится. Поэтому предварительно их нужно будет соответственно сдеформировать и наложить на современные карты. После этого их можно будет установить в качестве фона в программе JOSM и обрисовать. Понятно, что результат будет очень приблизительный, но в последующем, если в базу будут вноситься и все принадлежащие волостям селения, то границы будут уточняться. Всё описанное выше реализовать совсем не сложно и, на мой взгляд, технически чрезвычайно интересно. Самая большая сложность будет заключаться в наложении схем волостного деления на современные карты и их привязка к географическим координатам. Технологию этой работы я испытал на одной из губерний и заключается она вот в чём. Сначала нужно найти более или менее приличную карту губернии. Таких карт на разные губернии в интернете очень много, но хорошие карты, типа планов генерального межевания, зачастую платные. Однако для нашей работы самые лучшие карты не требуются, а подойдут и посредственные, имеющиеся в свободном доступе. Если карты состоят из множества отдельных кусков, то их необходимо склеить в одну карту губернии. Это делается довольно просто с помощью специальных программ, либо в графическом редакторе, например в GIMP. Затем скачиваются и склеиваются в единую карту двухкилометровые карты генштаба на эту территорию и делается их привязка к координатам. Как это сделать хорошо описано на множестве ресурсов в интернете. Затем в графическом редакторе, например в GIMP, производится наложение сначала карты губернии на двухкилометровую подложку, а затем карты волостей на карту губернии. Производится это путём деформации отдельных участков карты с тем, чтобы все объекты и границы совпали. Таким образом карта волостей будет привязана к современным координатам объектов и её можно использовать для обрисовывания. В собственную БД достаточно загрузить из OSM только все водные объекты и тогда можно будет рендерить из этой базы полноценные исторические карты по своему усмотрению. Техническую сторону проекта в состоянии осилить почти любой человек, хорошо разбирающийся в базах данных и интернет-технологиях. Самая большая сложность заключается в поднятии самого OSM-API, что очень не просто, но, к счастью, есть значительно более простой вариант - Microcosm. Я предлагаю только идею, в надежде что когда-нибудь и кто-нибудь заинтересуется её реализацией.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Журналы "Разведчик"в полном виде есть на Докусфере.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Выборка из журналов "Разведчик" с номера 1243 по 1347 (номер 1319 отсутствует).

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Может кому-то будет интересно, но списки потерь прочих чинов публиковались в журнале "Русский инвалид", а в журнале "Разведчик" дублировались начиная с 1243-го номера вот в таком виде.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Я предполагаю, что таких ошибок будет очень и очень много и выискивать их вручную очень трудоёмко. Если есть весь список в Excel, то там можно всё выявить и исправить довольно просто. Я имел ввиду оставить базу по ПМВ в самостоятельном законченном виде, а данные из неё использовать для создания более обширной генеалогической базы данных. Ведь помимо списков по ПМВ есть большое количество и совсем других списков. Например, есть Ведомости справок о судимости, в которых записи о нескольких миллионах персон, есть обширные списки медицинских работников и т.д. Это конечно если найдутся желающие заниматься и другими списками. Или по тем же спискам ПМВ ведь в базу можно было бы вносить данные и о выявленных родственниках участников войны.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

Несколько предложений: 1. оставить списки в pdf в том виде как сейчас 2. исправить в базе данных все наименования и привести их к единому виду в именительном падеже. Например, вот упоминания одного из уездов: Драссенского Дрессенского Дриссевского Дриссенекого Дриссенского Дриссенского. Дриссинского Дриссненского Достаточно вместо всего этого проставить Дриссенский уезд. Тоже самое и с воинскими званиями и с причинами выбытия. Если есть однозначность с сокращёнными написаниями имён, то заменить их также на полные имена. Оставить возможность исправлять данные, если появилась уточняющая информация. Функционал БД оставить так, как есть сейчас. 3. сделать копию БД с ограниченным доступом, в которую добавить множество дополнительных полей для генеалогического описания персон, с возможностью вносить туда информацию. Использовать эту БД как основу для заполнения её любыми другими аналогичными списками. Оставить её как простую БД без всяких наворотов, типа построения деревьев и прочего. PS Я в проекте не участвовал и меня поэтому среди его участников упоминать не нужно.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

У меня в общем списке на тот период есть такие уезды: Иманский уезд Николаевский уезд Никольск-Уссурийский уезд Ольгинский уезд Удский уезд Хабаровский уезд Но более подробного деления, за исключением приведённого в файле regiony.xls нет. Там происходили в то время очень частые административно-территориальные преобразования, что-то даже переходило Японии, поэтому точно восстановить структуру АТД с начала века и до конца первой мировой очень не просто. В приведённом списке фигурируют прежние наименования уездов и части, находившиеся прежде в Приморской области: Александровский - пост Александровский, с 1909 г. центр Сахалинской области Благовещенский - Амурская область Борисоглебский - Владивостокский - г. Владивосток - административная единица г. Н.-Уссурийск - административная единица г. Ольгинск - административная единица г. Хабаровск - административная единица Иманский - Иманский уезд Н.-Уссурийский - Никольск-Уссурийский уезд Николаевский - Николаевский уезд Никольск-Уссурийский - Никольск-Уссурийский уезд Ольгинский - Ольгинский уезд Петропавловский - Петропавловский уезд до 1909 г. Средне-Уссурийский - Средне-Уссурийский участок Удский - Удский уезд Уссурийский - Уссурийский уезд до 1909 г. Хабаровский - Хабаровский уезд Южно-Уссурийск. - Южно-Уссурийский уезд до 1909 г. Южно-Уссурийский - Южно-Уссурийский уезд до 1909 г.

Беседка

Celler ответил в теме пользователя Николай Чернухин (Энич) в Первая Мировая война

В части набранных списков есть указание уездов и волостей, только они зачастую сокращённые или в неправильном падеже или в виде центрального селения. Нужно просто восстановить их ориентируясь на мой список и разделить их по графам в соответствии со структурой АТД. Сделать это проще всего в табличном процессоре с помощью формул.

Войти

Публикаций

Зарегистрирован

Посещение

Работа над ошибками. Выверка географии

Работа над ошибками. Выверка географии

Беседка

Беседка

Беседка

Ссылки на источники информации

Беседка

Альтернативная генеалогия

Беседка

Беседка

Беседка

Беседка

Беседка

Беседка

Беседка

Важная информация