Перейти к контенту

Рекомендуемые сообщения

Вот так мне видится новый шаблон, где учитываются максисимально все варианты, и колонки становятся максимально универсальными для разнородных документов, характерных под задачи проекта:
5bcfab3a3a280473d31ef156936fb934.jpg
---
Пропустил графу "Место выбытия или захоронения".

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
...
P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.

 


Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо.

 

Про "звание отца" - это я, конечно, маху дал :). Но можно завести вторую строку с заполненными полями Ф, И и звание: "Струсевич, Осип, подполковник".

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
...
База данных, куда мы в конце концов данные загрузим, фактически представляет из себя группу обычных таблиц. Поэтому всё, что мы набиваем, надо и набивать в таблицы. Т.е. очень нежелательно часть сведений завести в столбцы для этого предназначенные, а всё оставшееся скопом в столбец дополнительных сведений.
...

Графа "дополнительные сведения" нужна не столько для системы, а именно для волонтера - не каждый может сообразить, куда разместить часть информации, формально не подпадающую ни под одну графу.
Такие записи будут малочисленны, но они потом позволять сделать следующее:
-1) волонтер обработал информацию и прислал ее по адресу (мне ли или кому другому, как решим потом, назовем его условно приемщиком)
-2) информация поступила к приемщику, он начинает ее перепроверять (фактически все эти полтора года я этим и занимался).
-3) приемщик изучает информацию в графе "дополнительная информация" и вводит или переименовывает в присланную таблицу дополнительную графу или создает несколько граф, под понятие которых содержащаяся там информация подходит и разносит ее по ним.
-4) отправляет на размещение в БД.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
Вот так мне видится новый шаблон, где учитываются максисимально все варианты, и колонки становятся максимально универсальными для разнородных документов, характерных под задачи проекта:
5bcfab3a3a280473d31ef156936fb934.jpg
---
Пропустил графу "Место выбытия или захоронения".

 

Мне кажется, что универсальность шаблона в данном случае вредит. В том же разведчике, подозреваю, 90% записей - это только звание и ФИО, плюс причина смерти и страница.
Думаю, надо делать шаблон под каждый тип источника свой. Максимально компактный. А всё выходящее за пределы компактности оформлять, как написал ранее, во второй таблице.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вреда никакого - под каждого волонтера и под каждый новый источник не надо что-то создавать новое:
выслал единый шаблон - все ненужные графы волонтер удалил.
Поэтому должно быть еще и максимально понятное и универсальное оглавление каждой графы.
А в инструкции к шаблону об этом ему надо указать.
Мы говорим по разному - я о волонтерах, Денис о заливке в систему.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
...
База данных, куда мы в конце концов данные загрузим, фактически представляет из себя группу обычных таблиц. Поэтому всё, что мы набиваем, надо и набивать в таблицы. Т.е. очень нежелательно часть сведений завести в столбцы для этого предназначенные, а всё оставшееся скопом в столбец дополнительных сведений.
...

Графа "дополнительные сведения" нужна не столько для системы, а именно для волонтера - не каждый может сообразить, куда деть часть информации, формально не подпадающую ни под одну графу.
Такие записи будут малочисленны, но они потом позволять сделать следующее:
-1) волонтер обработал информацию и прислал ее по адресу (мне ли или кому другому, как решим потом, назовем его условно приемщиком)
-2) информация поступила к приемщику, он начинает ее перепроверять (фактически все эти полтора года я этим и занимался).
-3) приемщик изучает информацию в графе "дополнительная информация" и вводит или переименовывает в присланную таблицу дополнительную графу или создает несколько граф, под понятие которых содержащаяся там информация подходит и разносит ее по ним.
-4) отправляет на размещение в БД.
Ну, если "приёмщик" не против, тогда можно переложить эту работу с волонтёра на него ;)
Я просто хотел сакцентировать внимание, что разбиение информации по единицам, когда она свалена скопом в поле "Доп. данные" - это задача трудно алгоритмизируемая для компьютера. Тут, в общем, в самом широком, случае, только человек может справиться.

 


Поэтому, кстати, ещё раз хочу поднять вопрос про разделение Имени и Отчества (там, где волонтёр не понимает где первое, а где второе - всё бить в Имя).

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
...

 


Мы говорим по разному - я о волонтерах, Денис о заливке в систему.


Неправда! Я тоже о волонтёрах! Но с огладкой на заливку... :)
Можно и так, как пишите Вы: шаблон содержит максимальное кол-во столбцов, а волонтёр, получив его, удаляет ему ненужные. Но это, формально, создание шаблона под тип источника. ;)

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
...

 


Мы говорим по разному - я о волонтерах, Денис о заливке в систему.


Неправда! Я тоже о волонтёрах! Но с огладкой на заливку... :)
Можно и так, как пишите Вы: шаблон содержит максимальное кол-во столбцов, а волонтёр, получив его, удаляет ему ненужные. Но это, формально, создание шаблона под тип источника. ;)

Вот каждый волонтер затем под каждый конкретный источник создаст на основе универсального свой шаблон, а мне или нам не надо будет под каждый конкретный случать придумывать что-то новое.
Получил волонтер шаблон, прочел инструкцию, максимально грамотно составленную, сравнил с тем, что у него в источнике для набивки - все лишние графы удалил и работает.
Мы ж это уже проходили в начале пути - столько было, как потом оказалось, ненужных вопросов.
А для системы, как я это понимаю - важно одно - в конкретной графе содержится конкретная однотипная информация, только этой графе присущая - и не более того.
Тогда всем и системе тоже будет понятно, что в графе "мера веса" должны быть килограммы, граммы, тонны и центнеры, а вот рублям, долларам, и прочим тугрикам там не место.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.


Можно и так - на одном листе набил выпуск одного журнала, на следующем второй и т.д.
При этом надо тогда не забыть о наименовании листа, применительно к журналу как?
- либо весь файл озаглавить названием источника (Журнал такой-то) - тогда каждый лист файла поименовать номером выпуска, а в графах останется только номер страницы,
или
- файл называется "Потери", тогда каждый лист называется либо: Журнал такой то, выпуск номер такой-то, и тогда, как и в первом случае, остается только графа страницы, или просто журнал без указания номера, тогда остаются обе графы: № выпуска и № страницы.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.

 

И в этом случае проще делить источники между волонтерами.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.


Можно и так - на одном листе набил выпуск одного журнала, на следующем второй и т.д.
При этом надо тогда не забыть о наименовании листа, применительно к журналу как?
- либо весь файл озаглавить названием источника (Журнал такой-то) - тогда каждый лист файла поименовать номером выпуска, а в графах останется только номер страницы,
или
- файл называется "Потери", тогда каждый лист называется либо: Журнал такой то, выпуск номер такой-то, и тогда, как и в первом случае, остается только графа страницы, или просто журнал без указания номера, тогда остаются обе графы: № выпуска и № страницы.

Поместить всю информацию об источнике в название файла или в название страницы - сложно. В отдельный столбец - это дублирование для всех записей. Поэтому я пока что не отказываюсь от предложенного правила "Один источник - один файл".
Причём не важно, как он (файл) будет называться. Вся инф-я об источнике указывается в самом файле на спец. странице со стандартизированными графами.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Цитата(a-KaDeMi-k
"P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.
Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо."

 

Рассматривая этот пример (он не единичен, в источнике есть еще подобные). Создавая отдельную страницу и дробя текст на столбцы, мы теряем исходный текст, чтобы его сохранить надо на основной странице в столбце "Дополнительные данные" набрать текст полностью как в источнике.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
Цитата(a-KaDeMi-k
"P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.
Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо."

 

Рассматривая этот пример (он не единичен, в источнике есть еще подобные). Создавая отдельную страницу и дробя текст на столбцы, мы теряем исходный текст, чтобы его сохранить надо на основной странице в столбце "Дополнительные данные" набрать текст полностью как в источнике.


Конечно, есть системы, способные работать с неструктурированной информацией (да тот же интернет :)). Но мы преследуем задачу не только источник оцифровать, но и структурировать содержащиеся в нём данные, т.е. "разложить всё по полочкам": имя - сюда, дату - сюда и т.д.
Человек зайдёт в базу, найдёт по ИМЕНИ ссылку на источник и прочитает исходный текст, если ему надо.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
Цитата(a-KaDeMi-k
"P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.
Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо."

 

Рассматривая этот пример (он не единичен, в источнике есть еще подобные). Создавая отдельную страницу и дробя текст на столбцы, мы теряем исходный текст, чтобы его сохранить надо на основной странице в столбце "Дополнительные данные" набрать текст полностью как в источнике.


Конечно, есть системы, способные работать с неструктурированной информацией (да тот же интернет :)). Но мы преследуем задачу не только источник оцифровать, но и структурировать содержащиеся в нём данные, т.е. "разложить всё по полочкам": имя - сюда, дату - сюда и т.д.
Человек зайдёт в базу, найдёт по ИМЕНИ ссылку на источник и прочитает исходный текст, если ему надо.

Но это не должен делать волонтер - его работа поступает приемщику и тот перед размещением в бд оптимизирует ее.
Как пример, когда шли списки ко мне от волонтеров подряд, как набивались, без последующей сортировки по алфавиту - было все отлично и легко проверять, так как был понятен предмет проверки, но когда начали поступать списки отсортированные по алфавиту - начались конкретные ляпы.
Допустим, человек где-то нечаянно пропустил какую-либо запись в какой-нибудь графе - отследить ее стало или невозможно или методом перепроверки всех первоисточников, что отнимало уйму времени.
А когда набитые данные подряд не сортировались - ошибки находились при минимуме затрат времени.
Это я к тому, что лишние страницы с удобными может для системы сведениями в корне неудобны для и волонтера и для приемщика - нужно в голове постоянно держать лишние телодвижения.
Списки для заливки должны однозначно готовиться не волонтером, а приемщиком - такая схема работы показала себя с положительной стороны.
Если мы посмотрим на первые размещенные на сайте списки, когда система работы над списками только вырабатывалась - там бардак полнейший, и если смотреть на последние размещения, там ляпов стало намного меньше.
Волонтер не должен заморачиваться удобствами для системы, он должен думать только о набивке списков по максимально простой и полностью ему понятной предложенной схеме.
Приемщик - вот он должен, и будет это делать (не важно кто - я или по идее надо готовить специально для этих целей человека из среды наших участников).
Поэтому я против подобного рода оптимизаций на стадии набивки списков.

 

К тому же, не забываем - все эти новые списки сейчас вторичны - важно подготовить к поиску уже обработанные данные по сканам РГБ.
А с новыми по мере их готовности разберемся.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поэтому останавливаемся на данном этапе на таком виде шаблона.
Дальнейшие дискуссии на эту тему считаю преждевременными - они будут важны только для приемщика обработанных списков:
3532c94e8680bb68f0447370d4770c94.jpg

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Наверно, я совершенно не умею доносить свои мысли до людей :( Ладно... Отложу на время - пусть уляжется :)

 


Fine Reader у кого-нибудь есть? Пример скана "Разведчика" на первый взгляд выглядит подходящим, чтобы натравить программу на него...

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
Наверно, я совершенно не умею доносить свои мысли до людей :( Ладно... Отложу на время - пусть уляжется :)
...

Денис, всё будет хорошо! Не заморачивайтесь - есть дела на данном этапе поважнее

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах
Наверно, я совершенно не умею доносить свои мысли до людей :( Ладно... Отложу на время - пусть уляжется :)
...

Денис, всё будет хорошо! Не заморачивайтесь - есть дела на данном этапе поважнее

 

:)

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Важная просьба ко всем, кто это читает

 

Я закончил подготовку к чистовой заливке данных в поисковую систему по спискам выбывших.
В связи с этим просьба каждому из вас сделать несколько поисковых запросов (кликните на эти слова для перехода на сайт) и посмотреть результаты поиска на предмет каких-либо ошибок в них.
По возможности сравните информацию из результатов поиска на предмет её совпадения с оригиналом по ссылке на источник в библиотеке РГБ (если источник там есть, текст в поле «Источник» является прямой ссылкой на страницу оригинала).

 

Чем больше людей сейчас протестирует систему тем меньше будет шансов. что что-то пойдёт не так.

 

Обо всех найденных ошибках (или подозрительных результатах поиска) прошу написать в техническую тему или тут.
Если серьёзных ошибок не найдём, через пару дней буду заливать данные начисто…

 

Известные на сейчас серьёзные ошибки:

  1. Часть записей (около 47 тыс.) имеет в поле «Источник» запись типа "«», стр.23430" — исправлено;

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

В техническую тему написать не получится всем - ее видят только разработчики системы и члены СВРТ - другие ее не видят, а потому она им недоступна.
Ошибки и замечания надо делать тем, кто не видит технической (правильно - служебной) темы, здесь.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Николай, напишите, пожалуйста, с какого номера и как меняется названия самих списков - Вы вчера упоминали.
Думаю, правильнее скорректировать их название и в самой базе, на ссылках.

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

По 980 список идет "... нижним чинам", а с 981 - уже "... солдатам".
----
Соврал - по 973 нижним чинам, а с 974 - солдатам.

Изменено пользователем Николай Чернухин (Энич)

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах


Нет ссылок на документ
3 Фокин Никита Кавказское наместничество, Кубанская обл., Майкопский отдел Нижегородская
Воинское звание: Казак
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 12.авг.14
Источник: «», стр.895
4 Харченко Пав. Дм. Кавказское наместничество, Кубанская обл., Майкопский отдел Нижегородской
Воинское звание: Пласт.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 06.11.1914
Источник: «», стр.11615

 


10 Пона Семен Троф. Степное генерал-губернаторство, Акмолинская обл., Акмолинский Никольская в.,с.Новгородс.
Воинское звание: Мл.у.-оф.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 14.нбр.14
Источник: «», стр.17378

 

Ивницын Як. Дм. Вологодская губ., Сольвычегодский Тимошин., д. Новгород.
Воинское звание: Новобр.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 08.02.1915
Источник: «», стр.18928
4 Ивницын Як. Дм. Вологодская губ., Сольвычегодскаго. Тимошин. д. Новгород.
Воинское звание: Новобр.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 8 фвр. 1915г.
Источник: «», стр.18928

 

Авдеев Евмен. Андр. Черниговская губ. Кобыжчской и мест.
Воинское звание: Ратн.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 20.03.1915
Источник: «», стр.21230
Авдеенок Роман Михайл. Черниговская губ. Котляковской
Воинское звание: Кан.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 29.08.1914
Источник: «», стр.1623

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

ссылка есть, но не активная
Абакумец Григ. Никол. Черниговская губ. Александров. и села
Воинское звание: Ефр.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 25.02.1915
Источник: «Именной список №2647 убитым, раненым и без вести пропавшим нижним чинам.», стр.42348
Абрамкин Влас Степ. Черниговская губ. Ивотской
Воинское звание: Рядов.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия: Убит
Дата выбытия: 10.10.1914
Источник: «Именной список №135 убитым, раненым и без вести пропавшим нижним чинам.», стр.2146

 

Авдееев Петр Ал-ев Черниговская губ. Бобровицкой
Воинское звание: Рядов.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия: Ранен
Дата выбытия: 27.09.1914
Источник: «Именной список №437 убитым, раненым и без вести пропавшим нижним чинам.», стр.6988
Авдеенко Кирил. Андр. Черниговская губ. Комаровской Клодовка
Воинское звание: Рядов.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия: Убит
Дата выбытия: 22.04.1915
Источник: «Именной список №2647 убитым, раненым и без вести пропавшим нижним чинам.», стр.42349
Авденков Як. Гавр. Черниговская губ. Лакомобудской
Воинское звание: Стрел.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия: Оставлен на поле сражения
Дата выбытия: 15.05.1915
Источник: «Именной список №2646 убитым, раненым и без вести пропавшим нижним чинам.», стр.42329

Поделиться этим сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или авторизуйтесь, чтобы оставить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

Создать аккаунт

Зарегистрировать новый аккаунт в нашем сообществе. Это несложно!

Зарегистрировать новый аккаунт

Войти

Есть аккаунт? Войти.

Войти

  • Недавно просматривали   0 пользователей

    Ни один зарегистрированный пользователь не просматривает эту страницу.

×

Важная информация

Пожалуйста, прочитайте Условия использования