Перейти к публикации

Беседка


Рекомендованные сообщения

Вот так мне видится новый шаблон, где учитываются максисимально все варианты, и колонки становятся максимально универсальными для разнородных документов, характерных под задачи проекта:
5bcfab3a3a280473d31ef156936fb934.jpg
---
Пропустил графу "Место выбытия или захоронения".

Ссылка на комментарий
Поделиться на других сайтах

...
P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.

 


Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо.

 

Про "звание отца" - это я, конечно, маху дал :). Но можно завести вторую строку с заполненными полями Ф, И и звание: "Струсевич, Осип, подполковник".

Ссылка на комментарий
Поделиться на других сайтах

...
База данных, куда мы в конце концов данные загрузим, фактически представляет из себя группу обычных таблиц. Поэтому всё, что мы набиваем, надо и набивать в таблицы. Т.е. очень нежелательно часть сведений завести в столбцы для этого предназначенные, а всё оставшееся скопом в столбец дополнительных сведений.
...

Графа "дополнительные сведения" нужна не столько для системы, а именно для волонтера - не каждый может сообразить, куда разместить часть информации, формально не подпадающую ни под одну графу.
Такие записи будут малочисленны, но они потом позволять сделать следующее:
-1) волонтер обработал информацию и прислал ее по адресу (мне ли или кому другому, как решим потом, назовем его условно приемщиком)
-2) информация поступила к приемщику, он начинает ее перепроверять (фактически все эти полтора года я этим и занимался).
-3) приемщик изучает информацию в графе "дополнительная информация" и вводит или переименовывает в присланную таблицу дополнительную графу или создает несколько граф, под понятие которых содержащаяся там информация подходит и разносит ее по ним.
-4) отправляет на размещение в БД.
Ссылка на комментарий
Поделиться на других сайтах

Вот так мне видится новый шаблон, где учитываются максисимально все варианты, и колонки становятся максимально универсальными для разнородных документов, характерных под задачи проекта:
5bcfab3a3a280473d31ef156936fb934.jpg
---
Пропустил графу "Место выбытия или захоронения".

 

Мне кажется, что универсальность шаблона в данном случае вредит. В том же разведчике, подозреваю, 90% записей - это только звание и ФИО, плюс причина смерти и страница.
Думаю, надо делать шаблон под каждый тип источника свой. Максимально компактный. А всё выходящее за пределы компактности оформлять, как написал ранее, во второй таблице.

Ссылка на комментарий
Поделиться на других сайтах

Вреда никакого - под каждого волонтера и под каждый новый источник не надо что-то создавать новое:
выслал единый шаблон - все ненужные графы волонтер удалил.
Поэтому должно быть еще и максимально понятное и универсальное оглавление каждой графы.
А в инструкции к шаблону об этом ему надо указать.
Мы говорим по разному - я о волонтерах, Денис о заливке в систему.

Ссылка на комментарий
Поделиться на других сайтах

...
База данных, куда мы в конце концов данные загрузим, фактически представляет из себя группу обычных таблиц. Поэтому всё, что мы набиваем, надо и набивать в таблицы. Т.е. очень нежелательно часть сведений завести в столбцы для этого предназначенные, а всё оставшееся скопом в столбец дополнительных сведений.
...

Графа "дополнительные сведения" нужна не столько для системы, а именно для волонтера - не каждый может сообразить, куда деть часть информации, формально не подпадающую ни под одну графу.
Такие записи будут малочисленны, но они потом позволять сделать следующее:
-1) волонтер обработал информацию и прислал ее по адресу (мне ли или кому другому, как решим потом, назовем его условно приемщиком)
-2) информация поступила к приемщику, он начинает ее перепроверять (фактически все эти полтора года я этим и занимался).
-3) приемщик изучает информацию в графе "дополнительная информация" и вводит или переименовывает в присланную таблицу дополнительную графу или создает несколько граф, под понятие которых содержащаяся там информация подходит и разносит ее по ним.
-4) отправляет на размещение в БД.
Ну, если "приёмщик" не против, тогда можно переложить эту работу с волонтёра на него ;)
Я просто хотел сакцентировать внимание, что разбиение информации по единицам, когда она свалена скопом в поле "Доп. данные" - это задача трудно алгоритмизируемая для компьютера. Тут, в общем, в самом широком, случае, только человек может справиться.

 


Поэтому, кстати, ещё раз хочу поднять вопрос про разделение Имени и Отчества (там, где волонтёр не понимает где первое, а где второе - всё бить в Имя).

Ссылка на комментарий
Поделиться на других сайтах

...

 


Мы говорим по разному - я о волонтерах, Денис о заливке в систему.


Неправда! Я тоже о волонтёрах! Но с огладкой на заливку... :)
Можно и так, как пишите Вы: шаблон содержит максимальное кол-во столбцов, а волонтёр, получив его, удаляет ему ненужные. Но это, формально, создание шаблона под тип источника. ;)
Ссылка на комментарий
Поделиться на других сайтах

И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.

Ссылка на комментарий
Поделиться на других сайтах

...

 


Мы говорим по разному - я о волонтерах, Денис о заливке в систему.


Неправда! Я тоже о волонтёрах! Но с огладкой на заливку... :)
Можно и так, как пишите Вы: шаблон содержит максимальное кол-во столбцов, а волонтёр, получив его, удаляет ему ненужные. Но это, формально, создание шаблона под тип источника. ;)

Вот каждый волонтер затем под каждый конкретный источник создаст на основе универсального свой шаблон, а мне или нам не надо будет под каждый конкретный случать придумывать что-то новое.
Получил волонтер шаблон, прочел инструкцию, максимально грамотно составленную, сравнил с тем, что у него в источнике для набивки - все лишние графы удалил и работает.
Мы ж это уже проходили в начале пути - столько было, как потом оказалось, ненужных вопросов.
А для системы, как я это понимаю - важно одно - в конкретной графе содержится конкретная однотипная информация, только этой графе присущая - и не более того.
Тогда всем и системе тоже будет понятно, что в графе "мера веса" должны быть килограммы, граммы, тонны и центнеры, а вот рублям, долларам, и прочим тугрикам там не место.
Ссылка на комментарий
Поделиться на других сайтах

И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.


Можно и так - на одном листе набил выпуск одного журнала, на следующем второй и т.д.
При этом надо тогда не забыть о наименовании листа, применительно к журналу как?
- либо весь файл озаглавить названием источника (Журнал такой-то) - тогда каждый лист файла поименовать номером выпуска, а в графах останется только номер страницы,
или
- файл называется "Потери", тогда каждый лист называется либо: Журнал такой то, выпуск номер такой-то, и тогда, как и в первом случае, остается только графа страницы, или просто журнал без указания номера, тогда остаются обе графы: № выпуска и № страницы.
Ссылка на комментарий
Поделиться на других сайтах

И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.

 

И в этом случае проще делить источники между волонтерами.

Ссылка на комментарий
Поделиться на других сайтах

И, ещё раз,...
Один файл - один источник! Информация об источнике - на отдельной странице.

 

Тем самым волонтёр избавляется от кучи дублирования. А, с точки зрения базы данных, информация об источнике хранится в отдельной таблице, так что мы ничего здесь не потеряем.


Можно и так - на одном листе набил выпуск одного журнала, на следующем второй и т.д.
При этом надо тогда не забыть о наименовании листа, применительно к журналу как?
- либо весь файл озаглавить названием источника (Журнал такой-то) - тогда каждый лист файла поименовать номером выпуска, а в графах останется только номер страницы,
или
- файл называется "Потери", тогда каждый лист называется либо: Журнал такой то, выпуск номер такой-то, и тогда, как и в первом случае, остается только графа страницы, или просто журнал без указания номера, тогда остаются обе графы: № выпуска и № страницы.

Поместить всю информацию об источнике в название файла или в название страницы - сложно. В отдельный столбец - это дублирование для всех записей. Поэтому я пока что не отказываюсь от предложенного правила "Один источник - один файл".
Причём не важно, как он (файл) будет называться. Вся инф-я об источнике указывается в самом файле на спец. странице со стандартизированными графами.
Ссылка на комментарий
Поделиться на других сайтах

Цитата(a-KaDeMi-k
"P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.
Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо."

 

Рассматривая этот пример (он не единичен, в источнике есть еще подобные). Создавая отдельную страницу и дробя текст на столбцы, мы теряем исходный текст, чтобы его сохранить надо на основной странице в столбце "Дополнительные данные" набрать текст полностью как в источнике.

Ссылка на комментарий
Поделиться на других сайтах

Цитата(a-KaDeMi-k
"P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.
Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо."

 

Рассматривая этот пример (он не единичен, в источнике есть еще подобные). Создавая отдельную страницу и дробя текст на столбцы, мы теряем исходный текст, чтобы его сохранить надо на основной странице в столбце "Дополнительные данные" набрать текст полностью как в источнике.


Конечно, есть системы, способные работать с неструктурированной информацией (да тот же интернет :)). Но мы преследуем задачу не только источник оцифровать, но и структурировать содержащиеся в нём данные, т.е. "разложить всё по полочкам": имя - сюда, дату - сюда и т.д.
Человек зайдёт в базу, найдёт по ИМЕНИ ссылку на источник и прочитает исходный текст, если ему надо.
Ссылка на комментарий
Поделиться на других сайтах

Цитата(a-KaDeMi-k
"P.S.: чтобы не плодить столбцы для дополнительных данных, которые для большинства записей будут не заполнены, предлагаю делать для таких людей отдельную страницу в файле.
Т.е., в привязке к "Разведчику"... На странице "Данные" оставляем столбцы: Звание, Фамилия, Имя Отчество, причина выбытия, страница. Но создаём новую страницу "Данные расш.(иренные)", куда заводим записи о людях, для которых указано что-то ещё, кроме перечисленного. На ней делаем дополнительно столбцы: место смерти, дата рождения, звание отца, место рождения, место учёбы, год выпуска и т.д. (на примере полковника Осипа Осиповича Струсевича). Столбцов будет много - практически биография, но таких записей очень мало.
При этом данные заносим либо в "Данные" либо в "Данные расш.") - дублировать не надо."

 

Рассматривая этот пример (он не единичен, в источнике есть еще подобные). Создавая отдельную страницу и дробя текст на столбцы, мы теряем исходный текст, чтобы его сохранить надо на основной странице в столбце "Дополнительные данные" набрать текст полностью как в источнике.


Конечно, есть системы, способные работать с неструктурированной информацией (да тот же интернет :)). Но мы преследуем задачу не только источник оцифровать, но и структурировать содержащиеся в нём данные, т.е. "разложить всё по полочкам": имя - сюда, дату - сюда и т.д.
Человек зайдёт в базу, найдёт по ИМЕНИ ссылку на источник и прочитает исходный текст, если ему надо.

Но это не должен делать волонтер - его работа поступает приемщику и тот перед размещением в бд оптимизирует ее.
Как пример, когда шли списки ко мне от волонтеров подряд, как набивались, без последующей сортировки по алфавиту - было все отлично и легко проверять, так как был понятен предмет проверки, но когда начали поступать списки отсортированные по алфавиту - начались конкретные ляпы.
Допустим, человек где-то нечаянно пропустил какую-либо запись в какой-нибудь графе - отследить ее стало или невозможно или методом перепроверки всех первоисточников, что отнимало уйму времени.
А когда набитые данные подряд не сортировались - ошибки находились при минимуме затрат времени.
Это я к тому, что лишние страницы с удобными может для системы сведениями в корне неудобны для и волонтера и для приемщика - нужно в голове постоянно держать лишние телодвижения.
Списки для заливки должны однозначно готовиться не волонтером, а приемщиком - такая схема работы показала себя с положительной стороны.
Если мы посмотрим на первые размещенные на сайте списки, когда система работы над списками только вырабатывалась - там бардак полнейший, и если смотреть на последние размещения, там ляпов стало намного меньше.
Волонтер не должен заморачиваться удобствами для системы, он должен думать только о набивке списков по максимально простой и полностью ему понятной предложенной схеме.
Приемщик - вот он должен, и будет это делать (не важно кто - я или по идее надо готовить специально для этих целей человека из среды наших участников).
Поэтому я против подобного рода оптимизаций на стадии набивки списков.

 

К тому же, не забываем - все эти новые списки сейчас вторичны - важно подготовить к поиску уже обработанные данные по сканам РГБ.
А с новыми по мере их готовности разберемся.

Ссылка на комментарий
Поделиться на других сайтах

Поэтому останавливаемся на данном этапе на таком виде шаблона.
Дальнейшие дискуссии на эту тему считаю преждевременными - они будут важны только для приемщика обработанных списков:
3532c94e8680bb68f0447370d4770c94.jpg

Ссылка на комментарий
Поделиться на других сайтах

Наверно, я совершенно не умею доносить свои мысли до людей :( Ладно... Отложу на время - пусть уляжется :)

 


Fine Reader у кого-нибудь есть? Пример скана "Разведчика" на первый взгляд выглядит подходящим, чтобы натравить программу на него...

Ссылка на комментарий
Поделиться на других сайтах

Наверно, я совершенно не умею доносить свои мысли до людей :( Ладно... Отложу на время - пусть уляжется :)
...

Денис, всё будет хорошо! Не заморачивайтесь - есть дела на данном этапе поважнее
Ссылка на комментарий
Поделиться на других сайтах

Наверно, я совершенно не умею доносить свои мысли до людей :( Ладно... Отложу на время - пусть уляжется :)
...

Денис, всё будет хорошо! Не заморачивайтесь - есть дела на данном этапе поважнее

 

:)

Ссылка на комментарий
Поделиться на других сайтах

Важная просьба ко всем, кто это читает

 

Я закончил подготовку к чистовой заливке данных в поисковую систему по спискам выбывших.
В связи с этим просьба каждому из вас сделать несколько поисковых запросов (кликните на эти слова для перехода на сайт) и посмотреть результаты поиска на предмет каких-либо ошибок в них.
По возможности сравните информацию из результатов поиска на предмет её совпадения с оригиналом по ссылке на источник в библиотеке РГБ (если источник там есть, текст в поле «Источник» является прямой ссылкой на страницу оригинала).

 

Чем больше людей сейчас протестирует систему тем меньше будет шансов. что что-то пойдёт не так.

 

Обо всех найденных ошибках (или подозрительных результатах поиска) прошу написать в техническую тему или тут.
Если серьёзных ошибок не найдём, через пару дней буду заливать данные начисто…

 

Известные на сейчас серьёзные ошибки:

  1. Часть записей (около 47 тыс.) имеет в поле «Источник» запись типа "«», стр.23430" — исправлено;

Ссылка на комментарий
Поделиться на других сайтах

В техническую тему написать не получится всем - ее видят только разработчики системы и члены СВРТ - другие ее не видят, а потому она им недоступна.
Ошибки и замечания надо делать тем, кто не видит технической (правильно - служебной) темы, здесь.

Ссылка на комментарий
Поделиться на других сайтах

Николай, напишите, пожалуйста, с какого номера и как меняется названия самих списков - Вы вчера упоминали.
Думаю, правильнее скорректировать их название и в самой базе, на ссылках.

Ссылка на комментарий
Поделиться на других сайтах

По 980 список идет "... нижним чинам", а с 981 - уже "... солдатам".
----
Соврал - по 973 нижним чинам, а с 974 - солдатам.

Изменено пользователем Николай Чернухин (Энич)
Ссылка на комментарий
Поделиться на других сайтах


Нет ссылок на документ
3 Фокин Никита Кавказское наместничество, Кубанская обл., Майкопский отдел Нижегородская
Воинское звание: Казак
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 12.авг.14
Источник: «», стр.895
4 Харченко Пав. Дм. Кавказское наместничество, Кубанская обл., Майкопский отдел Нижегородской
Воинское звание: Пласт.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 06.11.1914
Источник: «», стр.11615

 


10 Пона Семен Троф. Степное генерал-губернаторство, Акмолинская обл., Акмолинский Никольская в.,с.Новгородс.
Воинское звание: Мл.у.-оф.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 14.нбр.14
Источник: «», стр.17378

 

Ивницын Як. Дм. Вологодская губ., Сольвычегодский Тимошин., д. Новгород.
Воинское звание: Новобр.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 08.02.1915
Источник: «», стр.18928
4 Ивницын Як. Дм. Вологодская губ., Сольвычегодскаго. Тимошин. д. Новгород.
Воинское звание: Новобр.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 8 фвр. 1915г.
Источник: «», стр.18928

 

Авдеев Евмен. Андр. Черниговская губ. Кобыжчской и мест.
Воинское звание: Ратн.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 20.03.1915
Источник: «», стр.21230
Авдеенок Роман Михайл. Черниговская губ. Котляковской
Воинское звание: Кан.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия:
Дата выбытия: 29.08.1914
Источник: «», стр.1623

Ссылка на комментарий
Поделиться на других сайтах

ссылка есть, но не активная
Абакумец Григ. Никол. Черниговская губ. Александров. и села
Воинское звание: Ефр.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия:
Дата выбытия: 25.02.1915
Источник: «Именной список №2647 убитым, раненым и без вести пропавшим нижним чинам.», стр.42348
Абрамкин Влас Степ. Черниговская губ. Ивотской
Воинское звание: Рядов.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия: Убит
Дата выбытия: 10.10.1914
Источник: «Именной список №135 убитым, раненым и без вести пропавшим нижним чинам.», стр.2146

 

Авдееев Петр Ал-ев Черниговская губ. Бобровицкой
Воинское звание: Рядов.
Вероисповедание: Православное
Семейное положение: Женат
Причина выбытия: Ранен
Дата выбытия: 27.09.1914
Источник: «Именной список №437 убитым, раненым и без вести пропавшим нижним чинам.», стр.6988
Авдеенко Кирил. Андр. Черниговская губ. Комаровской Клодовка
Воинское звание: Рядов.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия: Убит
Дата выбытия: 22.04.1915
Источник: «Именной список №2647 убитым, раненым и без вести пропавшим нижним чинам.», стр.42349
Авденков Як. Гавр. Черниговская губ. Лакомобудской
Воинское звание: Стрел.
Вероисповедание: Православное
Семейное положение: Холост
Причина выбытия: Оставлен на поле сражения
Дата выбытия: 15.05.1915
Источник: «Именной список №2646 убитым, раненым и без вести пропавшим нижним чинам.», стр.42329

Ссылка на комментарий
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в теме...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

 Поделиться

  • Сейчас на странице   0 пользователей

    • Нет пользователей, просматривающих эту страницу.
×
×
  • Создать...

Важная информация

Пожалуйста, прочитайте Условия использования