Перейти к контенту
.
                                                                                                                                                  

Работа над ошибками. Полнота ввода записей по страницам


Рекомендуемые сообщения

В нашем, пока что основном, источнике данных - Именных списках убитым, раненым и без вести пропавшим нижним чинам (солдатам) - каждая страница содержит приблизительно одно и то же кол-во записей. Примерное кол-во строк на обычной странице - 45. Их может быть несколько меньше из-за больших ФИО, печатавшихся на двух строчках, из-за "шапок" губерний и отступов на первой/последней страницах списков.

 

Всё это позволяет нам статистически выявить те из них, где по каким либо причинам нами были допущены ошибки при обработке.

 

Так, анализ даёт нам два максимума в кол-ве записей на страницу. Они равны 41 шт. (таких 1425 страниц) и 54 шт. (таких 1385 страниц). Записей от 25 до 54 штук есть не менее чем на 100 страницах. А вот дальше, думаю, идут страницы, вызывающие крайнее подозрение и требующие проверки.

 

Номера страниц, кол-во записей на которых менее 25 штук (указано в скобках) - таких 234:
40 (7); 48 (15); 89 (13); 250 (23); 736 (23); 970 (4); 1077 (12); 1137 (23); 1463 (1); 1863 (18); 1915 (24); 1919 (14); 1957 (1); 2144 (1); 2273 (24); 2854 (11); 2901 (23); 3243 (18); 3281 (1); 3291 (17); 5184 (23); 5390 (13); 5646 (3); 5729 (23); 5730 (22); 7186 (14); 7495 (12); 7648 (23); 8240 (20); 8592 (5); 8766 (8); 9702 (14); 10065 (21); 10151 (8); 10400 (1); 10417 (24); 10625 (20); 10950 (20); 10961 (23); 11009 (24); 11329 (24); 11408 (23); 11409 (19); 11520 (24); 11567 (24); 11584 (23); 11599 (17); 11803 (24); 11804 (9); 11873 (22); 12033 (21); 12104 (24); 12105 (23); 12107 (22); 12128 (23); 12224 (24); 12225 (20); 12337 (15); 12385 (24); 12417 (23); 12448 (22); 12465 (24); 12497 (24); 12529 (22); 12545 (18); 12561 (20); 12593 (20); 12626 (3); 12627 (2); 12672 (23); 12673 (22); 12945 (24); 13105 (24); 13137 (24); 13152 (23); 13184 (23); 13201 (24); 13217 (24); 13249 (23); 13265 (23); 13274 (18); 13328 (18); 13360 (17); 13361 (21); 13409 (23); 13424 (23); 13457 (19); 13633 (24); 13760 (22); 13809 (21); 13825 (20); 13904 (22); 13969 (19); 14005 (24); 14145 (20); 14161 (23); 14216 (9); 14224 (23); 14305 (24); 14321 (22); 14337 (23); 14349 (2); 14385 (19); 14577 (22); 14640 (24); 14785 (24); 14792 (24); 14801 (23); 14816 (24); 14849 (22); 15009 (24); 15153 (22); 15264 (24); 15297 (23); 15313 (22); 15352 (24); 15354 (1); 15408 (22); 15520 (21); 15633 (23); 15761 (20); 15771 (19); 15792 (22); 15809 (22); 15811 (24); 15851 (4); 15853 (9); 15952 (23); 15969 (24); 16001 (23); 16048 (24); 16064 (24); 16161 (24); 16224 (23); 16257 (24); 16432 (23); 16625 (24); 16657 (24); 16673 (24); 16737 (24); 16801 (22); 16816 (24); 16817 (23); 17009 (22); 17040 (24); 17057 (24); 17073 (23); 17138 (23); 17169 (21); 17201 (21); 17263 (1); 17296 (21); 17297 (20); 17313 (23); 17345 (21); 18433 (24); 18577 (24); 18624 (23); 18689 (20); 18705 (24); 18736 (24); 18785 (24); 18801 (18); 18832 (24); 18848 (22); 18849 (22); 18865 (23); 18892 (24); 18894 (22); 18897 (24); 18945 (24); 18976 (24); 19024 (24); 19076 (20); 19168 (23); 19216 (19); 19232 (20); 19245 (8); 19246 (16); 19248 (20); 19281 (23); 19296 (24); 19313 (22); 19377 (22); 19456 (23); 19487 (1); 19521 (23); 19552 (24); 19632 (21); 19633 (24); 19936 (24); 19952 (24); 19969 (23); 20080 (22); 20112 (18); 20144 (24); 20193 (24); 20241 (24); 20272 (15); 20273 (18); 20527 (24); 20528 (15); 20608 (13); 20609 (20); 20624 (24); 20625 (24); 20656 (23); 20672 (21); 20689 (24); 20704 (22); 20737 (22); 20785 (23); 20833 (22); 20912 (21); 21072 (23); 21089 (22); 21113 (24); 21152 (23); 21249 (24); 21361 (24); 21377 (24); 21489 (20); 21496 (2); 21499 (16); 21553 (24); 21584 (24); 21634 (19); 21680 (23); 21697 (24); 21865 (24); 21866 (24); 21872 (24); 41744 (22); 42976 (23)

 

Номера страниц, кол-во записей на которых более 54 штук - таких 243:
27 (70); 39 (103); 54 (74); 87 (75); 88 (56); 130 (59); 134 (58); 249 (56); 340 (55); 387 (55); 660 (55); 969 (88); 1076 (86); 1270 (60); 1721 (96); 1749 (78); 1801 (80); 1802 (60); 1862 (68); 1897 (55); 2332 (57); 2343 (72); 2380 (99); 2381 (84); 2382 (98); 2476 (104); 2478 (55); 2546 (55); 2586 (85); 2900 (76); 2946 (57); 2972 (63); 3035 (55); 3090 (76); 3442 (55); 3443 (55); 3623 (55); 3762 (55); 3763 (55); 3991 (91); 3992 (55); 4092 (55); 4351 (97); 4352 (90); 4663 (55); 4887 (58); 4895 (55); 5183 (72); 5389 (87); 5427 (55); 5429 (61); 5430 (65); 5431 (64); 5446 (97); 5561 (61); 5807 (56); 5962 (55); 5976 (57); 6574 (57); 6739 (55); 7121 (70); 7122 (106); 7123 (98); 7176 (91); 7180 (61); 7416 (55); 7434 (102); 7435 (86); 7534 (56); 7641 (55); 7647 (59); 8011 (55); 8239 (63); 8591 (90); 8753 (78); 9112 (78); 9158 (86); 9159 (102); 9160 (100); 9161 (106); 9162 (79); 9164 (95); 9165 (90); 9166 (80); 9167 (100); 9168 (100); 9238 (60); 9615 (86); 9701 (68); 9798 (59); 9892 (58); 9988 (55); 10150 (59); 10399 (65); 10565 (72); 10566 (86); 10567 (90); 10568 (88); 10569 (86); 10570 (84); 10571 (72); 10575 (72); 10576 (80); 10579 (58); 10580 (70); 10581 (82); 10582 (76); 10583 (74); 10584 (78); 10585 (72); 10586 (78); 10816 (77); 10824 (83); 10878 (66); 10949 (61); 10976 (59); 10977 (59); 10978 (67); 10979 (70); 11487 (72); 11566 (55); 11598 (61); 11802 (77); 12815 (70); 12816 (84); 12817 (68); 12818 (89); 12819 (94); 12820 (96); 12821 (79); 12942 (70); 12943 (78); 13070 (62); 13071 (72); 13076 (76); 13077 (74); 13078 (68); 13079 (66); 13080 (66); 13085 (67); 13086 (74); 13087 (80); 13118 (86); 13119 (90); 13120 (82); 13538 (60); 13837 (81); 13838 (79); 13839 (74); 13840 (55); 13851 (76); 13852 (84); 13853 (66); 13915 (76); 13916 (82); 13994 (66); 13995 (82); 13996 (64); 14004 (55); 14214 (84); 14559 (62); 15523 (85); 15681 (56); 15682 (80); 15683 (58); 15767 (82); 15770 (57); 15798 (58); 15799 (64); 16026 (84); 16238 (83); 16626 (79); 16627 (82); 16639 (64); 17623 (92); 17624 (67); 18443 (61); 18444 (80); 18445 (72); 18450 (78); 18451 (72); 18452 (80); 18462 (88); 18463 (84); 18470 (75); 18471 (76); 18472 (71); 18522 (76); 18598 (74); 18599 (66); 18600 (64); 18601 (68); 18613 (62); 18650 (64); 18651 (71); 18652 (76); 18653 (66); 18658 (80); 18659 (88); 18660 (88); 18663 (65); 18664 (79); 18665 (64); 18666 (72); 18667 (76); 18668 (64); 18674 (62); 18675 (81); 18676 (62); 18889 (65); 18926 (57); 18927 (88); 18939 (84); 18940 (76); 18941 (76); 18942 (80); 18943 (74); 19066 (88); 19067 (80); 19068 (76); 19069 (66); 19070 (88); 19071 (82); 19080 (74); 19081 (74); 19082 (86); 19083 (78); 19084 (80); 19085 (70); 19086 (64); 19492 (393); 19635 (57); 19638 (55); 20092 (78); 21225 (77); 21226 (77); 21227 (80); 21395 (73); 21396 (71); 21397 (77); 21398 (79); 21399 (55); 42892 (77)

 

Всех их надо заланировать на проверку!

 

И сразу первое наблюдение: бросаются в глаза соседние пары из верхней и нижней группы, например, 14004 и 14005. Т.е. тут явно оператор забыл вовремя исправить № страницы. Но т.к. данные у нас уже изначальную сортировку по источнику потеряли - придётся проверять все фамилии из обоих списков.

Ссылка на сообщение
Поделиться на других сайтах
Стр. 18462 исправлена - удалено 44 дубля всех записей

Это мне кажется, или и правда в итоге из базы исчезли все записи с неизвестными фамилиями («*»)?
Ссылка на сообщение
Поделиться на других сайтах

Я думал, это твои проделки.
Я, конечно, несколько исправил (см. здесь). Но это далеко не все!

 

Сейчас в базе:
93 записи - чистые звёздочки (вот они пропали из результатов поиска!)
105 - звёздочки с буквами
11 - с пустыми фамилиями (под правку!)
20 - (Безфамильный)

Ссылка на сообщение
Поделиться на других сайтах

Нет, я ничего не менял ни в базе, ни в программе.

 

Тем более, что мою позицию по этому вопросу я давно озвучивал — пусть лучше они глаза мозолят каждому, эти звёздочки, (тем более, что они всегда в хвосте списка) чем мы их спрячем, а потом люди не смогу найти нужного человека…

Ссылка на сообщение
Поделиться на других сайтах
...
Тем более, что мою позицию по этому вопросу я давно озвучивал — пусть лучше они глаза мозолят каждому, эти звёздочки, (тем более, что они всегда в хвосте списка) чем мы их спрячем, а потом люди не смогу найти нужного человека…

Всецело поддерживаю.
Даже бесфамильные кого-то могут навести на правильный путь в поиске.
Ссылка на сообщение
Поделиться на других сайтах
...
Нет, я ничего не менял ни в базе, ни в программе.
...

Странно... Не могли мои правки на результаты запросов повлиять... Может из-за включения расширенного поиска?

 

Надо запрос, конечно, смотреть.

Ссылка на сообщение
Поделиться на других сайтах

Не знаю, правильно ли выбрал тему, но столкнулся с таким моментом.
Набрал в поиске запрос Кейт*, получил на выдаче 2 ответа. Перехожу со второй фамилии по ссылке на именной список № 316, стр. 5045, а там дважды вставлена страница 5044. Причем, раз поисковик выдает ссылку, значит, страница 5045 существовала и была проиндексирована. А можно ее вернуть или это не в силах форума?

Ссылка на сообщение
Поделиться на других сайтах

Тема, конечно же, не та... Но я б тоже не догадался, куда писать :)

 

Подождём, когда сообщение прочитает Николай Чернухин. Он - руководитель проекта и, возможно, у него сохранился другой - первоначальный - вариант скана этой страницы.

 

Она - страница - действительно существовала, т.к. расширенный поиск сразу по двум упомянутым одновременно (стр. 5044+5045) не показывает дублированных записей.

Ссылка на сообщение
Поделиться на других сайтах

Скан списка 316 содержит дважды страницу 5044, после которой сразу же идёт страница 5046 - это не наша оплошность.
Причём данный дефект присутствует как на выложенных на РГБ сканах, так и сканах в онлайн библиотеке "ЦС".
ЦС, списки 301-400.
РГБ, списки 311-330.
Это говорит о том, что человек, загонявший сканы списка в онлайн библиотеки РГБ и ЦС, ошибочно вместо 5045 страницы вновь выставил предыдущую - как на РГБ обнаружат эту ошибку, так и поменяют страницу - мы самостоятельно это сделать не можем.

Ссылка на сообщение
Поделиться на других сайтах

В дополнение могу пояснить, что мы занимались не только набивкой существующих сканов, но нам многие активно помогали, непосредственно не участвуя в набивке, но работая на другие проекты по другим источникам, и присылали нам итог работы для нашего проекта, но не всегда делились сканами этих источников или мы их по какой-то причине не сохранили.
А посему на данный момент страница 5045 в БД недоступна.
У меня в папке 316 список по Екатеринославской губернии сохранён как полученный от Андрея Горбоносова, есть от него и много много сканов страниц от 1532-й до 11636-й и отдельно 43007-й страницы, но именно по 316 списку сканы стр. 5045 у меня не сохранены - может не прислал, а может я не оставил, посчитав, что на РГБ этот список присутствует полностью, точно уже и не помню.
Давно это было - 17.05.2013 года.
Вот сканы с присланного тогда файла:
3e8d69b0056e0e635aadd94f619059d0.jpg 2d202b6717d4830f3c4df969c8b31e18.jpg dededeb0b15d5a70e76c93154da9ea1a.jpg

 

7ff00f2d8ff5fcc08d675bc9a931eb51.jpg 051ea98ac100dafb1b49c215c4a672c2.jpg 5a2bcba9028b0a4b5308e580bdd547c9.jpg

 

84bd3affd04676c6201b3e4f8caa192b.jpg

Ссылка на сообщение
Поделиться на других сайтах

Конечно же спрошу, вдруг у него страница сохранилась.
Но скан этой страницы точно есть у Бориса Васильевича, попрошу и его.

Ссылка на сообщение
Поделиться на других сайтах
...
Но скан этой страницы точно есть у Бориса Васильевича, попрошу и его.

Ура, Борис Васильевич великодушно поделился данной страницей (5045 из 316-го списка)!
Мы её разместим в Библиотеке проекта.
Вот, собственно, сам скан этой страницы:
b8ba558d92619798000b2a891318451e.jpg
Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в этой теме...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

  • Недавно просматривали   0 пользователей

    Ни один зарегистрированный пользователь не просматривает эту страницу.

×
×
  • Создать...

Важная информация

Пожалуйста, прочитайте Условия использования