Перейти к публикации

Работа над ошибками. Полнота ввода записей по страницам


a-KaDeMi-k
 Поделиться

Рекомендованные сообщения

В нашем, пока что основном, источнике данных - Именных списках убитым, раненым и без вести пропавшим нижним чинам (солдатам) - каждая страница содержит приблизительно одно и то же кол-во записей. Примерное кол-во строк на обычной странице - 45. Их может быть несколько меньше из-за больших ФИО, печатавшихся на двух строчках, из-за "шапок" губерний и отступов на первой/последней страницах списков.

 

Всё это позволяет нам статистически выявить те из них, где по каким либо причинам нами были допущены ошибки при обработке.

 

Так, анализ даёт нам два максимума в кол-ве записей на страницу. Они равны 41 шт. (таких 1425 страниц) и 54 шт. (таких 1385 страниц). Записей от 25 до 54 штук есть не менее чем на 100 страницах. А вот дальше, думаю, идут страницы, вызывающие крайнее подозрение и требующие проверки.

 

Номера страниц, кол-во записей на которых менее 25 штук (указано в скобках) - таких 234:
40 (7); 48 (15); 89 (13); 250 (23); 736 (23); 970 (4); 1077 (12); 1137 (23); 1463 (1); 1863 (18); 1915 (24); 1919 (14); 1957 (1); 2144 (1); 2273 (24); 2854 (11); 2901 (23); 3243 (18); 3281 (1); 3291 (17); 5184 (23); 5390 (13); 5646 (3); 5729 (23); 5730 (22); 7186 (14); 7495 (12); 7648 (23); 8240 (20); 8592 (5); 8766 (8); 9702 (14); 10065 (21); 10151 (8); 10400 (1); 10417 (24); 10625 (20); 10950 (20); 10961 (23); 11009 (24); 11329 (24); 11408 (23); 11409 (19); 11520 (24); 11567 (24); 11584 (23); 11599 (17); 11803 (24); 11804 (9); 11873 (22); 12033 (21); 12104 (24); 12105 (23); 12107 (22); 12128 (23); 12224 (24); 12225 (20); 12337 (15); 12385 (24); 12417 (23); 12448 (22); 12465 (24); 12497 (24); 12529 (22); 12545 (18); 12561 (20); 12593 (20); 12626 (3); 12627 (2); 12672 (23); 12673 (22); 12945 (24); 13105 (24); 13137 (24); 13152 (23); 13184 (23); 13201 (24); 13217 (24); 13249 (23); 13265 (23); 13274 (18); 13328 (18); 13360 (17); 13361 (21); 13409 (23); 13424 (23); 13457 (19); 13633 (24); 13760 (22); 13809 (21); 13825 (20); 13904 (22); 13969 (19); 14005 (24); 14145 (20); 14161 (23); 14216 (9); 14224 (23); 14305 (24); 14321 (22); 14337 (23); 14349 (2); 14385 (19); 14577 (22); 14640 (24); 14785 (24); 14792 (24); 14801 (23); 14816 (24); 14849 (22); 15009 (24); 15153 (22); 15264 (24); 15297 (23); 15313 (22); 15352 (24); 15354 (1); 15408 (22); 15520 (21); 15633 (23); 15761 (20); 15771 (19); 15792 (22); 15809 (22); 15811 (24); 15851 (4); 15853 (9); 15952 (23); 15969 (24); 16001 (23); 16048 (24); 16064 (24); 16161 (24); 16224 (23); 16257 (24); 16432 (23); 16625 (24); 16657 (24); 16673 (24); 16737 (24); 16801 (22); 16816 (24); 16817 (23); 17009 (22); 17040 (24); 17057 (24); 17073 (23); 17138 (23); 17169 (21); 17201 (21); 17263 (1); 17296 (21); 17297 (20); 17313 (23); 17345 (21); 18433 (24); 18577 (24); 18624 (23); 18689 (20); 18705 (24); 18736 (24); 18785 (24); 18801 (18); 18832 (24); 18848 (22); 18849 (22); 18865 (23); 18892 (24); 18894 (22); 18897 (24); 18945 (24); 18976 (24); 19024 (24); 19076 (20); 19168 (23); 19216 (19); 19232 (20); 19245 (8); 19246 (16); 19248 (20); 19281 (23); 19296 (24); 19313 (22); 19377 (22); 19456 (23); 19487 (1); 19521 (23); 19552 (24); 19632 (21); 19633 (24); 19936 (24); 19952 (24); 19969 (23); 20080 (22); 20112 (18); 20144 (24); 20193 (24); 20241 (24); 20272 (15); 20273 (18); 20527 (24); 20528 (15); 20608 (13); 20609 (20); 20624 (24); 20625 (24); 20656 (23); 20672 (21); 20689 (24); 20704 (22); 20737 (22); 20785 (23); 20833 (22); 20912 (21); 21072 (23); 21089 (22); 21113 (24); 21152 (23); 21249 (24); 21361 (24); 21377 (24); 21489 (20); 21496 (2); 21499 (16); 21553 (24); 21584 (24); 21634 (19); 21680 (23); 21697 (24); 21865 (24); 21866 (24); 21872 (24); 41744 (22); 42976 (23)

 

Номера страниц, кол-во записей на которых более 54 штук - таких 243:
27 (70); 39 (103); 54 (74); 87 (75); 88 (56); 130 (59); 134 (58); 249 (56); 340 (55); 387 (55); 660 (55); 969 (88); 1076 (86); 1270 (60); 1721 (96); 1749 (78); 1801 (80); 1802 (60); 1862 (68); 1897 (55); 2332 (57); 2343 (72); 2380 (99); 2381 (84); 2382 (98); 2476 (104); 2478 (55); 2546 (55); 2586 (85); 2900 (76); 2946 (57); 2972 (63); 3035 (55); 3090 (76); 3442 (55); 3443 (55); 3623 (55); 3762 (55); 3763 (55); 3991 (91); 3992 (55); 4092 (55); 4351 (97); 4352 (90); 4663 (55); 4887 (58); 4895 (55); 5183 (72); 5389 (87); 5427 (55); 5429 (61); 5430 (65); 5431 (64); 5446 (97); 5561 (61); 5807 (56); 5962 (55); 5976 (57); 6574 (57); 6739 (55); 7121 (70); 7122 (106); 7123 (98); 7176 (91); 7180 (61); 7416 (55); 7434 (102); 7435 (86); 7534 (56); 7641 (55); 7647 (59); 8011 (55); 8239 (63); 8591 (90); 8753 (78); 9112 (78); 9158 (86); 9159 (102); 9160 (100); 9161 (106); 9162 (79); 9164 (95); 9165 (90); 9166 (80); 9167 (100); 9168 (100); 9238 (60); 9615 (86); 9701 (68); 9798 (59); 9892 (58); 9988 (55); 10150 (59); 10399 (65); 10565 (72); 10566 (86); 10567 (90); 10568 (88); 10569 (86); 10570 (84); 10571 (72); 10575 (72); 10576 (80); 10579 (58); 10580 (70); 10581 (82); 10582 (76); 10583 (74); 10584 (78); 10585 (72); 10586 (78); 10816 (77); 10824 (83); 10878 (66); 10949 (61); 10976 (59); 10977 (59); 10978 (67); 10979 (70); 11487 (72); 11566 (55); 11598 (61); 11802 (77); 12815 (70); 12816 (84); 12817 (68); 12818 (89); 12819 (94); 12820 (96); 12821 (79); 12942 (70); 12943 (78); 13070 (62); 13071 (72); 13076 (76); 13077 (74); 13078 (68); 13079 (66); 13080 (66); 13085 (67); 13086 (74); 13087 (80); 13118 (86); 13119 (90); 13120 (82); 13538 (60); 13837 (81); 13838 (79); 13839 (74); 13840 (55); 13851 (76); 13852 (84); 13853 (66); 13915 (76); 13916 (82); 13994 (66); 13995 (82); 13996 (64); 14004 (55); 14214 (84); 14559 (62); 15523 (85); 15681 (56); 15682 (80); 15683 (58); 15767 (82); 15770 (57); 15798 (58); 15799 (64); 16026 (84); 16238 (83); 16626 (79); 16627 (82); 16639 (64); 17623 (92); 17624 (67); 18443 (61); 18444 (80); 18445 (72); 18450 (78); 18451 (72); 18452 (80); 18462 (88); 18463 (84); 18470 (75); 18471 (76); 18472 (71); 18522 (76); 18598 (74); 18599 (66); 18600 (64); 18601 (68); 18613 (62); 18650 (64); 18651 (71); 18652 (76); 18653 (66); 18658 (80); 18659 (88); 18660 (88); 18663 (65); 18664 (79); 18665 (64); 18666 (72); 18667 (76); 18668 (64); 18674 (62); 18675 (81); 18676 (62); 18889 (65); 18926 (57); 18927 (88); 18939 (84); 18940 (76); 18941 (76); 18942 (80); 18943 (74); 19066 (88); 19067 (80); 19068 (76); 19069 (66); 19070 (88); 19071 (82); 19080 (74); 19081 (74); 19082 (86); 19083 (78); 19084 (80); 19085 (70); 19086 (64); 19492 (393); 19635 (57); 19638 (55); 20092 (78); 21225 (77); 21226 (77); 21227 (80); 21395 (73); 21396 (71); 21397 (77); 21398 (79); 21399 (55); 42892 (77)

 

Всех их надо заланировать на проверку!

 

И сразу первое наблюдение: бросаются в глаза соседние пары из верхней и нижней группы, например, 14004 и 14005. Т.е. тут явно оператор забыл вовремя исправить № страницы. Но т.к. данные у нас уже изначальную сортировку по источнику потеряли - придётся проверять все фамилии из обоих списков.

Ссылка на комментарий
Поделиться на других сайтах

Стр. 18462 исправлена - удалено 44 дубля всех записей

Это мне кажется, или и правда в итоге из базы исчезли все записи с неизвестными фамилиями («*»)?
Ссылка на комментарий
Поделиться на других сайтах

Я думал, это твои проделки.
Я, конечно, несколько исправил (см. здесь). Но это далеко не все!

 

Сейчас в базе:
93 записи - чистые звёздочки (вот они пропали из результатов поиска!)
105 - звёздочки с буквами
11 - с пустыми фамилиями (под правку!)
20 - (Безфамильный)

Ссылка на комментарий
Поделиться на других сайтах

Нет, я ничего не менял ни в базе, ни в программе.

 

Тем более, что мою позицию по этому вопросу я давно озвучивал — пусть лучше они глаза мозолят каждому, эти звёздочки, (тем более, что они всегда в хвосте списка) чем мы их спрячем, а потом люди не смогу найти нужного человека…

Ссылка на комментарий
Поделиться на других сайтах

...
Тем более, что мою позицию по этому вопросу я давно озвучивал — пусть лучше они глаза мозолят каждому, эти звёздочки, (тем более, что они всегда в хвосте списка) чем мы их спрячем, а потом люди не смогу найти нужного человека…

Всецело поддерживаю.
Даже бесфамильные кого-то могут навести на правильный путь в поиске.
Ссылка на комментарий
Поделиться на других сайтах

...
Нет, я ничего не менял ни в базе, ни в программе.
...

Странно... Не могли мои правки на результаты запросов повлиять... Может из-за включения расширенного поиска?

 

Надо запрос, конечно, смотреть.

Ссылка на комментарий
Поделиться на других сайтах

Не знаю, правильно ли выбрал тему, но столкнулся с таким моментом.
Набрал в поиске запрос Кейт*, получил на выдаче 2 ответа. Перехожу со второй фамилии по ссылке на именной список № 316, стр. 5045, а там дважды вставлена страница 5044. Причем, раз поисковик выдает ссылку, значит, страница 5045 существовала и была проиндексирована. А можно ее вернуть или это не в силах форума?

Ссылка на комментарий
Поделиться на других сайтах

Тема, конечно же, не та... Но я б тоже не догадался, куда писать :)

 

Подождём, когда сообщение прочитает Николай Чернухин. Он - руководитель проекта и, возможно, у него сохранился другой - первоначальный - вариант скана этой страницы.

 

Она - страница - действительно существовала, т.к. расширенный поиск сразу по двум упомянутым одновременно (стр. 5044+5045) не показывает дублированных записей.

Ссылка на комментарий
Поделиться на других сайтах

Скан списка 316 содержит дважды страницу 5044, после которой сразу же идёт страница 5046 - это не наша оплошность.
Причём данный дефект присутствует как на выложенных на РГБ сканах, так и сканах в онлайн библиотеке "ЦС".
ЦС, списки 301-400.
РГБ, списки 311-330.
Это говорит о том, что человек, загонявший сканы списка в онлайн библиотеки РГБ и ЦС, ошибочно вместо 5045 страницы вновь выставил предыдущую - как на РГБ обнаружат эту ошибку, так и поменяют страницу - мы самостоятельно это сделать не можем.

Ссылка на комментарий
Поделиться на других сайтах

В дополнение могу пояснить, что мы занимались не только набивкой существующих сканов, но нам многие активно помогали, непосредственно не участвуя в набивке, но работая на другие проекты по другим источникам, и присылали нам итог работы для нашего проекта, но не всегда делились сканами этих источников или мы их по какой-то причине не сохранили.
А посему на данный момент страница 5045 в БД недоступна.
У меня в папке 316 список по Екатеринославской губернии сохранён как полученный от Андрея Горбоносова, есть от него и много много сканов страниц от 1532-й до 11636-й и отдельно 43007-й страницы, но именно по 316 списку сканы стр. 5045 у меня не сохранены - может не прислал, а может я не оставил, посчитав, что на РГБ этот список присутствует полностью, точно уже и не помню.
Давно это было - 17.05.2013 года.
Вот сканы с присланного тогда файла:
3e8d69b0056e0e635aadd94f619059d0.jpg 2d202b6717d4830f3c4df969c8b31e18.jpg dededeb0b15d5a70e76c93154da9ea1a.jpg

 

7ff00f2d8ff5fcc08d675bc9a931eb51.jpg 051ea98ac100dafb1b49c215c4a672c2.jpg 5a2bcba9028b0a4b5308e580bdd547c9.jpg

 

84bd3affd04676c6201b3e4f8caa192b.jpg

Ссылка на комментарий
Поделиться на других сайтах

Конечно же спрошу, вдруг у него страница сохранилась.
Но скан этой страницы точно есть у Бориса Васильевича, попрошу и его.

Ссылка на комментарий
Поделиться на других сайтах

...
Но скан этой страницы точно есть у Бориса Васильевича, попрошу и его.

Ура, Борис Васильевич великодушно поделился данной страницей (5045 из 316-го списка)!
Мы её разместим в Библиотеке проекта.
Вот, собственно, сам скан этой страницы:
b8ba558d92619798000b2a891318451e.jpg
Ссылка на комментарий
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в теме...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

 Поделиться

  • Сейчас на странице   0 пользователей

    • Нет пользователей, просматривающих эту страницу.
×
×
  • Создать...

Важная информация

Пожалуйста, прочитайте Условия использования