37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
commodore RE:Письма 6 часов
Саша из Киева RE:Три минуты истории 1 день Aleks_Sim RE:Подайте бедному копеечку на книжку с литреса... 1 день [email protected] RE:Как бы с этим побороться и побороть? 1 неделя Саша из Киева RE:Книги на латышском языке 1 неделя stevecepera RE:Список современных французских писателей? 3 недели etorus2008 RE:Отв: Помогите найти книгу по описанию 1 месяц lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 месяц Wedmak RE:Помогите найти!.. #2 1 месяц sem14 RE:Координация сканирования и вычитки 1 месяц babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц Isais RE:Мои открытия 1 месяц kopak RE:О группе Дятлова. О той самой, того самого... 1 месяц A5. RE:Не присылает пароль на почту 1 месяц babajga RE:Плюмаж 2 месяца babajga RE:Блошкинс и Фрю. Опасное путешествие 2 месяца alexk RE:Багрепорт - 2 2 месяца babajga RE:Удивленная сова 2 месяца Впечатления о книгах
Sello про Джианелла: Меня зовут Грета. Голос, который вдохновил весь мир (Образовательная литература, Публицистика, Экология)
01 06 Настолько все обесценилось в наши дни, что порой оторопь берет. Наблюдается изменение климата? Несомненно. Негативные последствия этого явления имеют место? Конечно. Необходимы ли шаги по улучшению создавшегося положения. ……… Оценка: нечитаемо
Г.Гуслия про Эдуард Тен
01 06 Полное собрание современных российских штампов. Попаданец ГГ - конечно же ветеран спецназа, конечно же владеет любым холодным оружием так, что опытнейшие бойцы падают на пятой секунде боя, конечно же стреляет из карамультука ………
Олег Макаров. про Джианелла: Меня зовут Грета. Голос, который вдохновил весь мир (Образовательная литература, Публицистика, Экология)
31 05 Единственная причина, по которой эта книга имеет право на существование: свобода слова. В смысле, если есть люди, которым это нравится, они имеют право этим наслаждаться. (правда, тогда и любые другие книги не могут быть запрещены) Оценка: нечитаемо
pulochka про Джианелла: Меня зовут Грета. Голос, который вдохновил весь мир (Образовательная литература, Публицистика, Экология)
31 05 Кто такая Грета Тунберг? Тупая и больная на всю голову идиотка.Еще и рекламу этой мрази. создают. Оценка: нечитаемо
Belomor.canal про Иванов: Речфлот. История речного флота Российской империи и Советского Союза (История, Транспорт и авиация, История техники)
31 05 Это матчасть к Бронепараходам. Сам по себе очень интересный текст, ведь речфлот основа купеческой логистики и именно тут кипучая сметливая активность была явлена в чистом виде! Ещё раз интереснейшая сторона нашей Истории. Оценка: отлично!
Олег Макаров. про Адвокат
29 05 Адвокат вольного города Забавно: первая книга прямо совсем неплохо, а вторая - как будто левой задней ногой написано. третью не стал уже читать
Belomor.canal про Лимонов: История его слуги (Современная проза, Контркультура)
29 05 Лимонов Большой Писатель - последний из могикан! читаем и перечитываем! Оценка: отлично!
APN1968 про Три сапога - пара
28 05 Мне понравились первые две книги. Местами есть юмор, сюжет пока интересный. Буду читать дальше.
дядя_Андрей про Над Кубанью
28 05 Увы, но у автора нет мастерства Алексея Толстого, эпичности Михаила Шолохова, поэтики Андрея Губина, очарования Виктора Лихоносова и бесшабашности Артёма Весёлого. Как жаль.
mikebb про Лимонов: Москва майская (Современная проза)
28 05 Офигеть! Если не знать год написания, то это про сегодняшнюю ситуацию и споры прям из соцсетей. Как это ему удалось угадать или Эдуард уже тогда был свободным человеком и видел всю зашоренность левых и правых!? Оценка: отлично!
Igrina про Андрей Асковд (Чётокакто)
27 05 Я начала читать и прибежала, чтобы добавить тексту. Это ГЕНИАЛЬНО, давно так не смеялась! Спасибо! Оценка: ОТЛИЧНО
скунс про Понарошку: Путь одиночки. Книга 2 (Боевая фантастика, Боевик, ЛитРПГ, Самиздат, сетевая литература)
27 05 Читать интересно,жду продолжения Оценка: хорошо |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/