Как искать и анализировать документы? Document OSINT

Привет, друг. Поиск и анализ документов это одно из направлений в осинте (Document OSINT), про которое некоторые забывают, а некоторые, не заслужено игнорируют. А на самом деле, при умелом, или просто скрупулёзном подходе, поискав всякие документики, можно найти немало интересной информации. Это работает, хотя бы потому, что документы, как правило, содержат вполне конкретную информацию. Например фамилии, адреса, названия организаций, финансовую информацию, ни и так далее в том же русле. Потому, в этой статье, разберёмся с вопросом поиска документов более детально.

Как искать и анализировать документы. Document OSINT

С чего начать?

Поиск документов, т.е. сам процесс, можно разделить на два вида. Это поиск по ключевым словам, и поиск по наличию документа. Хотя это очень условное разделение и нужно оно скорее для упрощения изучения процесса и формирования нужного способа мышления.

Поиск по ключевым словам, подразумевает что мы приблизительно понимаем с каким содержимым нам нужен документ. Например, если мы ищем информацию о человеке, зная его фамилию, то мы можем поискать списки учеников ВУЗа или школы, или, как вариант, участников каких-то олимпиад. Что то, что другое, часто публикуют на сайтах учебных заведений. Найдя подобный документ мы автоматически получим объём дополнительной информации. Начиная от города где человек жил или живёт, заканчивая списком людей с которыми объект предположительно может контактировать.

Тоже самое при изучении какой-нибудь фирмы, по названию или по регистрационному номеру. В открытом доступе вполне может оказать какая-то отчётность или другие документы по нужной организации. Что, вполне, может дать нам целую кучу дополнительной информации.

Второй вариант «поиск по наличию«. В этом случае мы точно не знаем какой документ и с каким содержимым мы ищем. Но, подразумеваем, что вполне может существовать документ в котором будет какая-то интересная информация. Например, мы изучаем какой-то сайт на предмет деанона его владельца. В этой ситуации вполне имеет смысл собрать документы с этого сайта, если они там есть конечно же, и изучить содержимое и метаданные. А вдруг найдётся что-то нужное.

Документы и их форматы

Раз мы тут говорим про документы, для начала нужно определится какие именно документы мы будем искать т.е. какие именно форматы нам нужны. Потому давай пройдёмся по наиболее актуальным расширениям в данной ситуации:

Форматы Microsoft Office:
doc, docx — формат документов Microsoft Word. И хотя doc это устаревший вариант, но документы с таким расширением до сих пор попадаются достаточно часто, потому забывать о них не стоит.
xls, xlsx — формат таблиц Microsoft Excel. Точно так же xls это устаревший вариант, но забывать о нём нельзя.
ppt, pptx — формат презентаций Microsoft PowerPoint.

Форматы OpenDocument:
odt — формат документов;
ods — таблицы;
odp — презентации;

pdf — межплатформенный открытый формат электронных документов. В дополнительном представлении не нуждается. Используется часто и густо. Проверять наличие pdf нужно всегда.

txt — не самая распространённая история, но иногда случается находить полезную информацию, потому проверять стоит.

Это конечно далеко не полный перечень существующих расширений документов. Но это те, наличие которых нужно проверять всегда. Все остальные это очень ситуативная история. Посмотреть все существующие расширения документов можно по ссылке:

https://www.file-extensions.org/filetype/extension/name/document-files

Ещё один важный момент, который нужно учитывать при поиске документов, это то что они не всегда хранятся в текстовых форматах. Часто бывают случаи что нужные документы хранятся в виде изображений. А, соответственно, найти их по содержимому не получится. Причем бывают случаи, что их в таком виде размещают специально, как раз для того чтоб затруднить процесс поиска.

Ну, а теперь переходим непосредственно к способам поиска документов. Сначала мы рассмотрим способы поиска документов, а потому разберём некоторые нюансы работы с уже найденными документами.

Гугл дорки (Google Dorks) для поиска документов

Один из самых простых способов поиска документов это использование гугл дорков. Самый главный плюс этого способа это простота и универсальность. Тебе не нужен никакой дополнительный софт, а чтобы разобраться как это работает нужно потратить пять минут, даже если ты никогда раньше этого не делал.

Основной дорк, который мы будем использовать в этой ситуации, это filetype:. При этом результаты его работы мы будем корректировать некоторыми дополнительными дорками. Смысл filetype в том, что бы искать файлы имеющие нужное нам расширение. Таким способом, конечно же, можно искать вообще любые файлы, но раз мы тут говорим про поиск документов, то и использовать мы будем соответствующие расширения, те что перечислил выше.

Самый простой вариант это написать filetype:docx (или любое нужное расширение) а затем указать нужный запрос. Например:

filetype:docx "Иванов Иван Иванович"

Кавычки в этой ситуации мы использовали для поиска по полному совпадению т.е. гугл будет искать именно ту фразу которую мы взяли в кавыки. Но это слишком обобщённый вариант поиска и если запрос распространённый (как в нашем примере) то и результатов покажет огромное количество. А потому запрос нужно уточнять.

filetype:docx "Иванов Иван Иванович" site:*.gov.ru
google dorks

Здесь мы уточнили запрос, использовав ещё один дорк site:. В таком варианте мы попросили гугл найти документы в которых есть фраза «Иванов Иван Иванович», с расширением docx, при этом искать нужно только на сайтах имеющих домен gov.ru. При этом символ * означает «любое значение». Но, если есть необходимость, можно указать конкретный сайт. Либо можно добавить перед site: символ — (минус) и тогда гугл уберет из выдачи результаты найденные именно на этом сайте. Также символ звёздочка (*) можно использовать в самом запросе, если неизвестна точная формулировка. Например если ты не знаешь какая правильная буква в какой-то замороченной фамилии или названии.

Также иногда может быть полезно ограничить диапазон дат для поиска, это делается с помощью дорка «..»,

2020..2022

Программы для поиска документов

Гугл дорки хороши когда мы хотя бы приблизительно знаем что ищем. Но если, например, нам нужно скачать все документы с какого-то сайта, то делать это в ручную не очень удобно и очень не быстро. Для таких целей есть полезные утилиты которые сделают всё за нас.

Metagoofil

На мой взгляд, лучше всех с выкачкой файлов справляется Metagoofil. Она выкачает все нужные файлы, а на основании найденных метаданных сделает развёрнутый отчёт. По Metagoofil есть отдельная статья где я разобрал как ей пользоваться и что можно найти. Пересказывать смысла не вижу, кому нужно может перейти и почитать. А мы разберем дополнительные варианты.

Dork Dump

Ещё одна не менее полезная утилита это Dork Dump. Она очень хорошо подходит если нужно проверить на наличие документов какой-то небольшой сайт т.к. она показывает метаданные найденных документов прямо в терминале и не нужно ждать окончания работы.

Установка Dork Dump:

git clone https://github.com/dievus/msdorkdump.git
cd msdorkdump
pip3 install -r requirements.txt

После установки, чтобы запустить указываем параметр -d чтобы найденные документы скачивались. В каталоге с программой будет создана папка с названием сайта и все документы будут сохранены туда. Также после параметра -t указываем интересующий нас сайт.

Пример:

python3 msdorkdump.py -d -t gijn.org
dork dump

Сайты для поиска документов

Гугл дорков и перечисленных утилит в большинстве случаев достаточно для качественного поиска документов. Но мой рассказ был бы не полным если бы я не упомянул поисковые сайты. Ну и, возможно, кому-то так удобнее. Сайтов подобной тематики существует довольно много. Потому покажу только те которые мне кажутся наиболее толковыми.

https://intelx.io/tools?tab=file

как искать документы

Это ресурс для тех кому лень писать дорки руками. Вписываешь поисковый запрос, выбираешь нужные расширения и получаешь результаты гугления по нужному запросу.

https://cartographia.github.io/FilePhish/

как искать документы

Тоже самое, как и предыдущий только применяет дорки к введённому сайту.

https://find-pdf-form.pdffiller.com/

как искать документы

Этот сайт ищет pdf файлы по заданому запросу. Но основная его фишка в том, что найденный документ можно сразу открыть в удобном онлайн редакторе. В нём есть поиск, возможность делать отметки, выделять текст разными цветами, рисовать на документе, ну и другие подобные полезные фишки.

Ну и ещё несколько полезных сайтов для поиска файлов которые могут пригодится:

https://www.dedigger.com/ — ищет общедоступные файлы на Google Дисках. Можно выбрать интересующие расширение.

https://www.pdfsearchengine.net/ — используя Google CSE (система пользовательского поиска) ищет pdf файлы. Полезная особенность в том что в списке результатов можно нажать «Структурированные данные» и посмотреть подробную информацию о найденном документе.

https://www.searchftps.net/ — ищет файлы на ftp-серверах. Найденные результаты сразу можно скачивать.

Извлечение и обработка данных

Предположим нужные документы мы нашли. И очень хорошо если это одна страничка с нужной нам информацией. Но так бывает не всегда. Я бы даже сказал что почти всегда бывает не так. В полученном документе могут быть сотни страниц с кучей лишних данных. И всё это нужно обработать, выбрать нужное, потом ещё раз обработать с учётом уже полученных данных. Конечно же ctrl+F никто не отменял. Но это нормальный вариант когда нужно что-то найти по быстрому, и желательно в хорошо структурированном документе. Но для работы с большими документами ctrl+F не самое лучшее решение. А если тебе в руки попала скан-копия документа или просто фото то вообще ничего не получится. Также часто данные публикуются в, мягко говоря, не самом удобочитаемом виде. Почему так я не знаю, то ли админ наркоман, то ли специально чтоб усложнить поиск.

Потому разберём всякие полезные штуки и утилиты которые могут пригодится при работе с документами.

Google Pinpoint

https://journaliststudio.google.com/pinpoint/

Это довольно простая, но крайне полезная приблуда от гугла для работы с документами и их содержимым. Особенно она полезна с объёмными документами или когда их много. Процесс использования прост и не замысловат, а от того, крайне эффективен. Для начала нужно создать новое рабочее пространство и добавит туда все нужные документы. Когда загрузка и обработка закончатся, можно начинать процесс изучения. Рассмотрим основные возможности.

  • Загрузка файлов. Pinpoint практически всеяден в плане форматов. Можно загружать pdf, изображения, офисные форматы, веб-страницы, текстовые документы, аудио и видеофайлы. Если файл большой, он будет разделён на несколько частей.
  • Распознавание. Если мы загрузили изображение, на котором есть текст, то этот текст будет распознан. Точно также если в загруженном документе есть изображения, то Pinpoint его тоже распознает. А когда мы будем что-то искать, то поиск будет осуществляется в том числе и по распознанным элементам. Тут ещё нужно отметить что он распознает вообще любой текст на фото, даже если это например вывеска или надпись на стене. Эту фишку можно использовать как отдельный инструмент. Например загрузить кучу фотографий и искать совпадения по названиям, чтобы найти где на фотографиях одни и те же или похожие места.
  • Если мы загрузим аудио файл, то звук будет преобразован в текст, по которому тоже можно искать, а также его можно отдельно скачать. В случае загрузки видео, в рабочем пространстве тоже будет создана его текстовая версия.
Google Pinpoint
  • В верхней части окна расположена панель поиска. Если искать через неё, то поиск осуществляется по всем загруженным файлам. Тут есть ещё одна приятная особенность. Pinpoint знает что такое аббревиатуры и умеет их расшифровывать. Например, если мы впишем в окно поиска «osint» то искать будет в том числе фразу «open source intelligence». Ещё у него иногда получается находить синонимы запрошенного слова.
Google Pinpoint
  • Если мы откроем какой-то конкретный документы то сможем искать уже по его содержимому. Причем любой найденный текст, в том числе распознанный на фото, можно выделить цветом, скопировать или создать отдельную ссылку именно на этот текст.

Дополнительные инструменты для анализа документов

https://diffnow.com/compare-clips

Позволяет построчно сравнить два текста для определения отличий. Штука очень ситуативная, но иногда может пригодится. Также можно сравнить файлы или сайты.

как анализировать документы

https://voyant-tools.org/

Сайт для словарного анализа текста. Можно загрузить документ, а можно просто добавить ссылку. В результате мы увидим общую сводку по частоте использования слов и фраз в изучаемом тексте. Также можно в самом тексте выбрать любое слово и посмотреть как часто и где в других местах оно упоминается. Эта штука тоже очень ситуативная, но иногда может быть полезна при изучении больших текстов.

как анализировать документы

https://online.sodapdf.com/

Это онлайн редактор pdf, со встроенным конвертером в разные форматы. Также можно искать по документу, сравнивать два документа, делать отметки на тексте, выделять фрагменты ну и так далее. Короче для любителей онлайн инструментов самое то.

Как вывод, про документы и работу с ними

Ну, а на этом можно заканчивать. Потому как, разобравшись с перечисленными инструментами можно комфортно искать нужные документы и получать из них интересующую информацию. По поводу информации, наверное, нужно добавить пару слов. То, что ты нашёл какой-то документ это хорошо. Но этот документ ещё нужно правильно изучить и выбрать из него ту информацию которая нужна уже сейчас и ту которая может пригодится в будущем. А этот скилл нарабатывается только на практике.

Так, например, изучая документ, хорошей привычкой будет обращать внимание и выписывать то, что принято называть «неизменяемые данные». К таким, например, можно отнести анкетные данные, названия, даты, также сюда относится информация о факте какого-то события (место, время, что произошло, участники). Всё это стоит фиксировать даже если тебе кажется, что это не нужная информация. Тут дело в том, что чем больше ты собираешь информации о чём-то, тем сильнее меняется твоё понимание этого события и сопутствующих ему. И, в какой-то момент, то что тебе казалась не нужным, может очень пригодится. И если ты вовремя не записал или не пометил, где ты это видел, то порой найти повторно нужную инфу может быть или сложно или долго.

Ну, а теперь точно всё.

Твой Pulse.