Урок 6. Работа с информацией

В наше время любая перспективная, престижная и высокооплачиваемая профессия связана с потоками данных, а развитие критического мышления и тренировка навыков работы с информацией крайне важны для достижения успеха на любом поприще.
Всякий человек, заинтересованный в достижении успеха в обучении, на работе и в жизни вообще, просто обязан научиться находить, собирать, анализировать, исследовать и хранить информацию, а также делать на ее основе правильные выводы.
Содержание:
Информация огромнейшими объемами обрушивается на нас буквально ежедневно. И если мы не будем в состоянии распределять данные, определять, какие из них полезны и ценны, а какие можно отбросить за ненужностью, мы рискуем в них завязнуть и утонуть.
Информационное поле – это та среда, в которой сейчас мы находимся постоянно, однако далеко не все, что мы узнаем, видим и слышим, может быть для нас важным и имеющим значение. Данные нужно оценивать критически, проверяя на актуальность, достоверность, правдивость.
Чересчур большие объемы поступающих сведений становятся причиной поверхностного восприятия, а это в свою очередь приводит к клиповому мышлению, являющемуся, кстати говоря, одной из характеристик поколения современности.
Клиповое мышление представляет собой такое явление, когда человек улавливает и усваивает лишь небольшие и поверхностные отрывки информации. В итоге память засоряется огромным количеством самых разных, но, по сути, совершенно бесполезных сведений.
Чтобы избежать этой коварной ловушки, нужно также научиться правильно взаимодействовать с данными, а это требует не только умения отсеивать нужное и ненужное, но и освоения различных методов работы с информацией.
Обо всем, что мы только что перечислили, мы с вами и поговорим ниже. После прохождения урока ваши знания о развитии и применении критического мышления станут намного обширнее, что, несомненно, пригодится на практике в каждодневной жизни.
Для чего нужна информация
Цели применения информации могут быть стратегическими, тактическими и оперативными. Это обуславливает ее целевое назначение.
Стратегическая информация
Стратегическая информация применяется при долгосрочном планировании и решении задач глобального масштаба, а также в бизнесе, к примеру, в поиске путей развития компаний и организаций. Даже в тех случаях, когда при первом ознакомлении с этим типом данных они никак не связаны с деятельностью напрямую, они могут играть решающую роль судьбе человека или организации, инициировавшей поиск.
Структура базы стратегической информации применительно, например, к бизнесу, может выглядеть следующим образом:
Говоря проще, стратегическая информация позволяет найти ориентиры на пути постановки целей и в общих чертах указать направление движения.
Тактическая информация
Если стратегическая информация служит для определения направления развития, то тактическая будет отвечать на вопрос, каким именно образом будут достигаться цели и решаться задачи. Она способствует повышению эффективности планирования, помогает определять препятствия на пути, расширять масштабы деятельности, внедрять инновации, применять новые технологии и т.п.
Если вернуться к нашему примеру с бизнесом, то структура базы тактической информации будет выглядеть так:
Продукт (исследование предложений конкурентов, снятие с производства устаревшей продукции, вывод на рынок новых разработок, изучение соответствия нового продукта правовым нормам государства).
Тактическая информация носит более практический характер и позволяет разработать комплекс конкретных мероприятий или подробный план действий по решению наиболее приоритетных задач.
Оперативная информация
Оперативная информация состоит из сведений, которые могут помочь разрешить текущие и срочные вопросы. В бизнесе это может быть срочный поиск нового поставщика или заказчика, урегулирование форс-мажорных обстоятельств, устранение угроз, способных привести к исчезновению компании. В работе это могут быть изменения в структуре организации, повышение должности, объединение нескольких отделов. В обычной жизни это может быть поиск той самой работы при внезапном сокращении, выбор специальности при поступлении в институт и т.д. Оперативная информация необходима для разрешения любых подобных ситуаций.
Базы оперативной информации включают все, что может быть быстро применимо в сложных условиях. Точность и достоверность фактов играет здесь ключевую роль, т.к. вопросы, на разрешение которых они влияют, могут иметь судьбоносное значение для всей деятельности человека, группы людей или организации.
Несмотря на то, что мы привели в качестве основного примера бизнес, не стоит полагать, что стратегические, тактические и оперативные цели применения информации касаются только этой сферы. С подобным успехом аналогичные цели можно ставить при планировании обучения, разработке пошагового руководства по выходу из сложной финансовой ситуации, разрешении срочных проблем в любой сфере жизни. Главное в этом вопросе – определить, какая информация будет стратегической, какая – тактической, а какая – оперативной.
Таким образом, понять, в чем суть применения информации, достаточно просто: она служит для пополнения своего багажа знаний (базы данных) новыми сведениями, которые могут теоретически или практически пригодиться в жизни. Но мы с вами ведем речь о развитии критического мышления, а это значит, что информацию нужно научиться правильно искать, и этот вопрос имеет в контексте нашей беседы основополагающее значение.
Теоретические основы поиска информации
Одна из особенностей информации в эпоху современности состоит в том, что намного чаще она сама находит человека, даже если он ее не ищет. Но знать основы информационного поиска все же нужно.
В первую очередь следует вспомнить, что информация может различаться по способу восприятия (визуальная, аудиальная, обонятельная, тактильная и вкусовая), по форме представления (графическая, звуковая, текстовая и числовая) и по назначению (массовая, личная и специальная).
Такое различие обуславливает и многообразие источников информации. Среди основных источников можно выделить:
| ✔ | Средства массовой информации (радио, телевидение, газеты). |
| ✔ | Интернет. |
| ✔ | Узкопрофильные источники (научные трактаты, фундаментальные труды, методические пособия, учебники и другая специализированная литература). |
| ✔ | Живые источники (друзья, коллеги, специалисты и другие люди, которые могут предоставить какие-то сведения). |
Чтобы поиск информации проходил наиболее продуктивно, рекомендуется использовать в работе сразу несколько источников информации, и желательно, чтобы они были разных типов. Но основное значение имеет все же их достоверность. К примеру, самыми объективными и правдивыми считаются данные из научной литературы, энциклопедий и словарей. Если же с какими-то материалами вы сталкиваетесь впервые, нужно проводить анализ источников информации.
Получить дополнительные знания о поиске информации и выборе источников вы можете, перейдя по этой ссылке. Мы же, учитывая наличие на нашем сайте соответствующего материала, рассчитываем на ваш серьезный подход к делу, и, дабы не тратить времени, перейдем к следующему вопросу.
Практические основы поиска информации
Информация, если найти ее определение в энциклопедии или Википедии, представляет собой сведения по какому-либо вопросу. О том, зачем человеку могут потребоваться сведения, говорить, наверное, не нужно – это просто жизненная необходимость. Располагая нужной информацией, мы получаем возможность принимать решения, делать выводы, давать оценку происходящему и реагировать на него. Но сам факт того, что у нас есть информация, еще вовсе не означает, что все это мы сможем сделать правильно, критически и объективно.
Информация обладает рядом качественных характеристик:
Подходя к работе с данными безграмотно, мы рискуем не только никуда не продвинуться на своем пути и не узнать ничего дельного, но и составить неверные выводы, совершить неправильные поступки и ошибиться. Поэтому работа с информацией предполагает серьезный и критический подход.
Правильный подход к работе с информацией означает, что:
| 1 | Нужно составить приблизительный список источников, где может находиться искомая информация (книги, учебники, интернет-сайты, карты, фотографии, аудиозаписи, видеоматериалы, статистика и т.д.) |
| 2 | Нужно грамотно и грамматически верно сформулировать запрос (очень важно четко понимать, что конкретно вы хотите найти). |
| 3 | Нужно использовать уже имеющуюся информацию, которая может помочь в поиске недостающей (например, при поиске данных в периодике может помочь знание дат выпуска изданий, при поиске стихотворения в интернете может помочь даже пара слов из какой-то строчки и т.д.) |
Как только вы обозначите область поиска, можно приступать к практическим действиям. Основой этих действий служат методы работы с информацией:
Рассмотрим методы работы с информацией подробнее.
Мозговой штурм
Первым этапом здесь станет своеобразный мозговой штурм: вы просто находите информацию по теме, никак ее не анализируя, не сортируя и не отбирая. Ваша задача – собрать материал для работы, т.е. любые сведения на исследуемую тему.
Фильтрация
Следует понимать, что случаи, когда полезным оказывается весь объем найденных данных, – большая редкость. Практически всегда люди ищут ответы на конкретные вопросы или раскрывают узкую тему. Получается, что на втором этапе вы должны отобрать полезные вам сведения. Лучше всего сразу бегло ознакомиться с источником и отбросить все, что не касается актуальной для вас темы. Далее следует третий этап.
Анализ
Как только вы отсеете все ненужное, вам останется проанализировать нужное и определить его объективность и достоверность (не забывайте учитывать и достоверность источников). Критически оценить информацию можно только через факты и логику – ни о каких ощущениях и «здравом смысле» не может быть и речи. Подтвердить же факты и свидетельства вы сможете лишь с помощью собственного исследования.
Исследование проводится с учетом следующих правил:
| ✔ | Проверять все, что только можно проверить, и не доверять ничему, что не подкреплено фактами, установленными эмпирическим путем. |
| ✔ | Принимать во внимание любые источники информации, где есть хотя бы некоторые сведения по интересующему вопросу. |
| ✔ | Если один источник ссылается на другие, в обязательном порядке проверять их. |
| ✔ | Всегда искать более одного взгляда на проблему, в особенности, когда она касается каких-то предположений, гипотез и теорий. |
| ✔ | Учитывать любую информацию, не опровергнутую доподлинно (при этом, если достоверность не подтверждена полностью, эта информация становится второстепенной). |
После всех описанных манипуляций с источниками в распоряжении появляется определенный массив информации, где содержатся самые разнородные сведения. Из них уже можно составить общую картину происходящего, но делать окончательный вывод еще рано. До этого нужно еще раз проанализировать все новые данные.
Повторный анализ
Делая окончательный анализ, нужно вернуться к основной теме и целям поиска, чтобы посмотреть на полученные сведения именно под этим углом. Очень важно получить ответы на основные вопросы:
Если на какой-то из вопросов ответить однозначно не получается, сбор данных следует осуществить повторно. Может получиться так, что вы сделаете выводы, совершенно противоположные тем, к которым вы склонялись в начале, или найдете новый смысловой слой по выбранное проблеме, способный изменить или углубить ваше понимание.
Еще немного об анализе информации
Самое главное в процессе анализа данных и, пожалуй, первое, что вы должны сделать – это определиться с тем, что для вас будет действительно полезной информацией, а что окажется лишь информационным шумом. В этом вам помогут ответы на такие вопросы:
Как видите – критическое мышление во всей красе. И если по какой-то причине ответить на эти вопросы вы не можете, значит, сведения, с которыми вы столкнулись, вам не нужны. Полезная информация всегда связана с действиями. Поэтому данные, которые нельзя нигде применить, можно считать бесполезными.
Кроме того, при анализе информации нужно учитывать два базовых критерия оценки – это правдивость и надежность сведений. Определить их можно, изучив первоисточник, а также сравнив его с другими первоисточниками. Получаемые вами данные должны соответствовать особенностям эпохи и быть актуальными, иначе их можно смело отбросить как устаревшие.
О других принципах отбора информации вы также можете узнать из статьи, указанной нами выше, в одноименном разделе. Помните, что анализ данных – это краеугольный камень всего информационного поиска, и если они соответствуют заявленным требованиям, их можно смело брать в оборот.
Когда нужная информация будет найдена, настанет время переходить к следующей стадии – обработке, заключающейся в составлении выводов и грамотной формулировке.
Выводы и формулировка
Выводы проистекают из анализа. Анализ, конечно, отвечает на поставленные в начале поиска вопросы, но выводы являются сферой деятельности личного ума и творческой составляющей. Основываясь на проанализированной информации, следует сделать умозаключения. Нередко это позволяет даже выдвинуть собственные гипотезы и версии.
Теперь нужно придать своим мыслям удобоваримую форму, выстроив их в текст. Можно делать это письменно, а можно мысленно и устно. Последнее, кстати, прекрасно упорядочивает мышление, делая его более стройным и лаконичным, и способствует более глубокому пониманию новой информации.
На этом поиск и обработка информации заканчиваются, и вы можете использовать ее для решения актуального для вас вопроса. В бизнесе этот навык позволяет «прощупать почву» на новом рынке, в работе помогает реализовывать проекты, в обучении служит прекрасным инструментом для написания курсовых и научных работ, дипломов и диссертаций, в обычной жизни способствует разрешению конфликтов и выходу их сложных ситуаций.
Это лишь несколько примеров, показывающих всю широту области применения навыка критической обработки информации. Применена же информация может быть как единовременно, так и многократно. Информация, нужная нам сейчас лишь постольку-поскольку, чаще всего через какое-то время отбрасывается за ненадобностью. Но важные сведения, имеющие для человека большое значение, сохраняются, чтобы к ним был обеспечен постоянный доступ. Поэтому необходимо уметь правильно хранить их.
Хранение информации
Невзирая на то, что сегодня всеобщее распространение получил интернет, а информацию все чаще хранят на портативных высокотехнологичных носителях (флешках, внешних жестких дисках и других хранилищах) и в виртуальном пространстве (Google.Docs, Яндекс.Диск, Облако@mail и т.п.), многие учреждения (государственные, коммерческие, юридические) и специалисты предпочитают хранить важные сведения в форме бумажных документов. Исходя из этого, нижеизложенные советы будут применимы как к электронным, так и к бумажным носителям.
Наиболее удобным способом работы с данными станет размещение документации так, чтобы был обеспечен быстрый и беспрепятственный доступ к ним. Для этого рекомендуется создать три рабочих области, и каждая из них будет соответствовать частоте ваших запросов – тому, насколько часто вы к ней обращаетесь.
Первая область
К первой области нужно отнести те сведения, которые требуются вам каждый день, и которые могут пригодиться в любой момент. Независимо от того, в бумажной или электронной форме они представлены, находиться они должны на вашем рабочем столе (рабочем столе компьютера).
ВАЖНЫЙ СОВЕТ: Касаемо конкретно ПК, не следует хранить файлы важных данных на самом рабочем столе, т.к. все, что на нем находится, относится к операционной системе, а она, как правило, устанавливается на системный диск C. Если вдруг «винда слетела» или на компьютере произошел какой-то сбой, систему придется переустанавливать, а это значит, что все данные с диска C будут стерты. Чтобы предостеречь себя от потери важных документов, нужно либо создавать резервные копии и переносить их на диск D или съемный носитель, либо просто хранить на диске D, а на рабочем столе создавать ярлыки. Здесь же заметим, что не стоит хранить данные на обычных компакт-дисках, т.к., во-первых, они уже почти неактуальны, а во-вторых, при многократном использовании и долговременном хранении они перестают читаться устройствами воспроизведения и становятся совершенно непригодными к использованию.
Вторая область
Ко второй области относится информация, необходимая время от времени, но не каждый день. Например, в рабочем кабинете или просто дома для хранения таких данных могут подойти ящики рабочего стола или специальные полочки для папок и бумаг. Если речь об электронных документах, то они могут храниться на диске D или на съемном накопителе.
Третья область
И третья область – это архивная зона. В ней хранятся сведения, использовавшиеся вами ранее и способные пригодиться в перспективе. Иногда нужно что-то перепроверить или освежить в памяти, и документы в архиве хранятся как раз для этого. На компьютере этим документам соответствует раздел «Архив», а в рабочем кабинете или дома – отдельные полки, стеллажи, ящики, коробки.
Кстати, говоря об электронных носителях, важно заметить, что сохранять свои файлы и документы нужно в распространенных расширениях (например, документ MS Word лучше сохранить с расширением «doc», а не «docx»), чтобы при необходимости они могли быть открыты любыми версиями и аналогами программ.
ВАЖНЫЙ СОВЕТ: Не будет лишним заметить, что для хранения информации второго (время от времени) и третьего (архив) порядка сейчас очень удобно использовать облачные сервисы, о которых мы упоминали в начале этого раздела. При желании можно обратиться и к платным сервисам хранения данных, где сведения будут защищены более надежно: Microsoft OneDrive, Dropbox, Amazon Web Services, iCloud Drive (плата на этих сервисах взимается, если вы планируете хранить более 5-10 Гб данных). Ощутимое преимущества такого способа хранения состоит в том, что получить доступ к данным вы можете из любой точки мира, где имеется доступ в Сеть. Однако слепо доверять этим сервисам опять же не стоит, ведь в случае серьезного сбоя в работе или мощной хакерской атаки информация может быть безвозвратно утеряна или доступна третьим лицам. Помните, что осторожность всегда полезна, а золотым правилом хранения данных является наличие одного оригинала и двух копий на разных носителя и в разных местах.
Корзина
Не менее важно, помимо прочего, и то, что работа с информацией включает в себя не только ее сбор, обработку и хранение, но также и утилизацию. Поэтому есть еще и четвертая область (она может быть как реальной, так и виртуальной) – это корзина (мусорное ведро). Если данные устаревают и становятся неактуальными, если вы уверены в том, что вам больше не придется к ним обращаться, без всяких сожалений выбрасывайте их. Во-первых, вы освободите львиную долю места, а во вторых избавите себя от перспективы тратить время на разбор завалов, состоящих из кип бумаг или десятков и сотен самых разношерстных файлов. На этом разговор о работе с информацией можно считать законченным.
Заключение
Грамотная работа с информацией является одним из важных элементов критического мышления. Научившись правильному поиску, фильтрации, анализу, обработке и хранению данных вы существенно облегчите себе жизнь. Отныне вы не будете тратить бесконечные часы на блуждание в информационных потемках, а все собранные вами данные будут иметь исключительную практическую пользу для вас.
Хотите проверить свои знания?
Если вы хотите проверить свои теоретические знания по теме курса и понять, насколько он вам подходит, можете пройти наш тест. В каждом вопросе правильным может быть только один вариант. После выбора вами одного из вариантов система автоматически переходит к следующему вопросу.
Напоминаем, что для полноценной работы сайта вам необходимо включить cookies, javascript и iframe. Если вы ввидите это сообщение в течение долгого времени, значит настройки вашего браузера не позволяют нашему порталу полноценно работать.
Итак, наш курс по развитию критического мышления подошел к концу. Теперь в вашем распоряжении все необходимые знания. Мы желаем вам успехов на пути освоения навыка мыслить критически, и уверены, что успех не заставит себя долго ждать.
Подводные камни в работе с данными в проектах Data Science
Меня зовут Павел Куницын, я работаю главным специалистом по анализу данных и машинному обучению в ПГК. На нашем примере расскажу, с какими трудностями мы сталкивались при внедрении ML-инициатив и как их преодолевали.
Решил написать серию статей. В первых статьях я подробно опишу проблемы, с которыми может встретиться DS-команда, чтобы помочь участникам проектов с машинным обучением проводить более грамотную предпроектную проработку. В дальнейшем поделюсь нашим опытом в решении некоторых из них.
В одном из своих выступлений Эндрю Ын (Andrew Ng), возможно, самый известный популяризатор deep learning, предложил концепцию Data-Centric AI (https://www.youtube.com/watch?v=06-AZXmwHjo). В отличие от ранее распространенного подхода (Model-Centric AI), согласно которому улучшение качества ML-решения достигается за счет совершенствования алгоритма, новая концепция ставит во главу угла постоянное совершенствование используемых данных.
Первая статья, которую вы сейчас читаете, — о препятствиях, которые могут возникнуть при работе с данными.
Процесс разработки моделей
Обычно последовательность операций, которые должны быть выполнены для создания алгоритма, выглядит так*:
*В этой схеме я намеренно оставляю только те этапы, которые традиционно входили в пул работ data scientist’а, и исключаю стадии проработки инициативы, формализации задачи, деплоя, тестирования, мониторинга и др. Они заслуживают отдельного внимания.
Как мы видим, загрузка и подготовка данных находятся в самом начале цепочки, следовательно, качество реализации этих стадий окажет прямое влияние на эффективность последующих. Ниже я раскрою основные проблемы первых двух этапов. Созданию признаков, обучению моделей и оценке качества будет посвящена отдельная статья.
Загрузка данных
Как известно, модели строят свои оценки на основании закономерностей в данных, выявленных в процессе обучения. Поэтому ML-конвейер всегда начинается с получения необходимого массива. К частым сложностям, с которыми может столкнуться data scientist на этой стадии, можно отнести:
1. Неожиданные изменения данных в источниках
Как показывает практика, данные — это очень подвижная субстанция. Много проблем в Data Science связано именно с изменениями данных: обновлением справочников и нормативов, изменением распределений или логики обработки, вводом новых категорий, ручной правкой и т.д. В большинстве случаев контроль версий этих данных отсутствует, и сами изменения происходят без уведомления пользователя. Учитывая, что стабильные и воспроизводимые конвейеры являются залогом высокого качества DS-решения, вопрос постоянства данных нужно всегда учитывать.
2. Отсутствие документации
Ситуация, когда у data scientist’а сразу есть информация о данных для анализа и обучения, возможна, наверное, только на хакатонах. На деле наименования столбцов в БД могут быть абсолютно нечитаемыми, а их описание — отсутствовать. В то же время зависимости в данных намного проще искать, понимая заранее, с чем вы имеете дело. К сожалению, эта проблема является повсеместной и отнимает очень много времени, поэтому, берясь за проект, обязательно имейте это в виду.
3. Большие объемы данных
Не всегда вычислительные ресурсы в распоряжении специалистов по машинному обучению соответствуют тем массивам, с которыми нужно будет работать. Можно также столкнуться с ограниченной пропускной способностью сети. Если вы отвечаете за проработку проекта, то обязательно обращайте внимание на то, с какими объемами данных вы будете иметь дело, чтобы адекватно оценивать ресурсы и определять подходящий целевой стэк.
4. Большое количество источников
Источники данных могут быть абсолютно разными: HDFS, S3, реляционная база данных или даже excel-файл на рабочем столе. Работа с одним таким источником через какой-нибудь API на Python сегодня уже не представляет сложности. Однако чаще информация распределена между различными хранилищами, и необходимо искать способы их агрегации. Другой классической проблемой, связанной с количеством источников, является расхождение данных по одним и тем же сущностям в разных системах.
Это доставляет огромное число неприятностей в машинном обучении, особенно, когда дело доходит до деплоя. Конечно, если в команде есть инженер данных, эти задачи перекладываются на него, но далеко не каждый проект укомплектован DE, и даже когда он есть, на выстраивание потоков данных обычно требуется время. Поэтому такие трудности регулярно становятся частью работы аналитиков.
5. Ошибки в ETL-процессах
Когда заходишь на проект, часть потоков данных, которые должны готовить датасеты для обучения, могут быть уже выстроены. При этом гарантии, что логика предварительной обработки соответствует задаче, никто не дает, и часто это вскрывается не на старте проекта, а когда он уже идет полным ходом. Опыт показал, что детальная проработка существующих потоков данных на первых порах может существенно снизить риски задержек проекта.
Подготовка данных
Сырые данные практически никогда не пригодны для моделирования, и именно эта стадия является самой трудоемкой. Здесь часто приходится тратить много сил на аналитику, процесс подготовки данных может отнять большую часть времени проекта. К основным преградам на пути к формированию чистых данных можно отнести следующие проблемы:
1. Низкое качество данных
В реальной жизни чистых данных не бывает. Даже если вам достался чистый, на первый взгляд, датасет, будьте уверены, что перед этим он мог пройти не одну итерацию обработки. К основным проблемам качества, на которые можно сразу проверить исходный массив, можно отнести:
Аномально высокие или низкие значения;
Несоответствие типов данных;
Нарушение логики (например, отрицательное время или возраст).
Когда ошибка выявлена, нужно понять причину и устранить ее. К сожалению, этот процесс может растянуть срок реализации проекта на несколько недель.
2. Сложности в разметке данных
Большинство ML-алгоритмов обучаются на размеченных данных, т.е. используют исторические значения прогнозируемой величины (например, объем спроса или время в пути) в качестве ориентира при построении прогнозов. Здесь также кроются потенциальные сложности. Во-первых, разметки может просто не быть. Особенно часто это встречается в узкоспециализированных областях. Во-вторых, проведение разметки может требовать привлечения экспертов ввиду особенностей решаемой задачи. В-третьих, разметка может быть выполнена некорректно, что отразится на качестве модели в продуктивной среде. В результате эта задача может отнять очень много денег и времени.
3. Нехватка данных
Выше я писал, что большие массивы данных могут доставить неприятности. Возможна и обратная ситуация, когда данных слишком мало для выявления закономерностей и построения качественных моделей. Иногда не хватает только части данных, например, в случае дисбаланса классов в задачи классификации, когда прогнозируемое событие случается слишком редко. Как правило, чем больше исторических данных, тем более высокие результаты ожидаются. Но практика показывает, что не все ML-инициативы могут позволить себе такую роскошь, и часто приходится работать в ограниченных условиях.
4. Отсутствие бизнес-экспертизы
В каждой сфере бизнеса существуют устоявшиеся процессы, в том числе связанные со сбором, хранением и обработкой данных. Когда принимаешься за проект в новой для себя области, также сталкиваешься с незнакомыми профессиональными терминами и понятиями. Поэтому стоит быть готовым к тому, что в процессе подготовки датасетов у data scientist’ов будут регулярно возникать вопросы по предметной области.
Приведу пример из железнодорожной области. Одна из основных сущностей, с которой работают железнодорожники, — накладная. Это документ, который содержит сведения о грузе и особенностях перевозки, информацию по контрагентам, станциях отправления и назначения, дате прибытия вагона и т.д. В исторических данных можно встретить накладные, которые были закрыты не на станции назначения. В этом случае реальное время в пути может не совпадать с расчетным в накладной. Такие подводные камни нелегко интерпретировать, опираясь на классические способы анализа качества данных, и помочь может только знание отраслевых процессов.
Надеюсь, что учет трудностей, которые я перечислил, поможет вам избежать лишних проблем при подготовке данных для ваших алгоритмов и позволит сделать свои ML-решения качественнее и стабильнее. Если вы сталкивались с проблемами в загрузке и подготовке датасетов для анализа и моделирования, о которых я не упомянул, буду рад узнать о вашем опыте в комментариях.






