1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /120, 1995 г./ | Бонус | Поиск  

Обзоры

Data Warehouse в России

Георгий Кузнецов


© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

Ведущие игроки нового рынка раскрывают свои карты перед читателями "Компьютерры"

Новый вызов, новый шанс

Вслед за выходом в свет книги Билла Инмона (Bill Inmon) движение за datawarehouse (для простоты – DWH) привлекло общественное внимание в прошлом году, когда в США состоялась первая конференция по этой теме. Судя по последнему обзору в октябрьском номере журнала BYTE за этот год, на Западе уже идет вторая волна технологий, на сей раз для работы с данными, и корпорации приступили к эксплуатации новых деловых возможностей.

Влияние этих технологий может оказаться самым серьезным за всю историю компьютеризации. Впервые искусственный интеллект занимает место рядом с высшими управляющими. Преимущества его пока традиционны для компьютеров. Прежде всего, он берет способностью переваривать огромные объемы данных в поисках закононостей. Результатом может стать перестройка в ближайшие годы всех наших представлений о возможном и невозможном в науке, технике, бизнесе, управлении обществом и окружающей средой.

Вскоре DWH и data mining (DM) – то есть добыча, обогащение и переработка данных, как руды, – вероятно, станут обязательным элементом инфраструктуры для всех организаций, занятых массовым обслуживанием, и дадут новые стимулы для монополизации и централизации. Вместе с тем это предоставит массу новых возможностей для небольших интеллектуальных разработок.

И то, и другое имеет прямое отношение к России. Для наших корпораций DWH в первую очередь дает шанс выпутаться из ошибочных стратегических решений в создании собственных информационных систем, что сейчас нужно очень многим. Далее. DWH и DM должны стать частью этих систем, по крайней мере для тех компаний, которые намерены конкурировать с мировыми гигантами. Иначе дело кончится тем, что на кредитном, инвестиционном, страховом рынках России будут соперничать только западные институты.

Кроме того, это верный шанс дать работу пресловутому интеллектуальному потенциалу, если он и в самом деле есть, причем не столько программистам, сколько теоретикам. Мир еще не видел ничего подобного. Чтобы заработать миллионы на рынке США, не надо ни собирать PC, ни пытаться завалить их магазины коробками с "софтом". Вполне можно представить себе команду российских "ракетчиков", обрабатывающих данные о мелких вкладчиках Chemical Bank на суперкомпьютерах Ливерморской лаборатории с помощью своих эксклюзивных методов.

Наконец, это шанс, которым должны воспользоваться институты власти, чтобы создать современные и эффективные инструменты управления. Когда они закончат сплошную "писификацию" своих контор и вдоволь наиграются, глядишь, и задумаются вдруг, как жить дальше.

Черная пятница, очная ставка

В компьютерном бизнесе интерес к DWH велик и единодушен. Не успели оглянуться, а уже старые гиганты

начали поглощать новых карликов с их уникальными технологическими находками. В российских бизнес-структурах, представляющих западные компьютерные фирмы, появились специалисты и менеджеры, готовые поставить на новую карту свою карьеру. "Аргуссофт Компани" вызвалась собрать их на круглый стол с гамбургером в пятницу, тринадцатого октября.

Следом за этим отчетом вы найдете статьи, подготовленные в той или иной пропорции совместно представителями фирм, принявшими участие в "круглом столе", и редакцией "Компьютерры". Нам известно, что ценными технологиями и опытом располагают многие другие компании, из которых прежде всего необходимо упомянуть IBM и Hewlett-Packard. Мы почтем своим долгом рассказать и о них, если они сами приложат к тому усилия.

Не сговариваясь, все участники построили свою аргументацию по одной и той же схеме: перечисляли требования к платформе для реализации DWH и рассказывали, какие решения они предлагают, пункт за пунктом. Требования я постарался суммировать, чтобы избавить вас от утомительных сопоставлений.

Итак, DWH должен быть надстройкой над существующими системами и уметь автоматически откачивать данные по заданной программе практически из чего угодно – индексно-последовательных файлов на мэйнфрейме, плоских файлов на сервере NetWare или из современной реляционной СУБД. На это дело существуют стандарты и готовые покупные решения, однако наши герои явно стремятся идти собственными путями. Действительно, у них получается эффективнее. Помимо этого, данные надо преобразовывать из многообразия существующих форматов к какому-то стандартному их набору.

Звучит просто, но как подумаешь, что для этого надо разобраться во всех мыслимых способах представления плавающих чисел и провести исчерпывающую инвентаризацию отношений и атрибутов с душераздирающими названиями типа kvydaxe или kodjiaxisl (к выдаче, код начисления), сочинителей которых давно и след простыл, ощущаешь приступ морской болезни. Поэтому в пакет инструментов для DWH должен входить словарь метаданных, причем гораздо более сложный, чем обычные словари-справочники. (Впрочем, какие же они обычные, если их никто не применяет?)

DWH работают с историческими данными. Возьмем классический пример, предположим, что есть записи о персонале, которые в БД отражают текущее состояние. Тогда DWH должен хранить все должности и оклады сотрудника за время его работы, а значит, отражать изменения структуры организации и т.д. Это, конечно, можно сделать и в обычной реляционной СУБД, если переносить атрибуты в отдельные отношения и хранить их как ряды значений с ключами для поиска "владельца" и отметками времени, но существует специальная эффективная технология.

Вообще, среда DWH должна удовлетворять самым диковинным причудам. Если для поддержки рутинных деловых операций всегда можно обойтись числами и строками, то исследователям обязательно нужна география, с высокой вероятностью изображения, и так далее. Проще сказать, от DWH ожидается умение эффективно хранить и извлекать что угодно. Одно хорошо – данные в них загружают раз и навсегда, поэтому можно не заботиться об эффективности обновления и откате транзакций.

Само собой, к этому должен прилагаться набор инструментов для всех мыслимых статистических обработок, визуализаций, поиска закономерностей. В этой области уже появились собственные подходы, не укладывающиеся в традиционные реляционные машины данных, например, многомерный анализ (MDA). Как и следовало ожидать, применяются фракталы и методы искусственного интеллекта.

Наконец, нужна среда программирования, в которой можно было бы быстро и уверенно экспериментировать, превращая свои наброски в надлежащим образом оформленные программы. В соответствии с современными воззрениями, это "объектный клей" – интегрирующая все перечисленное система для быстрой разработки приложений.

Тем не менее обратите внимание, как формулируют требования к DWH эксперты в своих статьях. Это тот редкий случай, когда люди сами ставят себе задачу.

DWH – это что-то новое или...

...или то, чем мы всегда занимались? Так, словами Жванецкого о сексе охарактеризовали отношение к datawarehouse фирмы S A.S. Institute ее партнеры из НПП "Био-Стат". Его руководитель Евгений Гришенков бескомпромиссно изложил требования и полный список решений. Некоторое представление о широте охвата проблемы может дать рис. 1, взятый из презентации НПП.

Г-н Гришенков – очень опытный специалист и отлично знает свой товар, однако выступление получилось декларативным, не раскрывающим техническую сторону дела и оттого неубедительным. К тому же критика реляционных СУБД, которых SAS, похоже, считает своими основными противниками, в устах докладчика не производила впечатления понимания им этого предмета.

Я стал нажимать и не без труда получил интервью, которое вы найдете в этом обзоре ниже. На мой взгляд, оно показывает, что сотрудники "БиоСтат" – хорошие инженеры, не умеющие продавать, а система SAS – хороший товар, который до поры продает себя сам. Впрочем, SAS не так просто и однозначно хороша, как могло из моих слов показаться.

В контексте DWH маркетинговую позицию SAS и "БиоСтата" можно было бы выразить так: убедить тех, кто знает SAS, что SAS – это нечто большее, чем они привыкли думать. Надеюсь, что этим обзором нам удастся увеличить число людей, знающих, прежде всего, что такое SAS, – и "БиоСтат", в конечном счете, не будет на нас в обиде.

Oracle и Informix

Я нарочно объединил эти две фирмы, все больше напоминающие близнецов Твидлдума и Твидлди из "Алисы в Зазеркалье". Удивительно, как они, занятые вроде бы одним и тем же, стараются все делать наоборот Замечательный пример конкурентных отношений. Противники, как положено, пытаются уйти от прямого соперничества, а жизнь не пускает, сталкивает лбами снова.

Если Oracle стремится к one-stop-shoppmg, предлагая все "из одних рук", то Informix формулирует стратегию best-m-class, то есть они сами

делают наилучшим образом то, что умеют делать лучше всего, и того же ждут от других. Oracle и ее главу Ларри Эллисона все чаще сравнивают с Microsoft и Билли Гейтсом. Зато Informix, традиционно поставлявшая самую простую и быструю из "независимых" реляционных СУБД, доводит до немыслимого блеска свое ядро и меряется скорострельностью с молодым Sybase.

"Адвокат" Oracle, обстоятельный Андрей Сахаров из "ЛВС" представил на "круглом столе" очень насыщенный технический доклад, гораздо более подробный, чем статья, публикуемая ниже (зато в ней вы найдете самое полное введение в предмет). Интересно, что, по словам г-на Сахарова, он взял за основу доклада презентацию, подготовленную "самим" Ларри Эллисоном. Как бы то ни было, автор не упустил ничего – ни запросов "звездой", ни исторических данных, ни многомерного анализа, ни даже модной техники индексации битовых карт для быстрого анализа изображений внутри запросов к СУБД.

Напротив, апологеты Informix, Андрей Грачев из фирмы "Терн" и Говард Залкинд сделали ставку на эмоциональный натиск. Доклад г-на Грачева был явно подготовлен наспех, зато сам он излучал неподдельную уверенность в том, что без хорошего реляционного сервера эти самые дейтавери-хаусы все равно не обойдутся. Впоследствии мне бросился в глаза заголовок на "боевом листке", выпущенном Informix вместе с Hewlett-Packard, гласивший: даже и не пытайтесь делать DWH без нас. Несмотря на очевидную провокационность этой тактики, информиксисты все же заставили задавать им вопросы.

Например, такие а что же вы ничего не говорите про индексацию бит-карт? И тут г-н Грачев отвечал, что это все делается за счет загружаемых процедур, для которых есть независимые поставщики. Особо был отмечен недавний альянс Informix с Prism Solutions, хотя вообще-то у них десятки таких партнеров.

Oracle тоже не отказывается от роли коллективного организатора и козыряет специально отпечатанной книжкой с картинками, называемой Warehouse Technology Initiative. В ней список 33-х фирм, поддерживающих DWH на платформе Oracle своими продуктами и услугами. Но это самодеятельность, а вот то, что Oracle недавно поглотила компанию IRI вместе с ее первоклассными продуктами для многомерного анализа данных, – это дело верное.

По всей очевидности, обе фирмы успешно работают на рынке DWH и DM, но сопоставить их решения будет непросто даже тем, кто специально задастся такой целью. Oracle сейчас действительно делает почти все, и корпоративный интегратор может в этом разобраться сам, хотя я знаю немало случаев, когда даже лояльные пользователи закипали при знакомстве с новыми продуктами, призванными заменить, допустим, SQL Windows от Тупты". Со временем терпеливые люди приспосабливаются, а технологии Oracle мало-помалу вживаются в новый мир объектов и графических интерфейсов. Что касается Informix, то тут вам надо начинать с выбора фирмы-интегратора, хорошо знающей эту среду, и смотреть, что она вам предложит.

Младенцы в джунглях

"Аргуссофт Компани", которая, напомню, была устроителем "очной ставки", запланировала выступление своих представителей последним, сразу после обеда Очень грамотный ход. И выход свой они аранжировали просто классно. Скромный юноша за проектором (Сергей Елин) показал, как продукт Q+E фирмы Intersolv извлекает, преобразует и подает на тарелочке данные. Когда он заявил, что это и есть дейтавери-хаус, присутствующие оказались органически неспособными что-либо этому противопоставить.

Отдельные, наиболее стойкие бойцы еще пытались возражать: мол, где же терабайты данных и индексация биткарт – но быстро сникли. Елин, конечно же, купил их по дешевке. Однако его статья, которую вы найдете в этом номере, серьезно и ответственно описывает Q+E и другие средства. Ибо продукты Intersolv – это разумный минимум инструментов для решения множества практически полезных задач.

 


1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /120, 1995 г./ | Бонус | Поиск  

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru