реклама
Какво бихте казали, ако ви кажа, че имате на разположение инструментите за извършване на разрушителни, разрушаващи Земята изследвания? Е, да, и аз ще ви покажа как.
Правителствата, академичните институции и нестопанските изследователски организации публикуват таблици, пълни с данни в обществено достояние. Без никой да използва тази информация, истинската й стойност никога няма да бъде известна. За съжаление, малко хора имат прозрение, умения или инструменти, за да вземат данните и да направят интересни корелации между на пръв поглед несвързана информация.
Заден план
Голяма част от изследванията, които правя за моя собствен блог, включват разглеждане на това, което е известно като невидима мрежа 12-те най-добри търсачки за изследване на невидимата мрежаGoogle или Bing не могат да търсят всичко. За да изследвате невидимата мрежа, трябва да използвате тези специални търсачки. Прочетете още , за разкриване на данни, които са били публикувани, но скрити от търсачки 5-те най-модерни търсачки в мрежата Прочетете още
вътре в онлайн база данни. Това е дълбока уеб TorSearch цели да бъде Google за дълбоката мрежаTor е скрита услуга и част от Deep Web. TorSearch е нова анонимна търсачка, която нейният основател Крис МакНафтън иска да направи „Google на Tor“. Прочетете още , и то е пълно с ценни данни. Много често се натъквам на уеб страници, просто запълнени с някои от най-ценните данни по теми, които управляват гамата от данните от преброяването до епидемиологичните проучвания на редки заболявания. Постоянно имам нови идеи как да опитам и съпоставям тези различни източници на данни, използвайки различни инструменти - и един от най-ценните инструменти, които открих, е уеб заявката в Microsoft Excel.Намиране на интересни корелации на данни
Това, което днес ще ви покажа, е пример за това как можете да използвате Web Exeries за изтегляне на данни от различни уебсайтове и ги диаграмирайте един срещу друг, за да търсите потенциални корелации между данни.
Начинът да започнете упражнение като това е да излезете с интересна хипотеза. Например - за да поддържам нещата интересни тук - ще на случаен принцип постулирам тези скоковещи се проценти на аутизъм в Съединените щати се причиняват или от ваксинационни инокулации или от нарастващото присъствие на електромагнитни полета в и около деца, като клетка телефони. Това е щура хипотеза, която харесвате на повечето уебсайтове за теория на конспирацията, но това прави това забавно. Нека да започнем, нали?
Първо, отворете Excel, преминете към елемента от менюто с данни и намерете иконата „От уеб“ в лентата на менюто.
Това ще използвате, за да импортирате различните таблици с данни от многото уебсайтове, които са ги публикували.
Импортиране на уеб данни в Excel
Така че, в стари времена трябва да се опитате да копирате данните от тази таблица на уеб страница, да ги поставите в Excel и след това да се справите с всички луди проблеми във форматирането, свързани с това. Обща караница и много пъти просто не си струва главоболието. Е, с Excel Web Queries тези дни няма. Разбира се, преди да можете да импортирате данните, ще трябва да се ориентирате в Google, за да намерите необходимите данни във формат на таблицата. В моя случай намерих уебсайт, който беше публикувал статистическите данни на Министерството на образованието за броя на учениците в държавните училища в САЩ, които бяха идентифицирани като аутизъм. Хубава таблица предлагаше номера от 1994 г. до 2006 г.
Така че просто кликнете върху „От уеб“, поставете URL адреса на уеб страницата в полето за адрес на заявката и след това превъртете надолу по страницата, докато видите жълтата стрелка до таблицата с данните, които искате да импортирате.
Щракнете върху стрелката, така че да стане зелена отметка.
И накрая, кажете на Excel в какво поле искате да поставите данните от таблицата във вашата нова електронна таблица.
Тогава - Voila! Данните автоматично постъпват право в електронната ви таблица.
Така че, с тенденцията на процента на аутизъм в държавните училища от 1996 до 2006 г., е време да излезем и в търсене на тенденции за ваксинация и използване на мобилни телефони.
За щастие бързо открих тенденциите за абонатите на мобилни телефони в САЩ от 1985 г. до 2012 г. Отлични данни за това конкретно проучване. Отново използвах инструмента Excel Web Query, за да импортирам тази таблица.
Импортирах тази маса в чист нов лист. След това открих тенденциите на ваксинация за процент от училищните деца, ваксинирани срещу различни заболявания. Импортирах тази таблица с помощта на инструмента за уеб заявки в трети лист. И накрая имах три листа с трите таблици, пълни с на пръв поглед несвързани данни, които бях открил в мрежата.
Следващата стъпка е използването на Excel за анализ на данните и опит за идентифициране на всякакви корелации. Именно там влиза в игра един от любимите ми инструменти за анализ на данни - PivotTable.
Анализиране на данни в Excel с PivotTable
Най-добре е да създадете своя PivotTable в чисто нов, празен лист. Искате да използвате съветника за това, което предстои да направите. За да активирате PivotTable съветника в Excel, трябва да натиснете Alt-D едновременно, докато не се появи прозорец за известия. След това пуснете тези бутони и натиснете бутона „P“. След това ще видите как се появява съветникът.
На първия прозорец на съветника искате да изберете „Множество диапазони на консолидация“, което ви позволява да изберете данните от всички импортирани листове. По този начин можете да консолидирате всички онези на пръв поглед несвързани данни в една, мощна въртяща се таблица. В някои случаи може да се наложи да масажирате някои от данните. Например, трябваше да поправя полето „Година“ в таблицата за аутизъм, така че да показва „1994“ вместо „1994-95“ - подобрявайки го по-добре с таблиците на другите листове, които също имаха начална година област.
Това общо поле между данните е това, от което се нуждаете, за да опитате и да съпоставите информация, така че имайте това предвид, когато ловите мрежата за своите данни.
След като PivotTable е свършена и имате всички различни стойности на данните, показани в една таблица, време е да направите визуален анализ, за да видите дали има някаква очевидна връзка, която ви прескача.
Визуализацията на данните е ключова
Да имаш куп числа в таблица е чудесно, ако си икономист, но най-бързият и лесен начин да имаш че „аха!“ моментът, когато се опитвате да намерите връзки като игла в сено, е чрез диаграми и графики. След като въведете PivotChart с всички събрани набори от данни, е време да създадете вашата графика. Обикновено линейна графика ще се справи най-добре, но това зависи от данните. Има моменти, когато лентова диаграма работи много по-добре. Опитайте се да разберете какъв тип данни гледате и каква форма сравненията работят най-добре.
В този случай гледам данни във времето, така че линейна графика наистина е най-добрият начин да видите тенденциите през годините. Диаграмиране на процентите на аутизъм (зелено) спрямо намалените нива на ваксинация (тъмно синьо), ваксини срещу варицела (светло синьо) и използването на мобилни телефони (лилаво), в този примерен набор от данни изведнъж се появи странна корелация с.
Колкото и да е странно, тенденцията в използването на мобилни телефони от 1994 до 2006 г. почти перфектно съвпада с покачването на процента на аутизъм за същия период от време. Въпреки че моделът беше напълно неочакван, това е перфектен пример за това как свързването на интересни данни може да разкрие увлекателни резултати - осигурявайки ви по-добра представа и мотивация да продължите да натискате напред и да търсите повече данни, които могат допълнително да ви подсилят хипотеза.
Една корелация като тази по-горе не доказва нищо. Има много тенденции, които се увеличават с течение на времето - моделът може да бъде съвпадение, но също така може да бъде важна улика в текущия ви стремеж към повече данни в Интернет. За щастие, разполагате с мощен инструмент, наречен Excel Web Queries, който ще направи този търсене само малко по-лесен.
Кредит за снимка: Кевин Дули чрез photopinкуб.см.
Райън има бакалавърска степен по електротехника. Работил е 13 години в автоматизацията, 5 години е в ИТ, а сега е инженер на приложения. Бивш управляващ редактор на MakeUseOf, той говори на национални конференции за визуализация на данни и е участвал в националната телевизия и радио.