реклама
Когато става въпрос за онлайн бази данни и информация, които могат да бъдат намерени вътре в общоизвестното име „невидима мрежа 12-те най-добри търсачки за изследване на невидимата мрежаGoogle или Bing не могат да търсят всичко. За да изследвате невидимата мрежа, трябва да използвате тези специални търсачки. Прочетете още „, Аз не съм типичният ти потребител. Разбира се, прекарвам малко прекалено много от времето си, пресявайки онлайн бази данни на места като Националния архив и ЦРУ FOIA четене стая, но трябва да кажа, че нищо не ме прави по-развълнувано, отколкото когато открия HTML базирана таблица, пълна с обеми на пръв поглед сложни и несвързани данни.
Факт е, че таблиците с данни са златна мина на важни истини. Данните често се събират от армии от събирания на данни за събирания на данни с ботуши на земята. Имате хора от американското преброяване, които пътуват из цялата страна за информация за домакинството и семейството. Имате екологични групи с нестопанска цел, които събират всякаква интересна информация за околната среда, замърсяването, глобалното затопляне и други. И ако сте в паранормални или Ufology, също има постоянно актуализирани таблици с информация за наблюдения на странни предмети в небето над нас.
По ирония на съдбата бихте си помислили, че всяко правителство в света би се интересувало да знае какъв вид чуждестранни плавателни съдове се забелязват в небето над която и да е държава, но явно не - поне не в САЩ. така или иначе. В Америка колекцията от необичайни гледки на занаяти е предадена на екипи от любители любители, които се стичат до нови гледки на НЛО като молци до пламък. Интересът ми към тези гледки всъщност произтича не от очарование с извънземни или занаяти от други планети, а от научно очарование с шарки - къде и защо повече хора виждат нещата в небето и дали тези наблюдения могат да отразяват нещо много реално и много по-надолу към Земята всъщност върви На.
За да проуча обемите от данни, събрани от екипи любители на НЛО, всъщност разработих начин за импортиране на големи HTML таблици на данни в електронна таблица на Google и след това манипулирайте и анализирайте тези данни, за да извлечете и откриете смислени и важни информация. В тази статия смятам да ви покажа как да направите същото.
Важни HTML данни в електронната таблица на Google
В този пример ще ви покажа как да импортирате всички данни, които може да се съхраняват в таблица на всеки уебсайт в Интернет, във вашата електронна таблица с Google. Помислете за огромния обем от данни, които са достъпни в Интернет днес под формата на HTML таблици. Само Wikipedia има данни в таблици за теми като глобално затопляне, Бюрото за преброяване на САЩ има тонове набори от данни за населението, и малко Googling ще ви достави много повече от това.
В моя пример започвам с база данни в Националния център за отчитане на НЛО, която всъщност изглежда, че може да е дълбоко уеб база данни в стил заявка, но ако спазвате Структуриране на URL адреси, това всъщност е полу-сложна уеб-базирана система за отчитане, състояща се от статични уеб страници и статични HTML таблици - точно това, което искаме, когато търсим данни за внос.
NUForc.org е една от онези организации, която служи като един от най-големите центрове за отчитане на наблюдения на НЛО. Тя не е единствената, но е достатъчно голяма, за да намираме нови набори от данни с текущи наблюдения за всеки месец. Вие избирате да видите данните, сортирани по критерии като състояние или дата и всеки от тях се предоставя под формата на статична страница. Ако сортирате по дата и щракнете върху най-новата дата, ще видите, че таблицата, посочена там, е статична уеб страница, наречена според формата на датата.
Така че сега имаме модел редовно да извличаме най-новата информация за наблюдения от тази базирана на HTML база данни. Всичко, което трябва да направите, е да импортирате първата таблица, използвайте най-новия запис (горната), за да идентифицирате последна актуализация и след това използвайте датата на тази публикация, за да изградите URL връзката, където е най-новата таблица с данни за HTML съществува. За да направите това, просто ще са нужни няколко екземпляра от функцията ImportHTML и след това няколко творчески приложения на функции за манипулиране на текст. Когато сте готови, ще имате една от най-добрите, актуализиращи се електронни електронни таблици за отчитане. Да започваме.
Импортиране на таблици и манипулиране на данни
Първата стъпка, разбира се, е да създадете новата електронна таблица.
И така, как да импортирате HTML таблици? Всичко, от което се нуждаете, е URL адресът, където се съхранява таблицата, и номерът на таблицата на страницата - обикновено тази, която първата е изброена, е 1, втората е 2 и т.н. Тъй като знам URL адреса на тази първа таблица, в който са изброени датите и броя на изгледите, е възможно да импортирате, като въведете следната функция в клетка A1.
= ImportHtml ( " http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 държи функцията „= час (сега ())“, Така че таблицата ще се актуализира на всеки час. Това вероятно е екстремно за данни, които се актуализират това рядко, така че вероятно бих могъл да се разбягам, като го правя ежедневно. Както и да е, горната функция ImportHTML внася в таблицата, както е показано по-долу.
Ще трябва да направите малко манипулация на данните на тази страница, преди да можете да съберете URL адреса на втората таблица с всички наблюдения на НЛО. Но продължете напред и създайте втория лист в работната книга.
Преди да опитате да създадете този втори лист, е време да извлечете датата на публикуване от тази първа таблица, за да изградите връзката към втората таблица. Проблемът е, че датата се въвежда като формат на дата, а не като низ. И така, първо трябва да използвате функцията TEXT, за да преобразувате датата на публикацията в отчета в низ:
= текст (A2, ”mm / dd / yy”)
В следващата клетка вдясно трябва да използвате функцията SPLIT с разделителя “/”, за да разбиете датата до месец, ден и година.
= разделяне (D2, ”/”)
Изглежда добре! Всяко число обаче трябва да бъде принудено да се постави на две цифри. Правите това в клетките точно под тях, като използвате отново командата TEXT.
= текст (E2, „00 ″)
Формат „00“ (това са нули) форсира две цифри или „0“ като запълващо място.
Вече сте готови да възстановите целия URL адрес до най-новата HTML таблица с нови наблюдения. Можете да направите това, като използвате функцията CONCATENATE и обедините всички битове информация, които току-що извадихте от първата таблица.
= Свързвам ( " http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Сега на новия лист, който създадохте по-горе (празният лист), ще направите нова функция "importhtml", но този път за първата Параметър на URL връзката, така че ще се върнете обратно към първата електронна таблица и щракнете върху клетката с току-що създадения URL адрес.
Вторият параметър е „таблица“, а последният е „1“ (защото таблицата за наблюдения е първата и единствена на страницата). Натиснете Enter, а сега просто сте импортирали целия обем гледания, публикувани на тази конкретна дата.
Така че, вероятно смятате, че това е хубав акт на новост и всичко - искам да кажа, в крайна сметка това, което сте направили, е извлечено съществуваща информация от таблица в Интернет и я прехвърли към друга таблица, макар и частна във вашите Google Документи сметка. Да, това е вярно. Обаче сега, когато е в собствения ви частен акаунт в Google Документи, имате под ръка инструментите и функциите, за да анализирате по-добре тези данни и да започнете да откривате невероятни връзки.
Използване на Pivot Reports за анализ на импортираните данни
Съвсем наскоро написах статия за използването Основни отчети в електронната таблица на Google Станете експерт анализатор на данни за една нощ с помощта на инструментите за отчети на Google SpreadsheetЗнаете ли, че един от най-големите инструменти за извършване на анализ на данни всъщност е Google Spreadsheet? Причината за това не е само защото може да направи почти всичко, което може да искате ... Прочетете още за извършване на всевъзможни подвизи за анализ на данни. Е, можете да направите същите невероятни акробатични данни за анализ на данни, които сте импортирали от Интернет - ви дава възможност да разкриете интересни връзки, които вероятно никой друг не е разкрил преди ти.
Например от финалната таблица за наблюдения бих могъл да реша да използвам обобщен доклад, за да разгледам броя на различни уникални форми, отчетени във всяка държава, в сравнение с общия брой наблюдения в този конкретен състояние. И накрая, филтрирам и всичко, споменаващо „извънземни” в секцията за коментари, за да се надяваме, че ще премахнем някои от по-кривите записи.
Това всъщност разкрива някои доста интересни неща от прилепа, като например факта, че Калифорния очевидно има най-висок брой съобщени наблюдения на всяка друга държава, заедно с разграничаването на отчитането на най-големия брой форми на занаятите в страна. Освен това показва, че Масачузетс, Флорида и Илинойс също са големи участници в отдела за наблюдение на НЛО (поне в най-новите данни).
Друго готино нещо за Google Spreadsheet е широкият набор от диаграми, налични за вас, включително гео-карта, която ви позволява изложете „горещи точки“ на данни в графичен формат, който наистина се откроява и прави тези връзки в данните доста очевидно.
Ако се замислите, това наистина е само върхът на айсберга. Ако вече можете да импортирате данни от таблици с данни на всяка страница в Интернет, просто помислете за възможностите. Вземете най-новите номера на акции или най-новите топ 10 книги и автори в списъка с бестселъри на New York Times или най-продаваните автомобили в света. Има HTML таблици на почти всяка тема, която можете да си представите, а в много случаи тези таблици често се актуализират.
ImportHtml ви дава възможността да включите електронната си таблица Google в интернет и да захранвате данните, които съществуват там. Тя може да се превърне във ваш личен център с информация, който можете да използвате за манипулиране и масажиране във формат, с който реално можете да работите. Това е просто още едно много готино нещо за Google Spreadsheet.
Импортирали ли сте някога данни в електронните си таблици? Какви интересни неща открихте в тези данни? Как използвахте данните? Споделете своя опит и идеи в секцията за коментари по-долу!
Кредити за изображения: Бизнес графика
Райън има бакалавърска степен по електротехника. Работил е 13 години в автоматизацията, 5 години е в ИТ, а сега е инженер на приложения. Бивш управляващ редактор на MakeUseOf, той говори на национални конференции за визуализация на данни и е участвал в националната телевизия и радио.