Това са най-добрите безплатни източници на отворени данни, които всеки може да използва

Какво са отворени данни?

С прости думи, Отворени данни означава вида данни, които са отворени за всеки и всеки за достъп, промяна, повторна употреба и споделяне.

Open Data се основава на различни „отворени движения“ като отворен код, отворен хардуер, отворено правителство, отворена наука и т.н.

Правителства, независими организации и агенции излязоха с предложение да отворят шлюзите от данни, за да създадат все повече и повече отворени данни за безплатен и лесен достъп.

Защо отворените данни са важни?

Отворените данни са важни, защото светът се разраства все повече и повече от данни. Но ако има ограничения за достъпа и използването на данни, идеята за управление и управление на данни няма да се материализира.

Следователно отворените данни имат свое уникално място. Тя може да позволи по-пълно разбиране на глобалните проблеми и универсалните проблеми. Това може да даде голям тласък на бизнеса. Това може да бъде голям тласък за машинно обучение. Той може да помогне в борбата с глобални проблеми като болести, престъпления или глад. Отворените данни могат да дадат възможност на гражданите и следователно да укрепят демокрацията. Той може да рационализира процесите и системите, които обществото и правителствата са изградили. Тя може да помогне за трансформиране на начина, по който разбираме и общуваме със света.

Ето моят списък с 15 страхотни източника на отворени данни:

1. Отворени данни на Световната банка

Като хранилище на най-изчерпателните данни в света относно случващото се в различни страни по света, Отворените данни на Световната банка са жизненоважен източник на отворени данни. Той също така осигурява достъп до други набори от данни, които са споменати в каталога с данни.

Отворените данни на Световната банка са огромни, тъй като разполага с 3000 набора от данни и 14000 индикатора, обхващащи микроданни, статистически данни за времеви редове и геопространствени данни.

Достъпът и откриването на данните, които искате, също е доста лесно. Всичко, което трябва да направите, е да посочите имената на индикаторите, държави или теми и това ще отвори съкровищницата на Отворени данни за вас. Също така ви позволява да изтегляте данни в различни формати като CSV, Excel и XML.

Ако сте журналист или академик, ще бъдете очаровани от множеството инструменти, с които разполагате. Можете да получите достъп до инструменти за анализ и визуализация, които могат да подсилят вашите изследвания. Той може да посрещне по-дълбоко и по-добро разбиране на глобалните проблеми.

Можете да получите достъп до приложния програмен интерфейс (API), който може да ви помогне да създадете визуализациите на данните, от които се нуждаете, живи комбинации с други източници на данни и много други такива функции.

Ето защо не е изненада, че отворените данни на Световната банка оглавяват всеки списък с източници на отворени данни!

2. СЗО (Световна здравна организация) - Отворено хранилище за данни

Хранилището за отворени данни на СЗО е начинът, по който СЗО проследява специфичните за здравето статистически данни за своите 194 държави-членки.

Хранилището поддържа систематично организираните данни. Той може да бъде достъпен според различни нужди. Например, независимо дали става въпрос за смъртност или тежест от болести, човек може да получи достъп до данни, класифицирани под 100 или повече категории като Целите на хилядолетието за развитие (детско хранене, детско здраве, майчино и репродуктивно здраве, имунизация, ХИВ / СПИН, туберкулоза, малария, пренебрегвани болести, вода и канализация), незаразни болести и рискови фактори, предразположени към епидемии болести, здравни системи, здраве на околната среда, насилие и наранявания, справедливост и др.

За вашите специфични нужди можете да преминете през наборите от данни според теми, категория, индикатор и държава.

Хубавото е, че е възможно да изтеглите всички данни, от които се нуждаете, във формат Excel. Можете също така да наблюдавате и анализирате данни, като използвате неговия портал за данни.

Наличен е и API за съдържанието на данни и статистика на Световната здравна организация.

3. Google Public Data Explorer

Стартирал през 2010 г., Google Public Data Explorer може да ви помогне да изследвате огромни количества набори от данни от обществен интерес. Можете да визуализирате и съобщавате данните за съответните ви употреби.

Това прави данните от различни агенции и източници достъпни. Например можете да получите достъп до данни от Световната банка, Бюрото по статистика на труда и Бюрото на САЩ, ОИСР, МВФ и други.

Различните заинтересовани страни получават достъп до тези данни за различни цели. Независимо дали сте студент или журналист, дали сте политик или академик, можете да използвате този инструмент, за да създадете визуализации на публични данни.

С помощта на Data Explorer можете да внедрите различни начини за представяне на данните, като линейни графики, стълбови графики, карти и балонни диаграми.

Най-хубавото е, че бихте намерили тези визуализации за доста динамични. Това означава, че ще видите как те се променят с течение на времето. Можете да променяте теми, да се фокусирате върху различни записи и да променяте мащаба.

Той също е лесно за споделяне. Веднага след като подготвите диаграмата, можете да я вградите във вашия уебсайт или блог или просто да споделите връзка с приятелите си.

4. Регистър на отворени данни за AWS (RODA)

Това е хранилище, съдържащо публични набори от данни. Това са данни, които са достъпни от ресурсите на AWS.

Що се отнася до RODA, можете да откривате и споделяте данните, които са публично достъпни.

В RODA можете да използвате ключови думи и маркери за често срещани типове данни като геномни, сателитни изображения и транспорт, за да търсите каквито и да е данни, които търсите. Всичко това е възможно на прост уеб интерфейс.

За всеки набор от данни ще откриете страница с подробности, примери за употреба, информация за лицензи и уроци или приложения, които използват тези данни.

Като използвате широка гама от изчислителни продукти и продукти за анализ на данни, можете да анализирате отворените данни и да изграждате каквито услуги искате.

Докато данните, до които имате достъп, са достъпни чрез ресурси на AWS, трябва да имате предвид, че те не се предоставят от AWS. Тези данни принадлежат на различни агенции, правителствени организации, изследователи, фирми и физически лица.

5. Портал за отворени данни на Европейския съюз

Можете да получите достъп до каквото и да е отворени данни институции, агенции и други организации на ЕС, публикувани на една платформа, а именно Портал за отворени данни на Европейския съюз.

Порталът за отворени данни на ЕС е дом на жизненоважни отворени данни, отнасящи се до области на политиката на ЕС. Тези области на политика включват икономика, заетост, наука, околна среда и образование.

Около 70 институции, организации или отдели на ЕС, като Евростат, Европейската агенция за околната среда, Съвместният изследователски център и други генерални дирекции на Европейската комисия и агенции на ЕС са публикували своите масиви от данни и им е разрешен достъп. Тези набори от данни са преминали числото от 11700 до момента.

Порталът позволява лесен достъп. Можете лесно да търсите, изследвате, свързвате, изтегляте и използвате повторно данните чрез каталог с общи метаданни. Можете да го направите за вашите специфични цели. Може да има търговски или нетърговски цели.

Можете да търсите в каталога с метаданни чрез интерактивна търсачка (раздел Data) и заявки SPARQL (раздел Linked data).

Използвайки този каталог, можете да получите достъп до данните, съхранявани на различните уебсайтове на институциите, агенциите и организациите на ЕС.

6. FiveThirtyEight

Това е чудесен сайт за журналистика и разказване на истории.

Той предоставя своите различни източници на данни за различни сектори като политика, спорт, наука, икономика и др. Можете също да изтеглите данните.

Когато осъществите достъп до данните, ще срещнете кратко обяснение относно всеки набор от данни по отношение на неговия източник. Също така ще се запознаете какво означава и как да го използвате.

За да направи тези данни лесни за ползване, той предоставя набори от данни във възможно най-прости, непатентовани формати като CSV файлове. Излишно е да казвам, че тези формати могат да бъдат лесно достъпни и обработени както от хора, така и от машини.

С помощта на тези набори от данни можете да създавате истории и визуализации според вашите собствени изисквания и предпочитания.

7. Бюро за преброяване на населението в САЩ

Бюрото за преброяване на населението в САЩ е най-голямата статистическа агенция на федералното правителство. Той съхранява и предоставя надеждни факти и данни относно хората, местата и икономиката на Америка.

Бюрото за преброяване счита своята благородна мисия да разширява своите услуги като най-надежден доставчик на качествени данни.

Независимо дали става въпрос за федерално, щатско, местно или племенно правителство, всички те използват данните от преброяването за различни цели. Тези правителства използват тези данни, за да определят местоположението на нови жилища и обществени съоръжения. Те също го използват по време на изследване на демографските характеристики на общностите, щатите и САЩ.

Тези данни се използват и при планирането на транспортни системи и пътища. Когато става въпрос за определяне на квоти и създаване на полицейски и пожарни участъци, тези данни са полезни. Когато правителствата създават локализирани области за избори, училища, комунални услуги и т.н., те се възползват от тези данни. Практика е да се събира информация за населението веднъж на десетилетие и тези данни са доста полезни за постигането на същата.

Има различни инструменти като American Fact Finder, Census Data Explorer и Quick Facts, които са полезни в случай, че искате да търсите, персонализирате и визуализирате данни.

Например „Бързи факти“ съдържа статистика за всички щати, окръзи, градове и дори градове с население 5000 или повече.

По същия начин, American Fact Finder може да ви помогне да откриете популярни факти като население, доходи и т.н. Той предоставя информация, която често се иска.

Хубавото е, че можете да търсите, да взаимодействате с данните, да се запознаете с популярните статистически данни и да видите свързаните с тях диаграми чрез Census Data Explorer. Освен това можете също да използвате визуален инструмент за персонализиране на данни в интерактивни карти.

8. Data.gov

Data.gov е съкровищницата на отворените данни на правителството на САЩ. Едва наскоро беше взето решение всички правителствени данни да се предоставят безплатно.

Когато беше пуснат, имаше само 47. Сега има 180 000 набора от данни.

Защо Data.gov е чудесен ресурс, защото можете да намерите данни, инструменти и ресурси, които можете да внедрите за различни цели. Можете да провеждате своите изследвания, да разработвате уеб и мобилни приложения и дори да проектирате визуализации на данни.

Всичко, което трябва да направите, е да въведете ключови думи в полето за търсене и да прегледате типове, тагове, формати, групи, типове организации, организации и категории. Това ще улесни лесния достъп до данни или набори от данни, от които се нуждаете.

Data.gov следва Проекта за отворена схема за данни - набор от необходими полета (заглавие, описание, маркери, последна актуализация, издател, име на контакт и др.) За всеки набор от данни, показан на Data.gov.

9. DBpedia

Както знаете, Уикипедия е чудесен източник на информация. DBpedia има за цел да получи структурирано съдържание от ценната информация, създадена от Уикипедия.

С DBpedia можете семантично да търсите и изследвате връзките и свойствата на ресурса на Wikipedia. Това включва и връзки към други свързани набори от данни.

В набора от данни на DBpedia има около 4,58 милиона обекта. 4.22 милиона са класифицирани в онтологията, включително 1 445 000 души, 735 000 места, 123 000 музикални албума, 87 000 филма, 19 000 видеоигри, 241 000 организации, 251 000 вида и 6 000 болести.

Има етикети и резюмета за тези обекти на около 125 езика. Има 25,2 милиона връзки към изображения. Има 29,8 милиона връзки към външни уеб страници.

Всичко, което трябва да направите, за да използвате DBpedia, е да напишете SPARQL заявки срещу крайна точка или като изтеглите техните сметища.

DBpedia е облагодетелствала няколко предприятия, като Apple (чрез Siri), Google (чрез Freebase и Google Knowledge Graph) и IBM (чрез Watson), и по-специално техните съответни престижни проекти, свързани с изкуствен интелект.

10. freeCodeCamp Open Data

Това е общност с отворен код. Защо има значение е, защото ви позволява да кодирате, да изграждате про-боно проекти след организации с нестопанска цел и да вземете работа като разработчик.

За да се случи това, общността freeCodeCamp.org предоставя на разположение огромни количества данни всеки месец. Превърнали са го в отворени данни.

В това хранилище ще намерите най-различни неща. Можете да намерите набори от данни, анализ на същите и дори демонстрации на проекти въз основа на данните freeCodeCamp. Можете също така да намерите връзки към външни проекти, включващи данните на freeCodeCamp.

Тя може да ви помогне с разнообразие от проекти и задачи, които може да имате предвид. Независимо дали става въпрос за уеб анализ, анализ на социални медии, анализ на социални мрежи, анализ на образованието, визуализация на данни, уеб разработка, управлявана от данни, или ботове, данните, предлагани от тази общност, могат да бъдат изключително полезни и ефективни.

11. Yelp Open Datasets

Наборът от данни на Yelp в основата си е подмножество на нищо друго освен нашия собствен бизнес, рецензии и потребителски данни за използване в лични, образователни и академични занимания.

Има 5 996 996 рецензии, 188 593 фирми, 280 991 снимки и 10 столични области, включени в Yelp Open Datasets.

Можете да ги използвате за различни цели. Тъй като те са достъпни като JSON файлове, можете да ги използвате, за да научите студентите за бази данни. Можете да ги използвате, за да научите NLP или за примерни производствени данни, докато разбирате как да проектирате мобилни приложения.

В този набор от данни ще намерите всеки файл, съставен от един тип обект, по един JSON-обект на ред.

12. Набор от данни на УНИЦЕФ

Тъй като УНИЦЕФ се занимава с голямо разнообразие от критични въпроси, той събра необходимите данни за образованието, детския труд, детската инвалидност, детската смъртност, майчината смъртност, водата и хигиената, ниското тегло при раждане, антенаталните грижи, пневмонията, маларията, йодния дефицит разстройство, осакатяване / рязане на женски полови органи и юноши.

Отворените масиви от данни на UNICEF, публикувани в Регистъра на IATI: //www.iatiregistry.org/publisher/unicef, са извлечени директно от операционната система на UNICEF (VISION) и други системи за данни и отразяват данните, направени от отделни офиси на UNICEF.

Хубавото е, че има редовна актуализация, когато става въпрос за тези набори от данни. Всеки месец данните се актуализират, за да ги направят по-изчерпателни, надеждни и точни.

Можете свободно и лесно да получите достъп до тези данни. За да направите това, можете да изтеглите тези данни в CSV формат. Можете също така да прегледате примерни данни, преди да ги изтеглите.

Въпреки че всеки може да изследва и визуализира наборите от данни на УНИЦЕФ, има трима основни издатели:

ПОРТАЛЪТ НА ПРОЗРАЧНОСТТА НА ПОМОЩТА НА УНИЦЕФ: Можете да получите много по-лесен достъп до наборите от данни, ако използвате този портал. Той също така включва подробности за всяка държава, в която работи УНИЦЕФ.

Издателски d-портал: В момента е в БЕТА версия. С този портал можете да изследвате данните от IATI.

Можете да търсите информация, свързана с дейности за развитие, бюджети и т.н. Можете да изследвате тази информация по държави.

Платформа за данни на издателя: На тази платформа можете лесно да получите достъп до статистически данни, диаграми и показатели за данни, достъпни чрез регистъра на IATI. Ако щракнете върху заглавките, можете също да сортирате много от таблиците, които виждате на платформата. Също така ще намерите много от наборите от данни в платформите в машинно четим формат JSON.

13. Кагъл

Kaggle е страхотен, защото насърчава използването на различни формати за публикуване на набори от данни. По-добрата част обаче е, че настоятелно препоръчва издателите на набори от данни да споделят данните си в достъпен, непатентован формат.

Платформата поддържа отворени и достъпни формати за данни. Важно е не само за достъп, но и за всичко, което искате да направите с тези данни. Следователно, Kaggle Dataset ясно определя файловите формати, които се препоръчват при споделяне на данни.

Уникалното при наборите от данни на Kaggle е, че това не е просто хранилище на данни. Всеки набор от данни означава общност, която ви позволява да обсъждате данни, да откривате публични кодове и техники и да концептуализирате вашите собствени проекти в ядра.

CSV, JSON, SQLite, Archive, Big Query и др. Са типове файлове, които Kaggle поддържа. Можете да намерите разнообразни ресурси, за да започнете да работите по вашия проект с отворени данни.

Най-хубавото е, че Kaggle ви позволява да публикувате и споделяте набори от данни частно или публично.

14. ЛОДУМ

Това е инициативата за отворени данни на университета в Мюнстер. По тази инициатива е възможно всеки да получи достъп до всякаква обществена информация за университета в машинно четими формати. Можете лесно да получите достъп и да го използвате повторно според вашите нужди.

В рамките на този проект се предоставят отворени данни за научни артефакти и кодирани като свързани данни.

С помощта на свързани данни е възможно да се споделят и използват данни, онтологии и различни стандарти за метаданни. Всъщност се предвижда това да бъде приетият стандарт за предоставяне на метаданни и самите данни в мрежата.

Екипът на LODUM е съорганизатор на LinkedUniversities.org и LinkedScience.org.

Можете да използвате SPARQL редактор или SPARQL пакет R за анализ на данни.

Пакетът SPARQL позволява да се свържете с крайна точка на SPARQL през HTTP, да зададете заявка SELECT или заявка за актуализация (LOAD, INSERT, DELETE).

15. Хранилище за машинно обучение на UCI

Той служи като изчерпателно хранилище на бази данни, теории на домейни и генератори на данни, които се използват от общността за машинно обучение за емпиричен анализ на алгоритмите за машинно обучение.

Понастоящем в това хранилище има 463 набора от данни като услуга за общността на машинното обучение.

Центърът за машинно обучение и интелигентни системи към Университета на Калифорния, Ървайн, го поддържа и поддържа. Дейвид Аха първоначално го беше създал като аспирант в UC Irvine.

Оттогава ученици, преподаватели и изследователи по целия свят го използват като надежден източник на набори от данни за машинно обучение.

Начинът на работа е, че всеки набор от данни има своя отделна уеб страница, която включва всички известни подробности, включително всички съответни публикации, които го изследват. Можете да изтеглите тези набори от данни като ASCII файлове, често полезния CSV формат.

Подробностите за наборите от данни са обобщени по аспекти като типове атрибути, брой екземпляри, брой атрибути и публикувана година, които могат да бъдат сортирани и търсени.

Портали за отворени данни и търсачки:

Въпреки че има много набори от данни, публикувани от многобройни агенции всяка година, много малко набори от данни стават признати и установени.

Причината, поради която много малко такива набори от данни поддържат като полезен ресурс, е, че е предизвикателство да се разработят, управляват и предоставят данните по начин, който хората и организациите намират за полезни и лесни за използване.

Моля, намерете по-долу списък с други няколко важни портали и платформи с отворени данни, които позволяват на потребителите да имат достъп до отворени данни доста лесно, да проучат въздействието и да получат ценна информация.

  1. Търсене на данни в Google
  2. Dataverse
  3. Отворете комплекта за данни
  4. Ckan
  5. Отворете монитора за данни
  6. Plenar.io
  7. Карта на въздействието на отворените данни

Заключение

Отворените данни са по реда на деня. Светът постепенно започна да се движи към отворени системи и отворените данни с право са в синхрон с това.

Бизнесът и организациите, които използват открити данни, ще спечелят конкурентно предимство и ще могат да доминират в бъдеще.