データ分析に必要なオープンデータ20選
最終更新日:2021-7-30
前回はデータアナリストになるためのガイドを書きましたが、実際データ分析を行う時、手元に質のいい情報とデータがないことがしばしばあります。今回はオープンデータを20個厳選してみました。ぜひデータ分析にお役に立てください。
【関連】
≫データ分析・サイエンスに知らないと損をする【書籍、オンライン講座、ブログ】50選
一、政府の公開情報
政府の公開しているデータ量がだいぶ増えているだけでなくて、データの質も向上してきています。日本政府は多く情報を公開しており、人口、経済、医療、観光、気候などのデータをウェブサイトで簡単に手に入れます。このデータを他の国の状況と比べるすることが多いため、いくつかのよく使われる国のデータプラットフォームを知る必要があります。
1.日本統計局:http://www.stat.go.jp/
2.米国政府の公開資料:https://www.data.gov/
3.英国国立データセンター:https://data.gov.uk/
4.EU情報プラットフォーム:https://www.europeandataportal.eu/
5.中国国立データセンター:http://data.stats.gov.cn/
6.香港政府データセンター:https://data.gov.hk/ja/
7.台湾政府情報公開プラットフォーム:https://data.gov.tw/
8.Googleで検索したくない場合は、以下のウェブサイトを使用することもできます。
これは、世界各地に2,600を超えるオープンデータポータルを統合し、地図で検索できるナビゲーションサイトです。
二、国際機関の統計データ
9.経済協力開発機構(OECD)データベース:https://data.oecd.org/
各国の人口、税金、輸出入、経済状況か、グローバル経済状況などの経済データは、国やデータ別に検索することができます。 一度に複数の国のデータを比較したい場合、各国のデータプラットフォームをいちいち検索するよりも、OECDに着手するほうは手間が省けます。
10.世界銀行の公開情報:https://data.worldbank.org/
気候、融資、経済、教育、人口などの情報は非常に全面的で、ダウンロードすることができます。
11.世界保健機関:http://apps.who.int/gho/data/node.home
ここでヘルスケアについての情報を入手できます。 近年、AI医療の発展に伴って、予防接種、病気の前処理、薬物、栄養などに関するデータが増加しています。WHOは最新の情報を幅広く提供しています。
そのほか、アメリカ航空宇宙局(NASA)もデータを公開しています。必要に応じて検索してください。
三、企業/プラットフォームデータベース
12.github:https://github.com/awesomedata/awesome-public-datasets
この有名なプラットフォームがよく知られると思っています。 農業、気候、経済、教育、エネルギー、金融…いかなる情報を網羅するといえます。
以下に一部のデータベースのディレクトリを示します。
13.Google BigQuery公開データセット:https://cloud.google.com/bigquery/public-data/
これは完全に無料ではありません。1Tを超えると支払う必要があります。 主に米国の情報は多いですが、データ分析のリソースとして利用可能です。
14.YouTubeデータセット:https://research.google.com/youtube8m/index.html
YouTubeのデータが必要な方にお勧めします~
15.GOOGLEオープンデータ検索:http://www.google.com/publicdata/directory?hl=en_US&dl=ja
Googleの検索ですべてのネットワークのデータを検索することができますが、Googleのオープンデータ検索では、データベースだけ検索できます。言語を切り替えると、その言語に対応するデータベースの結果が出ます。
16.Google Trend Search:https://trends.google.com/trends/?geo=US
常にトレンドに関心を持つ方、マーケティングや営業をやった人にお勧めします。 国別にトレンドをチェックできますし、googleでのキーワードの人気度をダウンロードして分析できます。 同じキーワードが異なる国における人気度も比較できます。
17.アマゾン aws:https://aws.amazon.com/cn/datasets/
アマゾンのクロスサイエンスのデータプラットフォームで、化学、生物学、経済など複数の分野のデータセットが含まれています。 全人類の遺伝情報データベースを構築しようとする1000のゲノムプロジェクトと、NASAの衛星画像のデータベースまで含みます。
四、そのほか
18.MNIST手書き数字データベース:http://yann.lecun.com/exdb/mnist/
手書き数字画像認識のデータセットとして、MNIST手書きデータベースは、60,000例のトレーニングセットおよび10,000例のテストセットがあります。
19.UCI機械学習データベース:https://archive.ics.uci.edu/ml/datasets.html
UCI機械学習ライブラリは、機械学習アルゴリズムの実証研究のため、領域理論とデータジェネレータを結合したデータベースです。それは機械学習データセットの主要なソースとして世界中の学生、教育者、研究者によって広く使用されています。
20.Octoparse Webスクレイピングツール
ほしいデータがまとまらない場合、Webデータを取得するにはスクレイピングツールをを使用する必要があります。Octoparseは視覚的に分かりやすくデータを抽出できるWebスクレイピングツールです。コードを書くことなく、簡単なポイントアンドクリック操作をして、Webサイトからすべてのデータを収集ことが可能です。取得したデータはExcel、HTML、CSVのような構造化フォーマットで、またはご指定のデータベースに保存されます。
それに、データ抽出をよりやすくするために、OctoparseはAmazon、楽天市場、Twitterなど数多くのすぐに使えるWebスクレイピングテンプレートを提供しています。パラメータ(ターゲットWebサイトのURL、検索キーワードなど)を入力するだけで、データが抽出されてきます。クラウド型プラットフォームも提供するので、スケジュール設定が可能で、リアルタイムデータを自動抽出し、Webサイトの更新情報をいつでも入手できます。
まとめ
いかがでしょうか?以上のデータソースを十分に利用すれば、いつもと違う相当いいデータ分析を完成させるはずです。商用利用に関して、各データソースの利用条件を確認したうえで利用してください。