入門機械学習パイプライン

本リポジトリはオライリー・ジャパン発行書籍『入門機械学習パイプライン』のサポートサイトです。

レポジトリの構成

各章のノートブックがあります。また、それぞれのノートブックは、 Google の無料の計算環境である Colaboratory、もしくは、AWS の無料の計算環境である Amazon SageMaker Studio Lab を利用してブラウザで実行できます。SageMaker Studio Labの使い方はこちらをご覧ください。

フォルダの構成に関しては、以下の通りです。

フォルダ名	説明
chapters	各章に関するコードを含む
components	顧客の苦情データに対する前処理やモデルのコードを含む
interactive-pipeline	顧客の苦情データに対するインタラクティブなTFXパイプラインのコードを含む
pipelines	さまざまなオーケストレーターに対するパイプライン全体を含む。詳細は11章と12章を参照
pre-experiment-pipeline	著者たちの特徴エンジニアリングやモデルアーキテクチャに関する実験のコードを含む
requirements	実行に必要なPythonパッケージに関する情報を含む
utils	データセットのダウンロードに関するコードを含む

データセットのダウンロード

サンプルプロジェクトで使うデータは、utils/download_dataset.pyを実行することでダウンロードできます。データセットは、米消費者金融保護局が提供している顧客の苦情に関する公開データセットです。データセットをダウンロードするには、リポジトリのルートで次のスクリプトを実行します。

python utils/download_dataset.py

スクリプトの実行を終えると、consumer_complaints_with_narrative.csvという名前のファイルを含むdataディレクトリが作成されます。

ライセンス

MIT

正誤表

下記の誤りがありました。お詫びして訂正いたします。

本ページに掲載されていない誤植など間違いを見つけた方は、japan@oreilly.co.jpまでお知らせください。

第1刷

■7章 P.131 最終段落の重複

誤

モデルが分析され、検証されたので、いよいよパイプラインで重要な次のステップである、モデルのサービングに移る時が来ました。以降の2つの章では、この重要なステップについて知っておくべきことをすべて説明します。

モデルが分析され、検証されたので、いよいよパイプラインで重要な次のステップである、モデルのサービングに移る時が来ました。以降の2章では、この重要なステップについて知っておくべきことをすべて説明します。

正

モデルが分析され、検証されたので、いよいよパイプラインで重要な次のステップである、モデルのサービングに移る時が来ました。以降の2つの章では、この重要なステップについて知っておくべきことをすべて説明します。

■14章 P.295 最終段落の重複

誤

データのプライバシーと機械学習の目標はよく一致しています。とりわけ、1人の個人について学習するより、集団全体について学習し、誰にとっても等しく良い予測をしたいという点で一致しています。プライバシーを追加することで、ある人のデータに、モデルが過学習するのを防ぐことができます。将来的には、モデルが個人データで学習される際に、機械学習パイプラインにプライバシーが最初から組み込まれた設計になることでしょう。

データのプライバシーと機械学習の目標はよく一致しています。とりわけ、1人の個人について学習するより、集団全体について学習し、誰にとっても等しく良い予測をしたいという点で一致しています。プライバシーを追加することで、モデルがある人のデータに過学習するのを防ぐことができます。将来的には、モデルが個人データで学習される際に、機械学習パイプラインにプライバシーが最初から組み込まれた設計になることでしょう。

正

データのプライバシーと機械学習の目標はよく一致しています。とりわけ、1人の個人について学習するより、集団全体について学習し、誰にとっても等しく良い予測をしたいという点で一致しています。プライバシーを追加することで、モデルがある人のデータに過学習するのを防ぐことができます。将来的には、モデルが個人データで学習される際に、機械学習パイプラインにプライバシーが最初から組み込まれた設計になることでしょう。

■15章 P.302 最終段落の重複

誤

図15-2には、3つの非常に重要な機能を挙げています。それは、自動化、スケーラブル、再現性の3つです。自動化されることで、データサイエンティストはモデルの保守から開放され、新しいモデルを試す時間ができます。スケーラブルであることで、大量のデータを処理できます。また、再現性があることで、1つのプロジェクト用にインフラを一度用意してしまえば、2番目以降のプロジェクトを簡単に構築できるようになります。これらはすべて、機械学習パイプラインを成功させるために必要不可欠な機能です。

図15-2には、3つの非常に重要な機能を挙げています。それは、自動化、スケーラブル、再現性の3つです。自動化されることで、データサイエンティストはモデルの保守から開放され、新しいモデルを試す時間ができます。スケーラブルであることで、大量のデータを処理できます。また、再現性があることで、一度1つのプロジェクト用にインフラを用意してしまえば、2番目以降のプロジェクトを簡単に構築できるようになります。これらはすべて、機械学習パイプラインを成功させるために必要不可欠な機能です。

正

図15-2には、3つの非常に重要な機能を挙げています。それは、自動化、スケーラブル、再現性の3つです。自動化されることで、データサイエンティストはモデルの保守から開放され、新しいモデルを試す時間ができます。スケーラブルであることで、大量のデータを処理できます。また、再現性があることで、1つのプロジェクト用にインフラを一度用意してしまえば、2番目以降のプロジェクトを簡単に構築できるようになります。これらはすべて、機械学習パイプラインを成功させるために必要不可欠な機能です。

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.github/workflows		.github/workflows
chapters		chapters
components		components
interactive-pipeline		interactive-pipeline
pipelines		pipelines
pre-experiment-pipeline		pre-experiment-pipeline
requirements		requirements
utils		utils
.darglint		.darglint
.flake8		.flake8
.gitignore		.gitignore
CONTRIBUTING.rst		CONTRIBUTING.rst
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
Makefile		Makefile
README.md		README.md
README.us.md		README.us.md
building-ml-pipelines-ja.png		building-ml-pipelines-ja.png
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

入門機械学習パイプライン

レポジトリの構成

データセットのダウンロード

ライセンス

正誤表

第1刷

■7章 P.131 最終段落の重複

■14章 P.295 最終段落の重複

■15章 P.302 最終段落の重複

About

Releases

Packages

Contributors 3

Languages

License

oreilly-japan/building-ml-pipelines-ja

Folders and files

Latest commit

History

Repository files navigation

入門 機械学習パイプライン

レポジトリの構成

データセットのダウンロード

ライセンス

正誤表

第1刷

■7章 P.131 最終段落の重複

■14章 P.295 最終段落の重複

■15章 P.302 最終段落の重複

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

入門機械学習パイプライン

Packages