まゆこのましんラーニング♡#04

2015年9月07日

まゆこ

こんにちは、ITソリューション事業部のまゆこです。

先週は夏休みを利用して、友達と沖縄に行ってきました！

やっぱり沖縄の海はきれいでした！！ホントいやされます(´-ω-`) （まわりはカップルばっかでしたけど・・・）

ＧＯ☆「まゆちゃんおかえりんこ！　沖縄でもブログチェックしてた？」まゆこ「もちろん！　ほらＧＯ☆さん、この写真見てくださいよ(^^)/」

ＧＯ☆「フーテンの？」まゆこ「寅さんじゃないです」（似てますけど(｀3´)）まゆこ「ブログはちゃんと沖縄でチェックしてましたよ！それにググって新しい例題見つけたんです！」

↓ここにいろんな例題が書いてあります。 https://cloud.google.com/prediction/docs/developer-guide

前回、ＧＯ☆さんは体重から身長を予想をしてましたが、このページの「Structuring the Training Data」という例題も身長予測をしています。

ただ、分析するデータの種類（列）が複数ありますね。そういえば、言語当ても、身長当ても、分析するデータの種類（列）は一つだけでした。言語当ては「文章」のみ、身長当ては「体重」のみです。

ところがこの身長当ては、「性別」「父親の身長」「母親の身長」「国籍」といった４種類のデータ（属性とします）を分析させてます。

なるほど、身長は男女によって異なるし、遺伝もするし、国籍によっても異なります。つまり相関関係があるってことですね。これは予測しやすいです！

投入するファイルフォーマットは以下のとおりです。 [身長(答え)],[性別],[父親の身長],[母親の身長],[国籍]

Excelを使って２万件作成しました。国籍別、性別による身長のレンジを定義し、ランダム関数を使って多少ばらつきが出るようにつくりました。つまり、[身長（答え）]と、[性別][父親の身長][母親の身長][国籍]の４属性に相関関係を持たせています。

それでは、予測してみます。今回もRegression models（回帰モデル）なので、分析結果までは前回とだいたい同じです。さて、早速予測してみましょう。

前回までは１属性しか入れませんでしたが、４属性を入れる場合ってどうするんでしょう？ ↓このページの下の方にサンプルがあります。「Run a prediction against your model.」で検索するとそこにとびます。 https://cloud.google.com/prediction/docs/reference/v1.4/reference

{
  "input":{
    "csvInstance":["M", 1.59, 1.51,"France"]
  }
}

なるほど、カンマで区切って並べればいいみたいですね。「prediction.trainedmodels.predict」を実行してみます。私がつくったデータはcm表記でしたので、下記のように入力します。

{
"input":
{
"csvInstance":
[
"M,175,165,france"
]
}
}

"outputValue": "73.839505"

ん！？　73cm？？答えがおかしいですね。ＧＯ☆さんのアドバイスで今度は縦に入れてみました。

{
"input":
{
"csvInstance":
[
"M"
"175"
"165"
"france"
]
}
}

すると、

"outputValue": "175.622356"

175cm！これなら、うまくいったっぽいですね。まゆこ「結局、横に並べるのと、縦に並べるの、どっちが正解なんですかね・・・？」ＧＯ☆「うーん、これから検証していきましょ！」まゆこ「はーい！」

おしまい♡

※この記事は、『株式会社ISAO　ITソリューション事業部』監修のもとに製作しております。

Colorkrew Blog

Work SaaSでもっと価値あるシゴトを。Colorkrewオフィシャルブログ

まゆこのましんラーニング♡#04

まゆこ

About Us