まゆこのましんラーニング♡#04
こんにちは、ITソリューション事業部のまゆこです。
先週は夏休みを利用して、友達と沖縄に行ってきました!
やっぱり沖縄の海はきれいでした!!
ホントいやされます(´-ω-`)
(まわりはカップルばっかでしたけど・・・)
GO☆「まゆちゃんおかえりんこ! 沖縄でもブログチェックしてた?」
まゆこ「もちろん! ほらGO☆さん、この写真見てくださいよ(^^)/」
GO☆「フーテンの?」
まゆこ「寅さんじゃないです」(似てますけど(`3´))
まゆこ「ブログはちゃんと沖縄でチェックしてましたよ!それにググって新しい例題見つけたんです!」
↓ここにいろんな例題が書いてあります。
https://cloud.google.com/prediction/docs/developer-guide
前回、GO☆さんは体重から身長を予想をしてましたが、
このページの「Structuring the Training Data」という例題も身長予測をしています。
ただ、分析するデータの種類(列)が複数ありますね。
そういえば、言語当ても、身長当ても、分析するデータの種類(列)は一つだけでした。
言語当ては「文章」のみ、身長当ては「体重」のみです。
ところがこの身長当ては、
「性別」「父親の身長」「母親の身長」「国籍」といった4種類のデータ(属性とします)を分析させてます。
なるほど、
身長は男女によって異なるし、遺伝もするし、国籍によっても異なります。
つまり相関関係があるってことですね。これは予測しやすいです!
投入するファイルフォーマットは以下のとおりです。
[身長(答え)],[性別],[父親の身長],[母親の身長],[国籍]
Excelを使って2万件作成しました。
国籍別、性別による身長のレンジを定義し、ランダム関数を使って多少ばらつきが出るようにつくりました。
つまり、[身長(答え)]と、[性別][父親の身長][母親の身長][国籍]の4属性に相関関係を持たせています。
それでは、予測してみます。
今回もRegression models(回帰モデル)なので、分析結果までは前回とだいたい同じです。
さて、早速予測してみましょう。
前回までは1属性しか入れませんでしたが、4属性を入れる場合ってどうするんでしょう?
↓このページの下の方にサンプルがあります。「Run a prediction against your model.」で検索するとそこにとびます。
https://cloud.google.com/prediction/docs/reference/v1.4/reference
1 2 3 4 5 6 |
{ "input":{ "csvInstance":["M", 1.59, 1.51,"France"] } } |
なるほど、カンマで区切って並べればいいみたいですね。
「prediction.trainedmodels.predict」を実行してみます。
私がつくったデータはcm表記でしたので、下記のように入力します。
1 2 3 4 5 6 7 8 9 10 |
{ "input": { "csvInstance": [ "M,175,165,france" ] } } |
1 2 |
"outputValue": "73.839505" |
ん!? 73cm??
答えがおかしいですね。
GO☆さんのアドバイスで今度は縦に入れてみました。
1 2 3 4 5 6 7 8 9 10 11 12 13 |
{ "input": { "csvInstance": [ "M" "175" "165" "france" ] } } |
すると、
1 2 |
"outputValue": "175.622356" |
175cm!
これなら、うまくいったっぽいですね。
まゆこ「結局、横に並べるのと、縦に並べるの、どっちが正解なんですかね・・・?」
GO☆「うーん、これから検証していきましょ!」
まゆこ「はーい!」
おしまい♡
※この記事は、『株式会社ISAO ITソリューション事業部』監修のもとに製作しております。