まゆこのましんラーニング♡#04
こんにちは、ITソリューション事業部のまゆこです。
先週は夏休みを利用して、友達と沖縄に行ってきました!
やっぱり沖縄の海はきれいでした!! ホントいやされます(´-ω-`) (まわりはカップルばっかでしたけど・・・)
GO☆「まゆちゃんおかえりんこ! 沖縄でもブログチェックしてた?」 まゆこ「もちろん! ほらGO☆さん、この写真見てくださいよ(^^)/」
GO☆「フーテンの?」 まゆこ「寅さんじゃないです」(似てますけど(`3´)) まゆこ「ブログはちゃんと沖縄でチェックしてましたよ!それにググって新しい例題見つけたんです!」
↓ここにいろんな例題が書いてあります。 https://cloud.google.com/prediction/docs/developer-guide
前回、GO☆さんは体重から身長を予想をしてましたが、 このページの「Structuring the Training Data」という例題も身長予測をしています。
ただ、分析するデータの種類(列)が複数ありますね。 そういえば、言語当ても、身長当ても、分析するデータの種類(列)は一つだけでした。 言語当ては「文章」のみ、身長当ては「体重」のみです。
ところがこの身長当ては、 「性別」「父親の身長」「母親の身長」「国籍」といった4種類のデータ(属性とします)を分析させてます。
なるほど、 身長は男女によって異なるし、遺伝もするし、国籍によっても異なります。 つまり相関関係があるってことですね。これは予測しやすいです!
投入するファイルフォーマットは以下のとおりです。 [身長(答え)],[性別],[父親の身長],[母親の身長],[国籍]
Excelを使って2万件作成しました。 国籍別、性別による身長のレンジを定義し、ランダム関数を使って多少ばらつきが出るようにつくりました。 つまり、[身長(答え)]と、[性別][父親の身長][母親の身長][国籍]の4属性に相関関係を持たせています。
それでは、予測してみます。 今回もRegression models(回帰モデル)なので、分析結果までは前回とだいたい同じです。 さて、早速予測してみましょう。
前回までは1属性しか入れませんでしたが、4属性を入れる場合ってどうするんでしょう? ↓このページの下の方にサンプルがあります。「Run a prediction against your model.」で検索するとそこにとびます。 https://cloud.google.com/prediction/docs/reference/v1.4/reference
{
"input":{
"csvInstance":["M", 1.59, 1.51,"France"]
}
}
なるほど、カンマで区切って並べればいいみたいですね。 「prediction.trainedmodels.predict」を実行してみます。 私がつくったデータはcm表記でしたので、下記のように入力します。
{
"input":
{
"csvInstance":
[
"M,175,165,france"
]
}
}
"outputValue": "73.839505"
ん!? 73cm?? 答えがおかしいですね。 GO☆さんのアドバイスで今度は縦に入れてみました。
{
"input":
{
"csvInstance":
[
"M"
"175"
"165"
"france"
]
}
}
すると、
"outputValue": "175.622356"
175cm! これなら、うまくいったっぽいですね。 まゆこ「結局、横に並べるのと、縦に並べるの、どっちが正解なんですかね・・・?」 GO☆「うーん、これから検証していきましょ!」 まゆこ「はーい!」
おしまい♡
※この記事は、『株式会社ISAO ITソリューション事業部』監修のもとに製作しております。