Colorkrew Blog

English
A Brief Introduction to Kafka
There’s no denying that we have already ushered in the era of big data. An enormous amount of information is generated every second. While decision-makers can gain invaluable insights from this ever-growing data, its sheer volume also poses considerable challenges to data engineers–greater demand for storage spaces, the need to handle increasingly complex data formats, and highly unpredictable network traffic. Luckily, recent years have witnessed the creation of various technologies devoted to efficiently digesting big data, and Kafka is one of them. Today, I will demonstrate how Kafka works to help kick-start your Kafka journey.
...
- 2023年03月14日
- Chen Ziyu
English
A Brief Introduction to the Inner Working of MapReduce
As a data engineer, you probably have heard about Hadoop. It is one of the most popular frameworks for distributed processing of large data sets. It is less costly and more secure than other frameworks. At its center is a programming model called MapReduce. Today we will take a closer look at MapReduce to understand the inner working of Hadoop.
...
- 2023年02月09日
- Chen Ziyu
English
ETL vs. ELT: Pick the Most Suitable Data Integration Method for Your Project
As a data engineer, you probably have heard of the data integration methodology called ETL (Extract-Transform-Load). It has been around for a while, and many data engineers have used this methodology to build data pipelines. However, ETL is not the only option up our sleeves. Recently, ELT has also been gaining a lot of popularity. In this article, I will compare ETL and ELT to help you understand their respective advantages and drawbacks so that you can choose the methodology more suitable for your project.
...
- 2023年01月30日
- Chen Ziyu
Tips
プログラミングにまつわる今昔物語
はじめに
こんにちは。Colorkrew(以下CK)の老人プログラマー TORIIです。
さて今日はColorkrewプログラミング老人会のトップ3(正確にはよくわからない)である私からプログラミングにまつわる今昔な話をしたいと思います。
実際のところ世の中のプログラミング老人会的にはまだまだ私なんぞ若造もいいところなのですが、最近我が社では若くてフレッシュでピッチピチなエンジニアが続々と増えたのに対し老人層が心持ち減ってしまい気がついたらそうなっていたのです。ただ座っていたらそうなっていたのです。実に不思議なこともあるものです。
では早速始めましょう。
第1話エンジニアとプログラマ
人類開闢以来、上流工程を取り扱うシステムエンジニアと呼ばれている人は大勢いましたが、この10年くらいでプログラムを書くことを生業とするエンジニアと呼ぶ人が随分と増えました。
いやもっと前からそうだったのかもしれませんが、正直いつから増殖を始めたのかよくわかりません。主観的な印象としてはいきなり増えた印象です。それはもうワラワラと。
一体全体、エンジニアとプログラマの違いは何なのでしょうね。
私がエンジニアを自称し始めたのはたしか2010年代の前半だったと思いますがそれ以前は自分をプログラマだと思っていました。
変わるきっかけになったのは名刺に役職を記載するときに会社のルール上「プロデューサー」と書きなさいと言われ「いや違うし」と抗議し調整した結果、上長と相談の上決めることとなった時に、最初「なんちゃってプログラマ」にしたいと言ったところ何故か却下されたので、渋々「ソフトウェアエンジニア」と書いた、というのがきっかけです。
一般的によく言われているプログラマとは誰かが作った設計書をもとにコーディングとか修正しかしない人を指すらしいです。あるいはマネジメントをしない人だとか。
エンジニアの方は俗説では工学系の学位を持った人のことだという説もあったようで、実際海外では学位がないとIT系に就職しづらい国もあるらしいです。日本ではもちろんそんな学位は必要ありません。小学生でもエンジニアを自称できます。
本当に業界や状況・文脈によって変わってくるし、今はプログラムを書かないIT職種も多数ありそれらもエンジニアと呼ばれるので、プログラムを書く人間にとっては基本的には気分の問題(プログラマというよりエンジニアと言ったほうがすごそうに聞こえる)であってそういう様々なIT系の職種を含めた総称と考えるのが良さそうですね。
そういうわけで今ではすっかり私もエンジニアと呼んでいます。でも心では永遠のプログラマなのです。
第2話タブとスペースと括弧
ソースコードのインデントにタブとスペースどちらを使うのか、というお話です。前はタブが多かった印象でしたが、今はほぼスペースが用いられていますね。なんだか知らないうちに決着がついていました。いやびっくりですね。
タブの問題点は構造化以外の目的で使うとレイアウトが崩れるところにあるのはわかっています。
でもスペースはスペースで、スペース/バックスペースN回押して書いていくのは面倒ですし、回数を間違えるとインデントがずれます。コピペの時にカーソルの位置がずれることもあります。
え？　タブキーを押すだけだろうって？それはエディタの力(ソフトタブ)ですね。
優秀なプログラミングエディタを使った場合ほぼ問題は起きません。普通のプログラミングエディタの場合だとうっかりスペースの途中からコピーしたりすると1文字過不足のあるインデント行が発生したりします。1文字ズレだと結構気づかないんですよね。
最悪なのでがソフトタブ自体がないチープなエディタしか使えない場合で、N回スペースを連打しないといけないため「スペースをインデントで使うことを指示した奴は何を考えてるんだ」と呪いたくなるほどの苦痛と化します。
まぁ、そんな環境今では稀なのでスペースで全く問題ありませんね、ええ。
年に何回かは部分的に1文字過不足のあるインデントになってしまうことがあるにはあるのですが、見かけたら直すくらいで存在自体は特に気にしないことにしています（あ、見かけたらプルリクエスト出しておいてくださいね）。
同じような話でifやforなどの制御文の括弧の開始位置をどこにするのか、という話もありますね。制御分と同じ行の最後に書くか次の行に書くかというアレです。
今はC#とかの一部の言語以外は制御文と同じ行に書くのが主流らしいですね。
私もプログラムを書き始めた時は制御文と同じ行に書いていましたが、一番最初の仕事でやったプロジェクトで括弧の開始と終了の位置が離れると対応が合わなくなるエラーが頻発したことがありました。この書き方だとどこの括弧が不足・過分になっているか・インデントがおかしいのか一見して全くわからないのです。
まぁそんな位置が離れてるような制御文を書くな、関数化しろという話ではあるのですが、若気の至りなのです。
switch文のラベルの数が1000だったかそこらまでしか対応していないコンパイラなのに、それを超えてしまって謎の不具合が発生したことがあるくらい、そんなへっぽこコンパイラと同レベルのアホだったのです。
そこで、次の行に括弧の開始を書くというスタイルに変えました。すると途端にそんな間抜けなエラーは起きなくなりました。次の行に括弧開始がなければインデントされないので一目見るだけでどこに異常があるのかわかるからです。最高です。
以来ずっと個人で書くときはその書き方をしています。
でも今の世の中はそんな最高の書き方はしないようです。恐らく括弧の開始行だけで１行消費するのが許せないのが一番の要因だと思いますが、(エディタの力などで)括弧の対応が取れなくなるようなことが起きにくくなっているのでしょう。
まぁタブ・スペースの話も括弧の話も今はどんな書き方をしたとしても、保存した瞬間にエディタによってプロジェクトで定められたフォーマットに従って自動的に修正されるので、書くだけならどんなスタイルで書いても良いというのはいい時代になりましたね。
第3話ライセンス表記
私がまだピッチピチの新人だった頃、新人研修でソースコードの先頭には会社名のライセンス表記を書きなさいと教わりました。
日本の著作権法的には書かなくても良いのですが、どうせファイルの説明文を載せるのだからついでに書いておけば良い、というくらいの認識でした。
しかしこのWeb業界、というかColorkrewではオープンソースのソースコードにはしっかりとしたライセンス表記はあれど、自分達で書いているソースコードにはライセンス表記を書いているのを見たことがありません。ファイルの内容を説明するヘッダも見たことがありません。(*1)
記述する風習自体がないようです。最初は不思議に思っていたのですが、最近は書かなくてもいいかな、と思い始めてきました。
書かなくても著作権は成立するし、万が一ソースコードが漏れた場合……とか思ったので。
でも自社プロダクトのソースコードにはきちんとつけておいた方がいいんじゃないかな、と思う今日この頃です。
さいごに
駄文を書き連ねて参りましたが、好評であれば続くかもしれません。弊社Colorkrewのプログラミング老人会では会員……もとい社員を随時募集中でございます。
...
- 2023年01月16日
- TORII
English
All You Need to Know about Lazy Evaluation in Spark
Few would disagree that the word “lazy” has a negative connotation. We usually describe someone who is not willing to work hard as lazy. However, not all laziness is undesirable, and sometimes we prefer laziness to diligence, especially in the computer science world. One example is lazy evaluation. Today, we will closely inspect why lazy evaluation is essential to Spark’s high performance and how lazy evaluation works in Spark.
...
- 2022年12月05日
- Chen Ziyu
English
Parquet Files: Smaller and Faster than CSV
If you have been in the world of big data long enough, you probably have heard about Parquet files. You might even have used it while thinking to yourself: “why can’t we just use CSV files?” Today, I will debunk the mystery of Parquet files and explain why a growing number of data scientists prefer Parquet files to CSV files.
...
- 2022年11月29日
- Chen Ziyu
English
Actions, Narrow Transformations, and Wide Transformations
Hi! My name is Ziyu Chen. I am a full-stack engineer at Colorkrew. I love learning and writing about data engineering.
Today, I would like to discuss transformations and actions in Spark. Of course, you can dive into the world of Spark and perform ETL processes without knowing how they differ from each other. However, once you are in charge of optimizing pre-existing ETL processes or building new ones from scratch, not understanding their differences might sabotage the efficiency of the ETL processes that you create. In the end, mediocrely-designed inefficient ETL processes might even increase the operation cost of your organization. Therefore, a thorough comprehension of the essence of transformations and actions becomes necessary if you want to build high-performance ETL processes using Spark.
...
- 2022年11月21日
- Chen Ziyu
English
Dependency Injection with Laravel
Dependency Injection - With Laravel
Dependency injection is a commonly used design pattern in object oriented programming. Through some pre-established conventions, we are able to manage the creation of our dependencies more easily. We can declare, replace, or even mock the dependencies as needed without the need to change the code that relies on the dependency.
...
- 2022年11月02日
- Ming Xiang
Tips
今更聞けないシリーズ#4 Azure Cognitive Services ~視覚分野編~
以前の記事では、Azure Cognitive Services全般の内容を取り上げました。今回はその中で視覚分野サービスについて、そのサービスの内容と気になる課金体系について紹介したいと思います。
試してみたいサービスが以下のURLから試すことができるので、是非アクセスしてみてください。 Hands on with AI

Azure Cognitive Services 視覚分野とは
以前紹介した通り、視覚分野では、主に画像を理解（解析）することができます。例えば次のようなことができます。 - 画像に写っているのは犬か猫かの判定 - レシート画像から何をいくらで買ったのかを検出 - 画像に写っている自社ログの検出

視覚分野のサービス
視覚分野のサービスは３つあります。
Computer Vision
Computer Vision では画像や動画の中から、文字や人、モノなど画像に何が写っているのかを自動判定することができます。例えば、会議で利用したホワイトボードの画像を入力してボード上の文字を認識したり、オフィスの画像を入力してテーブルや椅子の位置、ラップトップコンピュータの位置や人の位置など画像内の人・モノを検出することができます。 Computer Vision の公式HPはこちら
課金体系
Computer Vision の課金体系は、使った分だけの従量課金と事前予約です。１つの画像からの検出を１トランザクションと定義し、トランザクション数に応じて課金されます。従量課金の場合は、1000トランザクションごとに課金が発生します。事前予約の場合は、最低500,000トランザクションまで定額で、その後1,000トランザクションごとに追加料金が発生します。利用規模に応じて定額で利用できる枠を増やすことができます。
Custom Vision
Custom Vision は特定のモノが画像にあるないか、あるならどこにあるかを検出することができます。 Computer Vision と似ているのですが、大きな違いはCustom Vision では独自に検出したいモノを学習することができます。Computer Vision はMicrosoftが用意した検出用モデルを利用するのに対して、Custom Visionはユーザが独自に画像を学習させて検出用モデルを作り、利用することができます。例えば、自社のロゴや製品を事前に登録して、画像から登録したロゴや製品を検出する用途に利用できます。また、製品を複数登録することで、画像に含まれている製品は何かの判別に利用することもできます。加えて、Custom Visionでは、作成した検出モデルをダウンロードしてオフラインで利用することもできます。 Custom Visionの公式HPはこちら
...
- 2022年10月19日
- Kazuya Hotta
English
The Power of TypeScript Types
Any frontend developer knows the frustration of seeing the infamous “is not a function” message pop up. It reminds you that, even though your code might achieve your goal, you will not be able to assure its consistency or reliability. Without strict typing there is no stopping tiny slip-ups due to a lack of coffee - or sleep, depending on your dedication.
...
- 2022年10月06日
- Evan de Graaff
Tips
今更聞けないシリーズ#3 Azure Cognitive Services ~言語分野編~
以前の記事では、Azure Cognitive Services全般の内容を取り上げました。今回はその中で言語分野サービスについて、そのサービスの内容と気になる課金体系について紹介したいと思います。
Azure Congnitive Services 言語分野とは
以前紹介した通り、言語分野では、主に文章の内容を理解（解析）する機能をサービスに取り入れることができます言語分野ではその書き起こした文章の意味を理解し、次の行動につなげることができます。
以下のようなことができます。
- チャットボットにおいてユーザの入力したメッセージを理解して会話を続ける
- ある文章を入力してその中で重要な単語をピックアップする
- 大量のドキュメントの翻訳
言語分野の公式HPはこちら
言語分野のサービス
音声分野のサービスは５つあります。
Entity recognition（エンティティの認識）
Entity recognitionは文章から日付や製品に関する特定の情報といったキーワードを抽出できます。例えば、日付を表す単語 ”明日”や”明後日”、”８月９日”、“8/9” など様々な言い方で表現される日付を文章から見つけることができます。この機能を使って、例えばチャットのやりとりの中で会議召集を自動で作成したり、チャットを用いた予約システムで予約日を抽出することができます。また、Entity recognitionはインターネットへの接続がない環境でも利用することができます（別途申請が必要）。
課金体系
Entity recognition の課金体系は、使った分だけの従量課金と事前予約です。１文章（最大1000文字）を１テキストレコードを定義し、１テキストレコードあたりで課金されます。従量課金の場合は、1000テキストレコードごとに課金が発生します。事前予約の場合は、最低100万テキストレコードまで定額で、その後100テキストレコードごとに追加料金が発生します。利用規模に応じて定額で利用できる枠を増やすことができます。
Sentiment analysis（評判分析）
Sentiment analysisは文章から意見や感情を評価分析できるサービスです。ソーシャルメディア（SNS）に投稿される自社製品や自社ブランドの評判やECサイトに投稿されるカスタマーレビューを分析し、その製品や自社に対して肯定的なのか否定的なのかを自動判断できます。肯定的または否定的の指標は数字で表されるので、特に肯定的な意見や否定的な意見などを効率的に収集し次に活かすことができます。先ほどのEntity recognitionと組み合わせることで、肯定的な中でも評判が良い機能をリストアップすることができます。また、Sentiment analysisはインターネットへの接続がない環境でも利用することができます（別途申請が必要）。
課金体系
Sentiment analysis の課金体系は、使った分だけの従量課金と事前予約です。１文章（最大1000文字）を１テキストレコードを定義し、１テキストレコードあたりで課金されます。従量課金の場合は、1000テキストレコードごとに課金が発生します。事前予約の場合は、最低100万テキストレコードまで定額で、その後100テキストレコードごとに追加料金が発生します。利用規模に応じて定額で利用できる枠を増やすことができます。
...
- 2022年09月14日
- Kazuya Hotta
Tips
今更聞けないシリーズ#2 Azure Cognitive Services ~音声分野編~
前回の記事では、Azure Cognitive Services全般の内容を取り上げました。今回はその中で音声分野サービスについて、そのサービスの内容と気になる課金体系について紹介したいと思います。
Azure Cognitive Services 音声分野とは
以前紹介した通り、音声分野では、主に”話す・聞く”といった機能をサービスに取り入れることができます。用意したテキストを音声に変換して読みあげたり、ユーザーの音声をテキストファイルに書き起こすことができます。例えば、音声分野を用いることで、プレゼンテーションにおいてプレゼンターが話した内容をそのままテキストデータに書き起こしたり、逆に用意した原稿をコンピュータに読みあげさせたりできます。音声分野の公式HPはこちら
音声分野のサービス
音声分野のサービスは４つあります。
Speech to Text
Speech to Text は音声をテキストに変換します。いわゆる文字起こし・ディクテーションと呼ばれる機能です。 Speech to Text に音声データを入力すると、テキストデータが出力されます。音声データをクラウドにあげることはできないニーズにも対応できるオプションもあります。また、工事現場や工場など環境音が大きいユースケースに対するチューニングもできます。例えば、会議の発言ログの自動生成で利用できます。
Speech to Text の公式HPはこちら
課金体系
Speech to Text の課金体系は、使った分だけの従量課金です。テキストに変換する音声データの時間に対して、１時間ごとに課金が発生します。
Text to Speech
Text to Speech はテキストを音声に変換します。いわゆるコンピュータによる読み上げ機能です。 Text to Speech にテキストデータを入力すると、音声データが出力されます。音声はサービス側でプリセットが用意されていますが、独自に読み上げスピードや抑揚を調整することでより滑らかで自然な表現もできます。
例えば、音声チャットサービスの受け答えや受付の音声案内、動画のナレーションに利用できます。
...
- 2022年08月18日
- Kazuya Hotta
Tips
今更聞けないシリーズ#1 Azure Cognitive Servicesとは
近年、世の中でDXが注目される中で、ColorkrewでもDXに関するお問い合わせを数多くいただいております。
その中でもお問い合わせの多いAzure Cognitive Servicesについて、どんなサービスなのか、どんな課金形態なのかをシリーズを通してご紹介したいと思います。第一回目は、そもそもAzure Cognitive Servicesってなんなんだ？をテーマにお届けします。
Azure Cognitive Servicesとは
Azure Cognitive Servicesとは、AIの民主化を掲げるMicrosoft 社が提供するAIパーツのサービス群です。機械学習で課題となる”データの蓄積”や”学習”のプロセスをなるべく簡略化し、サービスに対して簡単にアプリにAI機能を取り入れることができます。 Azure Cognitive Servicesの公式HPはこちら
Azure Cognitive Servicesってどんなことができるの？
Azure Cognitive Servicesは主に４つの分野に分かれています・音声・言語・視覚・判断
音声分野
技術例：音声分析、音声生成音声分野では、主に”話す・聞く”といった機能をサービスに取り入れることができます。用意したテキストを音声に変換して読みあげたり、ユーザーの音声をテキストファイルに書き起こすことができます。例えば、音声分野を用いることで、プレゼンテーションにおいてプレゼンターが話した内容をそのままテキストデータに書き起こしたり、逆に用意した原稿をコンピュータに読みあげさせたりできます。
言語分野
技術例：テキスト解析、自然言語処理、形態素解析言語分野では、主に文章の内容を理解（解析）することができます。音声分野では、単に音声を文字として書き起こすだけだったのに対して、言語分野ではその書き起こした文章の意味を理解し、次の行動につなげることができます。例えば、言語分野を用いることで、社内のヘルプデスク窓口のチャットで質疑応答の自動化ができます。
視覚分野
技術例：画像解析、画像分析、物体検出、OCR 視覚分野では、主に画像を理解（解析）することができます。画像に写っているのは猫か犬かの判定や、レシートの画像から何を買ったかなど画像の内容を理解（解析）することができます。例えば、視覚分野を用いることで、画像に写っている自社のロゴを検出などに利用できます。
判断分野
技術例：異常検知、文章検出判断分野では、主に監視や問題の早期検出をすることができます。製品の異常を早期に発見したり、自社サイトの異常なアクセスの検出など、日々変化するデータを理解（解析）することができます。例えば、判断分野を用いることで、特定の投稿に対して、不快または好ましくない文章を検出することができます。
...
- 2022年08月03日
- Kazuya Hotta
Tips
自社サービス Mamoru Biz で AKS 導入1周年で振り返る
こんにちは。Azure Cloud Solution Architect の秋山です。
今回の記事では自社サービスで AKS 導入を始めて1年が経ち、どうやってきたか、何が変化したのかについて書きます。
1年前に書いた Azure Kubenetes Service(以下 AKS) 移行の記事は以下です。
AKS クラスターバージョンの更新管理
AKS では最新バージョンから２世代前までのマイナーバージョンをサポート対象としているため、 4-5カ月周期でリリースされるマイナーバージョンをキャッチアップする必要があります。参考:AKS Kubernetes リリース予定表
Mamoru Biz では AKS クラスターをインプレースアップグレードと呼ばれる手法で更新しています。システムが利用中のクラスターのバージョンをアップグレードし、ノードを順にアップグレードする方法です。参考:Azure Kubernetes Service (AKS) クラスターのアップグレード
もう一つ Blue/Green デプロイメントと呼ばれる手法も検討しましたが、利用していません。下の図のように、現行クラスターに加えて新バージョンのクラスターを用意し、Front Door や Traffic Manager などで切り替える方法です。
...
- 2022年07月28日
- Kohei Akiyama

はじめに

第1話 エンジニアとプログラマ

第2話 タブとスペースと括弧

第3話 ライセンス表記

さいごに

Dependency Injection - With Laravel

Azure Cognitive Services 視覚分野とは

視覚分野のサービス

Computer Vision

課金体系

Custom Vision

Azure Congnitive Services 言語分野とは

言語分野のサービス

Entity recognition（エンティティの認識）

課金体系

Sentiment analysis（評判分析）

課金体系

Azure Cognitive Services 音声分野とは

音声分野のサービス

Speech to Text

課金体系

Text to Speech

Azure Cognitive Servicesとは

Azure Cognitive Servicesってどんなことができるの？

音声分野

言語分野

視覚分野

判断分野

AKS クラスターバージョンの更新管理

第1話エンジニアとプログラマ

第2話タブとスペースと括弧

第3話ライセンス表記