DMPで教育の未来を描く。「課題だらけ」の日々を乗り越えたチームが打つ、次の一手とは(後編)」

前編では、データ基盤の再構築に舵をきったものの、当時のことを何も知らないエンジニアとデータサイエンティストが、残された数百ギガの膨大のデータを解読するところからスタートし、要件の再定義、設計、実装をどのような考えで実際に取り組んでいるのかをお伝えしました。

後編では、そもそもDMP（データマネジメントプラットフォーム）プロジェクトを通して、レアジョブのエンジニアたちは、教育業界の中で何を実現しようとしているのか詳しく聞いてみました。

Contents

1 どんな理想に向かって進んでいるのか？
2 レアジョブはどんな学習のデータをもっているのか？
3 データサイエンティスト・基盤エンジニア・PM、それぞれの立場でのデータを活用した英語学習の未来とは？
4 実現するために、どんなことをやっていきたいのか？

向：新卒で面白法人カヤックにエンジニアとして入社し、多くのサービスを手がける。2015年、レアジョブに入社。アプリ領域の新規事業におけるUXディレクターを経て、マーケティングにも従事。2017年9月より、R&D室（現EdTech Lab）の責任者兼PdMとして、「英語教育3.0」の実現に向け奮闘中。座右の銘は「やりたい人はやっている」

山本：統計学の実務経験を深めるために大学を休学し、freeeや研究開発スタートアップなど複数の企業にて、自然言語処理や画像解析、アルゴリズムの研究開発に携わる。2018年よりレアジョブ R&D室（現 EdTechLab）にジョインし、データ分析組織を率いるデータサイエンティストとして、教育の未来をデータという側面から支える。

塚田：証券やFXの金融エンジニアを経て、2016年にインフラエンジニアとしてレアジョブにジョイン。DMPのプロジェクトマネージャとインフラエンジニアを兼務。2019年春からGo言語を使ったマイクロサービスでの共通基盤プロジェクトを担当。

聞き手：インタビューをするために雇われた、外部の人。

どんな理想に向かって進んでいるのか？

前記事ではDMPプロジェクトの成り立ちについてうかがいましたが、どのような理想を実現するために、データ活用の基盤構築を進めているのですか？

そうですね。いきなり英会話の話でお話しするとイメージがしづらいと思うので、マラソンの話をしますね。

マラソン…?

マラソンって、大衆化しましたよね。最近、毎週末どこかでマラソン大会が開催されているなって。

確かにランしている人多いですよね。

2007年ごろから「NIKE+（現NIKE+ RUN CLUB）」というアプリがきっかけとなって、マラソンを多くの人が楽しむようになったと思います。ちなみに、「NIKE+」というアプリは、「●●キロ走った」「速度はこれくらい」だけではなく、心拍数、５キロごとのタイムスプリントなど様々なランデータを計測してくれるアプリです。

このアプリで計測されたデータを見て、ランナーは、自分を知ることができるようになったんです。マラソンを継続するだけで自分のデータが集まるので「10キロを●分で走れるようになった！」と自分の進歩が可視化されて、かつ、フィードバックの役割も果たしています。

そういえば、塚田さんは、東京マラソンで走られていましたけど、計測なしで走るとしたらどうですか？

走れなくはないですが、効率的には走れないと思います。今どれくらいのペースで走っているのかわかるからこそ、42キロ先のゴールまでのペース配分や、モチベーションを上げるタイミングを決めることができるんです。

マラソンのタイムって周囲にシェアしたくなりますよね。自分のタイムが、他のランナーと比較してどの程度の位置にいるかがわかることで、より高い目標を設定するきっかけになったり、継続するモチベーションになったりすることもありそうです。

そうですね、ラン仲間で集うと、タイムや速度などの現状のシェア、次の目標の話、だから今このトレーニングしているんだ！って会話になりますね。

トレーニングするモチベーションが生み出されていますね。

教育では、ランニングのような世界が全然実現されていないんです。もちろん、エクササイズと同じように、運動のやり方やトレーニング方法を教えてくれる理論はありますが、一方で、今、自分がどういう状況であるかの情報がない中で、学習する人も教える人も「たぶんこれかな…？」と、確信なしに学習方法を選択しているんです。

なるほど。「自分の状態を知る」「フィードバック」「トレーニングの妥当性」「モチベーションを継続させる」あたりがポイントになってくるということでしょうか。

そう考えています。でも、実際に自分の状況を認識したり、日頃の勉強の成果を測ったりするのって難しいんですよね。例えば、本屋に行くと、英語学習の本ってたくさんあります。でも、その教材によって、どのような成果が出たのかを、直接的な因果関係で説明するのって難しい。もちろん、教材がよかったのかもしれませんが、本人の努力や周辺環境も容易に成果に影響してしまいます。

紙の教材だと、ユーザーの声を可視化させるために、定性の満足度調査をアンケート形式でやっていたりしますよね。

アンケート調査ってバイアスがかかりやすいので注意が必要です。

例えば、そもそも答えてくれるかどうかが大きなシグナルになってしまったり、自分を良く見せたいからスコア高く回答したり…といった操作をしてしまうので、そのような点を意識してデータを解読する必要があると思います。精緻に分析したければ、教材やレッスンの中でユーザーがどういう行動をしているのか、というデータの方が、分析に値する多くの重要な情報をもっていると思います。

アンケートよりも、実際の行動ログデータということですね。

教育は変数が多いので、成果に対する要因を容易には紐解けないと思っています。例えば、影響する変数には「教材」「教えられる人」「受講者の学ぶ力」「勉強するモチベーション」などがあります。

私も、英語学習で色々な組み合わせを試してきました。例えば、会話はオンライン英会話、単語はアプリ、文法は学校の授業…とか。言われてみると、何が結果的に効いているのかはわからないですね。総合競技として泥臭く時間をかけて取り組んできました。

そうなんです。

英語を話せるかどうかは、人と状況に依存します。「英語を話せますか？」という質問に対して、自分のレベルを的確に説明できる人ってなかなかいないですよね。例えば、TOEIC300点の人と比較すると、僕は英語を話せる人に分類されると思います。一方で、ビジネスで英語を使っている人と比較すると、僕は英語を話せないなと思っています。

しかも、英語を話せるようになるプロセスも可視化されていないですよね。何を勉強したらいいのか…と悩むし、無駄が多いと感じることも、いち英語学習者としてそういう課題を感じます。

英語学習を個別最適化することで、それぞれの人が自分の理想とする「英語を話せる姿」を実現できるプラットフォームを作ることが、私たちの理想です。ここを追求することで、EdTech、いわゆるEducation×Technologyの領域において、学習の新しいカタチをリードしていく会社になりたいと思っています。

壮大ですね。ちなみにみなさん、前職も教育関連の企業だったりするのですか？

面白法人カヤックです。

金融です。

Fintechです。

みなさん、教育業界とまったく関係ない仕事じゃないですか……!でも確かに、特定の産業を大きく動かすのは、いつも業界外の人が多い気もしますね。

レアジョブはどんな学習のデータをもっているのか？

「“英語を話せるようになる”とは、どういうことなのか」を考える際に重要になるのは、データです。これは、従来の英語学習で紐解けていなかった部分でもあります。

“英語を話せる”という状態を客観的に定義するのは、難易度が高そうですね。

難易度が高いから、誰もやっていないのだと思います。もちろんCEFR（外国語の学習・教授・評価のためのヨーロッパ言語共通参照枠）はありますが、それをさらに定量化定式化していき、”英語を話せる”という状態を客観的に定義する事に我々は真正面から取り組むべき企業だと思っています。

オンライン英会話サービスに関するデータにも様々な変数があります。例えば、使われている単語、文章の長さ、話す速さ、講師の言っていることへの理解度など。これらを組み合わせて定性的に示すことで、受講者の現状や学習の成果を可視化することができそうだなと考えています。

オンラインレッスン以外のインプット学習も含めると、学習方法の組み合わせは無限大ですよね。学習って人の生活の中に入っていくので、生活リズムも学習においては重要だったりしますしね。

考え方次第では、「学習」の領域って本当に広いですよね…優先順位をつけて進める必要がありますね。

教材に関するデータも、面白いと思います。教材の中で、どの単語は話しやすいとか、前のレッスンに出てきた単語が再度使われているか、とか。そういうのがデータ化されていると、「レアジョブ英会話」を受けることで習得できた単語とわかるし、どれくらいの難易度の単語を理解しているのかもわかる。そういったことなら、意外と集計するだけで可視化できると思っています。

Skypeから独自の受講システムへの移行によってレッスンのデータが取得できるようになったので、レッスン中のデータも解析していきたいですね。
（※参考：CNET Japan“レアジョブ英会話、Skypeなしで受講できる「レッスンルーム」機能を公開” https://japan.cnet.com/article/35116616/）

僕、自分のレッスンを録音して解析してみたんです。すると、1回のレッスンで、925単語くらいを使って会話していることを知りました。でも、その時は、500単語くらいの教材、要するに自分のレベルより低い教材を使っていたんです。でも、客観的なデータで自分のレベルがわかったら、自分に適したレベルで、かつ学びがある教材を使いたいなって思いますよね。適切にサジェストするだけでも無駄がなくなります。教材だけにフォーカスしても、進化できるな、と。

自分が認識している自分の能力と、実際の能力には差があったりします。知っているようで、意外と知らなかったりしますし。

だからこそ、「あなたのことを簡単にプロファイルしたよ、レベルを上げたいのであればこういう教材でスタートするといいよ」と、受講者が自分で知れて選択できる状態にしたい。こうすることで、その教材じゃなければいけないという理由がある方が、強い動機づけに繋がり、納得してスタートがきれます。

データサイエンティスト・基盤エンジニア・PM、それぞれの立場でのデータを活用した英語学習の未来とは？

データを活用した英語学習って、どんな未来があるんですか？

今後は、英会話レッスン中のパフォーマンスを定量的に可視化できる世界が当たり前になると思います。だからこそ、私たちはその先を創っていく必要があります。

シチュエーション別の発話データとかも面白そう。ビジネスシーンの会議室、カフェでの日常英会話、海外のホテルでの会話などをとっても、使われている単語やフレーズは違いますよね。会話を録音させてもらって、解析する。きっとこの3場面で話している内容も全然違うと思います。また、そういう違いを貯めていったらさらに細かいニーズに応えられ、かつ目的に合わせて英語を話せるようになれると思います。

少し技術的な話になりますが、音声認識技術については、僕は悩むところがたくさんあるんですよね。英語では音声認識がかなり進んでいて、文字起こしの精度もかなり高くなってきています。その一方で、それ以外の言語、方言だとまだまだ精度を担保するのが難しい。当たり前ですが、音声のデータは波形で、テキストではありません。

英語をテキストベースで扱える自然言語処理に落とし込むとしても、音声認識の精度にかなり依存するんです。音声認識の精度が不安定だと、曖昧な部分が残ってしまいます。そういった意味でも、僕らのような研究開発の仕事では、音声を使って付加価値を生み出す仕事をしながら、将来的には精度向上など技術的な貢献も必要になると考えています。

それに追加して、文字認識されたものがどの程度精緻なのか、ちゃんと研究しておくのも大事です。最終的にユーザーにプロファイルを届けるとなると、データがどれくらい信用できるのか…という話になってくるので。そこはすごくケアしなきゃなと思っています。

例えば、機械学習では予測と実際の値の乖離をよく確認します。例えば、医療とかだと特に顕著なのですが、病気の人を病気でないと判断する時が一番困ります。教育も同じで、受講者のレベルが高いのにあまりにも低く出てしまうのは本当に困ります。受講者の能力をデータから何か言おうとするには、機械学習からの信頼性をどれほど確保できるかっていうのが、この先大事になってくるなと思います。

納得感があるデータじゃないと、見せてはいけない。

言い切れる凄みがありますね。

それこそ、今取り組んでいるDMPの未来像は当社のサービスだけにとらわれず、研究の分野にも進めたいなと思っています。DMPがあると何が出来るのかという問いへの答えとして、たとえば音声認識がうまくいかない時にどうやって対応するかとか、音声認識の精度をどうやってあげていくか…といった研究も進められるようになるでしょう。

さらに、認識された音声をどのようにして受講者のプロファイルと一致させるか、どの部分に注目して評価をすればいいかという研究を進めることも出来るので、そこにはかなり可能性があるのかなと思います。

実現するために、どんなことをやっていきたいのか？

受講者の立場からすると、知識がないと読み解けないデータには意味がない。本来の目的は「英語が話せる」でしかないので、データを無理に押し付けられても「知らんがな」となる。受講者が“自分自身で自分のレベルや課題などの状態を理解できる”ことにフォーカスしていきたいと思います。

さらに言えば、受講者がデータを見なくてもいいんですよね。ノウハウのある人が受講者の状況を見て、アドバイスするのも全然ありだと思う。それこそダッシュボードを作って、それを読み解ける人がわかりやすくアドバイスする形も全然いい。ただ「こういう風にやったらいいよ」というノウハウは、みんなが利用できる形がいいかな。

例えば、学校の先生にダッシュボードを見えるようにしといて、「この子のレッスンはパフォーマンスがよくないな」「こういうところがうまく出来てない」みたいなのを、計測し管理できる形を作るだけで、その子に合ったフィードバックを出せたりする。僕たちみたいなサービス事業者じゃなくて、信頼できる先生から自分のことを分かってくれた状態で定量的なフィードバックをもらえると、建設的な行動に移せるのかなと思います。

ユーザーに機能を解放することは大きな意味があると考えています。英会話のデータは受講者によって気になるポイントが違うので、それぞれが見たい角度でデータに触れる事ができるからです。

AIの文脈でよく言われる「先生を奪う」みたいな、それとちょっと話が似ているかもしれないですけど、データはあくまでサポートするツール。誰がデータを使えば、最も価値を出せるんだろう…と考えたりもしますね。

そもそも、英語を話せるようになったその先も見据える必要があるなって思います。何のために英語を話せるようにしたいのか。これは人によって異なりますから。

例えば、海外旅行が好きで英会話を学びたい方にとっては、英語を話せるようになることで、ひとつのゴールである「現地の人など外国人とコミュニケーションを取る」ことが実現できるかもしれません。一方、仕事で英語が必要なビジネスパーソンにとっては、「自分の仕事を成立させること」がゴールのため、英語を話せるようになったうえで、また別の専門スキルなどが必要になってきます。

目的によってゴールが違うとなると、ますますデータが重要になってききます。先ほど述べた、シチュエーション別の発話データとか活用できそうです。ビジネスシーンの会議における会話、カフェでの日常英会話、海外のホテルでの会話などをとっても、使われている単語やフレーズが違うので、それを元に精度の高いロールプレイを提案することもできるようになります。

ものすごく将来的な話になりますけど、普通に話す内容や文章はある程度翻訳できるようになって、そこまで重要じゃなければ別に話さなくてもいいという未来になっていくとは思います。

今、僕が中国へ行くなら、ポケトークを使いますね。僕が中国語を一から覚えるよりも、ポケトークの方が優秀だから。ただ、中国で友達を作りたかったら、ポケトークではないなと。

そうですね。単に話せれば良いなら、ポケトークなどの翻訳機でいいですね。ただ、即時性を求められるタイミングでいちいち翻訳していたら「コイツ面白くねーな」となっちゃう。だから、ホームステイで「ちょっとシャワー浴びたいです」みたいなときはポケトークでもいい。「この人と友達になりたい「この国でビジネスがしたい」とか、わからないものを勉強してでも、成し遂げたいと思う気持ちに気がついたときには、自分で英語を話したいと思うのではないかと。

そこで、気付いてもらえるのが真の言語学習の価値ですね。

こういう話、去年はできなかった。実際に未来を一緒に語ってくれる仲間が増えて嬉しいです。

1人でしたもんね（笑）