研究開発チーム 誕生
ある日社長に呼び出され、「レアジョブの3年後を見据えたものを考えてほしい」と言われました。そして、突然R&D室(研究開発チーム)というものができあがり、僕だけがそこに属するかたちになったんです。
2017年4月、レアジョブの研究開発チームは唐突に設立された。
「とりあえず3年後を見据えて何かする。」という曖昧模糊とした目標を掲げ、向1人が所属するチームとして誕生したのだ。
具体的な計画や取り組みどころか、ミッションさえも決まっていない組織である。
とはいえ、何もしないわけにもいかないので、社長に時間をもらいながら、何やら地に足の付かない感じの机上論を色々とぶつけました。「既存のプロダクトに縛られない何か」「やはりテクノロジーは外せない」「レアジョブが究極的に解決すべき社会の課題は何か」。
散々社長の時間を使い倒して話し合った結果、何をやれば良いのかがサッパリ分からないということが分かりました。
答えがないどころか、「問いがない」状態で、研究開発チームの試行錯誤は始まった。チームと言っても、向ただ1人が佇んでいる状態だ。
暗中模索の中、向は国内外の数多のサービスに触れ、レアジョブが次に取り組むべき課題を探そうと試行錯誤を繰り返す。
研究開発チームは組織構造上、社長直下という扱いになっていた。そのため、社内では最も社長の近くに座ることになった向だが、これが最初の問題を引き起こした。
周りからは、“社長の近くに座りながら何も仕事をせず遊んでいる人”だと認識されることになったと言う。
初期の研究の一環として、『英語を話す際のメンタルバリアを取り除くために、自分自身を可愛い動物のアバターにして、動物のアバターが英語を話しているという見え方ができるようにするプロダクト』を作ってイジっていたのですが、どうも遊んでいたと思われていたみたいです。
当時の向を知る人物は、社長の横に座りながら、朝から晩まで狐みたいなアバターをイジっているので「何やってんだこの人は?」っていう空気は流れてましたよね。(笑) という。
課題の選定
さまざまな抽象的な議論を経て、研究開発チームが追求すべきは、「英語力における新たな形のフィードバックである」という結論に到達する。
レアジョブは創業以来オンライン英会話を提供し、日本人の英語力を向上させることをミッションに掲げて邁進してきました。
オンライン英会話自体が、日本人の英語力向上に寄与していることは間違いありません。しかし “英語力がどの程度向上したのか”を客観的に、日常的に、知ることはできていませんでした。何となく英語を話せるようになってきたな、と感覚的に判断することしかできなかったんです。
もちろん世には多くのテストがありますが、スピーキングにおいて「これをやっておけば良い」というものはまだ存在していませんでした。
レアジョブはこれから、「そもそも英語が話せるようになるというのはどういうことなのか」を改めて定義し直す必要がある。そして、その基準に従って、一人ひとりの英語学習者にタイムリーで適切なフィードバックをする必要がある。3年後を見据えて研究開発チームが取り組むべきは、この“フィードバック”という領域だと確信したんです。
向は狐のアバター製作を速やかに終了し、会話から個人の英語力を自動採点するサービスに着手する。
そして、25分間の発話データを元に発話者の英語力を識別するサービスのプロトタイプ、「Track」を構築。
「Track」は、英語を話す人間のワード数、ワードの種類、使っているワードのレベル感を分析し、その人が「どの程度英語を話せているか」を簡単にフィードバックすることができた。
「Track」を開発する際の最終的なゴールは、日々の発話データを元にした英語力の“完全な自動採点”でした。「Track」を開発することで、理論上は可能とだけ思われていた自動採点が、実用レベルで実現可能であると感じたんです。
ただし、当時の音声認識の精度は高くなく、レッスンの発話データを収集して利用するだけでは、まだまだ十分なフィードバックを提供できませんでした。発話データを利用するには、データの収集やフィードバックの仕組みなどさまざまな工夫が必要で、自動採点を実現することのハードルは高いと実感したことも確かです。
このまま「精度の高い自動採点」という高い目標の実現に向けて、がむしゃらに動くべきか。今の自分1人の技術では限界があるので、もう少し現実的な違う何かを考えるべきか。
向は1人、思案に暮れる日々を過ごすことになる。
何をしているのかと聞かれると、「レアジョブの未来に向けて研究しています。」としか答えられない。
僕自身は、一つのテーマについて1人で考え続けることは好きだったのですが、一方で他部門が明確に収益に向けて日々仕事に邁進している中、金になる匂いが全くしない仕事というのは難しい立ち位置ではありました。
増員
答えがなかなか出ないという状況ではありながらも、発話の内容から自動的にフィードバックを行うことがレアジョブの未来につながるという確信はありました。
ただ、自分1人でそれをするには限界を感じ、やはりこの金脈を掘れる仲間が必要だと考えて、採用を始めました。
データ分析のプロフェッショナルとしてキャリアを積んできた山本は、“まともにデータを扱える人材”として、入社と同時に研究開発チームの配属となった。
何をやるチームなのかはよく分かりませんでしたが、とにかくチームに向さん以外誰もいないのが良いなと思いました。(笑) 何でもやれそうな気がしましたし、ゼロから何かを作っていくフェーズの方がいいと思っていたので。
「Track」の話は面接の時なんかに聞いていて、単純に「そういうの好きだな」と思っていました。
山本と組めば何でもできるだろうと判断した向は、その足で改めて社長と話し合いの場を設け、「人工知能を活用した、スピーキング力の完全な自動採点」を研究開発チームで実現することを宣言した。
能力や積極性を評価していただいたのはありがたいですが、正直、やりたくはないと思っていました。マークシートの〇×を採点するのは簡単ですが、英語がうまいかどうかの判定というのは、当時のフェーズからすると途方もない挑戦だった。実現できるイメージがわかなかったです。
ただ、向さんが勝手にコミットしちゃったみたいなので、もはや、どうしようもなかったです。(笑)
向と山本は手始めに、とあるユーザーが「英語を話せる人」なのか「英語を話せない人」なのかを分ける実験から着手。
「Track」の延長にある技術で対応可能だったことから、程なくして人間の判断と7-8割程度一致するという成果を得た。
このスモールスタートにより自動採点実現の可能性を確信した2人は、さらにプロジェクトの増員を要請し、数ヶ月後にはメンバーが5人に増えた。
困難
人工知能を用いた自動採点のプロジェクトは、純粋な技術面での問題に加え、別軸の難しさを含んでいた。自動採点の前提となる、リアルでの“ビジネススピーキングテスト”の開発が同時並行で進んでいたということである。
自動採点における最終的なゴールは、一つの発話データを元に、「あなたの英語レベルは〜です。」とフィードバックすることだが、このスピーキング力におけるそもそもの測定指標の開発が、まだ終わっていない。
これが、自動採点のプロジェクトの難しさに拍車をかけたのだ。
最終的な要件が決まっておらず、求められるものが日々変わるので、手戻りが発生することもありました。
向と山本はビジネススピーキングテスト開発側の状況を理解し、自動採点へと組み込む方法を明確にすべく、英語の採点基準に関する先行研究の論文などを読み込み、学術的知識を深めていく。
外部のビジネススピーキングテストの専門家に、何度も話を聞きに行きました。「英語力とは何か」という根本的な問いにまつわるテーマで、何時間も終わりなき議論を重ねました。
全社化
2020年1月末、自動採点の精度は、半数以上のパターンで満足のいく結果が得られていた。
自動採点の精度が想像を超えるほど上がっているという噂を耳にした経営陣に、向は呼び出されることになる。
会議室に入ったら、偉い人が数人いて、唐突に「自動採点できるの?」と聞かれました。
たった1人の人間が思案に暮れるだけの研究開発チームから始まった企画は、気がつけば全社で最も注目を集めるプロジェクトの一つとなった。
もう腹を決めていたので、何が何でも完成させるつもりでした。
えらいことになったな、と(笑)
“全社プロジェクト”という位置付けになったことにより関係者は3倍以上となり、間接的に関わる部門も含め総勢20名以上に。当初は、「1,000人くらい受けてもらえたら良いね」と言っていた受験者数の目標は、3年以内に年間のべ100万人受験に変更となった。
受験画面と自動採点のシステムをどう連携するか、連携時に何が起こるかなど連日議論をする傍ら、2人は「そもそも自動採点とは何なのか」を社内で各関係者に最初から説明していく。自動採点自体の精度向上に加え、向と山本は2020年6月のリリースに向けたあらゆる業務に奔走した。
各種業務に忙殺されていたので、1月くらいからの記憶がちょっと明確に残っていないです(笑)
『PROGOS』 リリース
2020年6月、予定していた自動採点の精度も基準値を超えスピーキング力の自動採点、『PROGOS』のリリースは、各種メディアでも報じられた。
「レアジョブの3年後を見据えて何かしたい」、と向が社長から相談を受けた日から、約、3年後の出来事である。