新しい教育

AIを使った英語の発音矯正アプリ 〜シリコンバレー発 ベトナム人起業家の世界を股にかけた挑戦〜

Vu Van | 日本でも150万DLを突破した究極の発音アプリELSAを提供するサンフランシスコのスタートアップELSA社のCo-Founder / CEO 。スタンフォード大学のMBAを卒業。2016年に開催されたSXSWeduのローンチ・コンペで優勝。
 
中村 岳 | レアジョブ 代表取締役社長
 
 
日本語の音声に慣れ親しんだ日本人にとって英語の発音は難しい課題です。発音が良くないとネイティブに話しを聞いてもらえないこともあります。多くの日本人が直面する発音という課題に対して、英語の発音を練習するためにはどうすればいいのか。英語の発音矯正アプリを開発したELSAのCEO Vuさんに開発の経緯やサービス展望について伺いました。

ELSAアプリとは、英語を第二言語として話す事で苦労を経験した開発チームが作った発音矯正アプリです。iOSとAndroidが用意されています。例えば、ユーザーが「z」と発音したのか「θ」と発音したのか「ð」と発音したのか、どういう間違えをしたのかを認識し、それに応じてどう口や舌を動かせばいいのか、という説明を提供しています。

英語はできるのに発音で相手に理解されなかったスタンフォード大学MBAでの原体験

どういった経緯で起業しようと思ったんですか?

私は、ベトナムで生まれ育ったのですが、英語ができると様々なチャンスが広がるということを認識していました。なので、英語を一生懸命勉強し、常に自分のアドバンテージとしていました。ベトナムの学校では、文法やリーディング、ライティングが重視されていて、しっかり勉強していたので、平均的なアメリカ人より文法はできる自信があります。

英語ができるとチャンスが広がるというのは、本当にそう思います。レアジョブのビジョン”Chances for everyone, everywhere”もそこからきています。

英語ができたこともあり、デンマークで働くチャンスを得ることができたんです。ここでは、これまであまりやってこなかったスピーキングが必要になりましたが、なんとかすることはできました。問題はこの先だったんです。アメリカに住み、スタンフォード大学のMBAで学んでいたんですが、最初の数ヶ月でスピーキングの必要性を実感しました。これまでは英語ができることがアドバンテージでした。しかし、皆がネイティブの世界では英語ができないことがディスアドバンテージになるんです。

ある時、MBAのクラスでこんなことが起きたんです。授業で手を上げて意見を講師に伝えたんですが、先生はうんうん、としか言わなかったんです。だけど、次のアメリカ人の生徒がほぼ同じ意見を伝えたら、先生はすごく良いアイディアだね、と褒めて議論が進んでいったんですよ。たった5分前に私は、同じことを伝えたのに、なんで?!と思いました。

それは、つらいですね。

先生に聞くと「英語の発音・アクセントが悪いから、内容があまりわからなかった。あなたの言った内容を確認するために、聞き返すのも失礼だからしなかったんだ。」と言われました。

私は衝撃を受けたんです。同じ内容であっても、英語の発音・アクセントによって相手の理解度が異なってしまう。これは大きな損だ。アメリカで成功するためには絶対に発音を良くさせなくてはいけない、と感じたんです。

 

 

今は、Vuさんの発音はすごく聞き取りやすいと思うんですが、どうやって発音を克服したんですか?

最初は、YoutubeやNetflixを見て真似していました。だけど、これは一方向で、自分の発音に対するフィードバックがありませんでした。8歳を過ぎてからは、特に母国語にない音の場合、違いを聞き分けることは難しいという研究結果があるので、自分の発音が合っているのか、間違っているのかを誰かから指摘してもらうことがいいと考え、スピーチセラピストに通うことにしました。$150/hと結構高いんですが。

高いですね。

そこでやったことは、文章を読んで先生が発音のおかしなところの一文字一文字に対してマークをつけていってくれました。単語単位ではないんです。すごく厳密にやっていて、たとえば、rainの「ra」の部分の発音がおかしい、という一つ一つの発音をチェックしていってくれたんです。

これがすごい役立ちました。数ヶ月後、私が話したあとに聞き返されるということもなくなり、私はとても自信がつきました。

なるほど。これが現在のサービスを着想する原体験になっていくのですね。

そうですね、英語を話して、相手に理解してもらうことは非常に重要だと実感したので、英語を学ぶ人々の発音を良くしてあげたいと考えました。とはいえ、人が常に発音をチェックしていく、というのには限界があるので、テクノロジーを使おうと考えました。音声認識技術です。

 

 

バーチャルアシスタントが音声認識技術を使って、スピーチアシスタントと同じようなことを行います。私が、スピーチセラピストに対して文章を読んでフィードバックを受けていたことを、スマホのバーチャルアシスタントに向かって行い、フィードバックを受ける。そうすれば、多くの英語学習者の発音を向上させていくことができると思いました。

ELSAの誕生ですね。なぜ、自ら起業されようと思ったのですか?

スタンフォード大学で、自分の情熱に基づいて仕事していくことが成功の定義なんだ、と学びました。私の情熱は言語学習というところにあります。だから私は起業し、サービスを作っていくことにしたんです。

アイディアを形にしていくために

Vuさんは、音声認識の技術者ではなかったとのことですが、どのようにしてサービスを作っていったんですか?

身近にある音声認識技術としては、SiriやAlexa、Googleなどありますが、これらは何を話したのか文脈を理解しようとするんです。発音が間違っていたとしても、たぶんこれを言ったんだよね、と機械が仮説を立てて認識していくんです。この技術だと、私たちがやりたいこと、すなわち、どこの発音が間違っているのかピンポイントに指摘することはできないんです。だから、これらのAPIを使ってサービスを作ることはできないなとわかり、だったら自分たちで作ろうと思いました。

なるほど。

まず、プロトタイプを作るんですが、ここで一番大きな課題だったのは、データを集めることでした。AIを利用するので、正しい発音は何か、誤っている発音は何かを機械に学習させていく必要があるんです。そこで、最初の2ヶ月は録音用アプリでデータ収集を行い、5,000人の英語データを取得しました。そのデータを使って機械に学習させていき、プロトタイプを作り、リリースしました。

なんと・・・!2ヶ月で5000人もの発音データを・・・!

リリースのタイミングで出場した2016年のSXSWeduのローンチコンペティションで優勝し、多くの注目を集め、多くの人にダウンロードしてもらうことができました。


(SXSWedu launch competition)
 

すごいですね、おめでとうございます。

 

 

この時は、正確性についてはまだまだで、もっとデータを集める必要もあり、完全な無料版でリリースしていました。世界中の様々な人が利用することで、さらにデータをためることができ、機械に発音の学習をさせていくことができました。

2017年に正確性を高めた現在のアプリにつながるセカンドバージョンをリリースしました。プロタイプバージョンとセカンドバージョンでは、正確性に大きな違いがあります。

正確性とは?

機械での結果と人間による結果を比べるんです。英語の発音に関するエキスパートがレーティングを行い、比較していきます。正確性を高めていくプロセスでは、エキスパートによるレーティングを一つ一つ機械に学習させていく、という非常に時間のかかる作業をしています。これは重要なことで、今もチームを作り、このプロセスを繰り返し行って正確性を高めています。

ポルトガルにいるCTOとサンフランシスコにいるCEO

組織についても聞いてみたいんですが、まず、どうやってCTOを見つけたんですか?

実は、6ヶ月でCTOを見つけられなかったら、このアイディアは諦めようと思ってました。というのも、このアイディアは音声認識技術、AIがコアテクノロジーになるので、その分野のプロフェッショナルな人と一緒じゃないと作り上げられないからです。

私は、サンフランシスコ、シリコンバレーにいるほとんどすべてのこの分野のエンジニアに声をかけました。Facebook, Google, Amazonなどなど。ただ、その人たちを説得して、一緒にスタートアップを始めるということはできませんでした。

 

 

そんな時、ドイツで行われる音声認識技術のトップカンファレンスのことを聞いたんです。そこには、多くの一流の研究者やエンジニアが集まるというので、行くしかないと。

行動力がすごいですね。

ということで、私はそこに参加し、CTOを探してるんだ、と多くの人に必死にプレゼンしました。そして、ついに私は出会ったんです。その方は、音声認識技術の分野で15年の経験があり、まさに求めていた人でした。私は、彼にピッチし、あなたのテクノロジーを使えばこんな新しいことができて、世界にインパクトを与えていけると口説いたんです。友人のエンジニアに頼んで、簡単なプロトタイプも作って見せていたので、彼もイメージがわき、どんなことができる、可能性がある、とサイエンティストの心をくすぐることができ、ワクワクしてくれたんです。

想いが伝わってよかったですね。

その時には、こんなことやるよ、というランディングページも作っていたのですが、それに8,000人もの人が、ウェイティングリストに登録してくれていたんです。このこともニーズがあるよ、という説得材料になり、彼を口説くすることが出来たんです。

ドイツのカンファレンスで出会ったということですが、CTOはどこの国の方なんですか?

CTOは、スペイン人でポルトガルに住んでいました。ただ、妻と子供がいて、ポルトガルを離れることはできないと言われました。すでに会社はアメリカで立ち上げていて、シードラウンドも終了し資金を得ていました。そこで、ポルトガルにCTOは住んでエンジニアチームを作り、私はサンフランシスコにいるという選択をしたんです。

いきなり二つの拠点を。大変ではないですか?

ベトナムにも小さなチームがあるので3拠点なんです。Co-FounderのCTOとは信頼が非常に重要になるので、最初の2ヶ月はサンフランシスコに来てもらい、隣同士で一緒に働いて信頼を作り上げました。

コミュニケーションはもちろん大事で、さらに時差も考慮しなければいけません。SlackやTrelloなどのツールを使うのもそうですが、デイリーミーティングをSkypeでやったり、私が、ポルトガルに3ヶ月に1回は行って、CTOやチームの人達と顔を合わせます。1年に1回は全員が集まって顔を合わせることも行いました。

様々なことを経験して、今では時差があることをうまく使えています。エンジニアが開発したら、私がレビューしてエンジニアに返す、時差があることで、エンジニアはレビューを待つ必要がないんです。翌朝にはレビューが返ってきているんで。私たちは24時間営業だね、なんてジョークも出てきています。

いいチームですね。

私たちは、規模の小さな15人のスタートアップではありますが、プロダクトマネジメントのプロセスは、大きな企業と同じようにしっかりさせています。というのも、遠隔でやりとりをしていくので、このプロセスがしっかりとしていないと、ミスコミュニケーションが多数発生してうまくいかないからです。

プロダクトマネジメントをしていくために、新しく入った人にはしっかりと教育しています。iOSチームは何をやっているのか、マーケティングチームは何をやっているのか、誰が何をやっているのか、見えて理解できるようにしています。月に1度は、全社員に対して先月あったこと、今月やっていくこと、会社としてどういう方向に向かっていくかを私がシェアするミーティングをしています。その結果、あたかも皆が同じオフィスにいるような環境になっています。遠隔で働いていくためには、きちっとした型を作り、皆がそれをフォローしていく必要があるんです。

 

 

多国籍な人で成り立っているチームですが、社内における言語はどうしているんですか?

英語を使っています。なので、全スタッフが英語を話せます。そうでないと、情報を取得できなくて困ってしまいますからね。

やはりそうですか。グローバルに働く時代では英語が必須ですよね。

ELSAを使うことによる発音矯正効果

ELSAを使うとどれくらい発音は良くなるのですか?

アプリでは0%-100%の発音スコアを出しています。ネイティブに近いほど100%に近づくというものです。4-6ヶ月ほどELSAで学習していると、多くの人は前のスコアの1.3倍以上になっていました。50%のスコアだった人は65%〜70%になっています。これは非常に大きな変化なんです。5%異なると、一つ上の発音レベルになっていると言えます。

スコアが30% – 40%の場合、あなたの英語はとても聞き取りにくいと言えます。スコアが50% – 60%の場合、あなたの英語は理解できる、ただもっと努力が必要だね、というレベル。80%になると問題なく聞き取れるというレベルになります。90%近くになるとどのアメリカ人でも全く問題なく聞き取れるレベルになります。

なるほど。

ちなみに、私のスコアは85%なので、ネイティブの発音ではありませんが、問題なく聞き取ってもらえるレベル、という感じです。

 

 

定性的な面で言えば、ユーザーにアンケートをとると、自信がついたという人が非常に多いんです。英語のスピーキングにおいて、自信がつく、というのは非常に大きな進歩の一つです。

どれくらいのユーザーがいるんですか?

300万人以上が利用し、MAUは50万人くらいです。18-30歳くらいの人が多いです。国別で言えば、ベトナムで始めたこともあり、ベトナム人が半分くらいです。日本人も多く利用しています。日本は、どの国よりも有料へのコンバージョンが高いですね。フィードバックもいいですし。他には、ブラジル人、インド人など多く利用しています。

いくらでも練習できるし、相手が人間だと何度も訂正されると恥ずかしいところ、機械なので、恥ずかしさもなく練習できるという人たちが多いです。

発音のトレーニングについて

英語の発音で大事なことってなんでしょうか?

まずはイントネーションが大事ですね。特に中級者や上級者はイントネーションが大事です。それで英語らしくなります。初級者の場合は、単語の発音自体が大事です。例えばベトナム人の場合は、最後の音を省略してしまう癖があるんです。”rice”を「ライス」ではなく「ライ」と言ってしまう。こうなってしまうと、ネイティブスピーカーには全く聞き取れません。だから単語の発音をしっかりしておく必要があるんです。

英語の発音には44個の単音があり、クラスターなどのダブルサウンドは57個あります。ただし、アプリではこれらを全部やっていくわけではありません。重要な音に絞ってトレーニングするようにしています。重要な部分ができていれば、重要でない部分ができていなくても通じるからなんです。

日本人の場合も一緒ですか?

やはり初級者は単語の発音は大事です。LとRは日本人の苦手な発音の一つですが、turn light なのか turn rightなのかで意味が大きく異なってしまいますから。

ちなみにスピーチセラピストの場合は、人によって、「あなたはまずイントネーションからやりましょう」だったり、「発音からやっていきましょう」など、その人にまず必要なものを提供しています。

イントネーションは、ELSAでトレーニングできるんですか?

それはできないんです。世の中にそういうアプリはまだありません。これから作ってリリースしたいですけどね。

今のアプリでは音の強弱、ストレスをトレーニングすることができます。ストレスは大事で、purposeを後ろにストレスをおいて発音すると、proposeのように聞こえてしまい、違った意味になってしまいます。ただ、ストレスに関しては直すのは楽なので、どんどん直して正しいアクセントにすることができます。読み方のわからない単語が出てきたら、必ず音声を聞いてそれを真似すればよいのです。

発音のトレーニングについて

これまで$4.5Mを調達してきましたが、今後どのような展開を考えていますか?

これまではB2Cにフォーカスし、クチコミで成長してきました。これからは、ワークショップをやったり、コンテンツマーケティングを行ったり、ブランドを作っていくことにお金を使っていきたいと考えています。

それから、学校の先生が生徒のために使えるようなプラットフォームも作っていきたいと考えています。

 

 

なぜ、学校教育に注目しているのですか?

学校教育って、クラスで皆が一斉に同じことを学ぶので、効率が悪いと思っています。アダプティブに行っていくのが難しい。この人には単語の発音練習が必要、この人には音の強弱のストレスの練習が必要、こういうことをクラスで行うのは難しい。だからこそ、機械を使ってやっていく必要があります。

そこでELSAですね。

そうです。学校で習った発音を生徒が家で同じように発音練習して、ELSAからフィードバックを受けるという形です。これまでだと、先生が生徒に自分の音声を録音してきてください!という宿題を出しても、先生は皆の生徒の音声を聞いてフィードバックを与えるということは難しかったですから。学校での英語教育が変わっていくと思います。

企業向けにも提供していきたいと考えています。ベトナムのタクシー会社とタクシードライバー向けに特化したものを作ったりしています。ホテルスタッフ向け、航空会社向け、など仕事で通じる英語が必要な人向けに提供していきたいです。

需要は大きそうですね。

他にも英語教育事業者向けにAPIも提供して、彼らのラーニングプラットフォームの中に発音トレーニングも組み込んでもらえるようなことも行っていきます。

発音部分だけに特化するのですか?

はい。私たちは、発音部分に特化していきます。他のスキルに関しては、様々な良いトレーニング手法がありますし、発音部分こそが私たちのコアテクノロジーですから。発音のテクノロジーに関しては、他の誰にも負けません。そしてこの発音部分こそが言語学習におけるサポート不足となっている部分なんです。将来には英語だけでなく、スペイン語や中国語、日本語など別の言語にも進出していきます。

ありがとうございました。お互い世界を代表するEdTech企業になれるように、がんばりましょう。