ユーザーのみなさまへ
いつもSimejiをお使いくださりありがとうございます。
SimejiのGoogle PlayレビューやTwitterのサポートアカウントあてにユーザーの皆様が不安に感じるに違いないお問い合わせ内容が増えてきました。
本来はおひとりおひとり個別に回答すべきなのですが、詳しく説明ができるウェブページ経由のほうがわかりやすいと判断して読み物にしました。ここに、ご迷惑をおかけしてしまった「みんなの顔文字辞典」サービス運営者の株式会社IO様に対するおわびと、ご心配をおかけしたユーザーのみなさまに対するお詫びの気持ちをこめて、ご説明いたします。
他社を攻撃したの?
4月10日の夜、バイドゥの自然言語研究員が「みんなの顔文字辞典」サービスを提供しているサーバーに、一定時間、1秒間に50回もアクセスしました。40万回のリクエストが送信されました。当社で確認したところ、1秒間に80回にも上るリクエストがなされていました。(訂正:IO株式会社様のご指摘により修正いたします。)問題の行為は4点です。
- その1:本サーバーは「アクセスお断り」の看板を出していたにも関わらず、それを無視してアクセスした
-
【解説】
サーバーには「Robot.txt」という、機械的なサーバーへのアクセス(クローラーといいます)を断る説明を設置することができます。クローラーは知識があれば自分で作ることができますが、これにこの説明を参照する仕組みを入れるのが一般的な作りかたです。今回サーバーにアクセスしたクローラーはその仕組みが入っていませんでした。 - その2:サーバー運営側がアクセスをやめさせにくい「発信元のアドレス
がを頻繁に変わえ(訂正:IO株式会社様のご提案により変更しました)る方法」でアクセスした -
【解説】
大量アクセスを受けた側は、アクセスの発信元(IPアドレスといいます)を突き止めて行為をやめさせます。しかし今回は頻繁にIPアドレスが変化するを変える(訂正:IO株式会社様のご提案により変更しました)方法が使われました。 - その3:この行為は
中、小規模のサーバーなら(訂正:IO株式会社様より、IO株式会社様のサービスの構成を把握していないはずであるというご指摘により削除)ウェブページが表示できなくなったり、表示が遅くなったりする原因になる -
【解説】
割り当てられた通信量を超えたサーバーは、一時的にサービスが停止したり、遅くなったりします。1秒間に50回のアクセスは、サーバーに負担をかけてしまいます。 - その4:ウェブページの公開などで使うような「よくあるURL」を参照したのでなく、調べないとわからない「URI」をわざわざ調べてアクセスした
-
【解説】
研究員は今回アクセスする先を、「Google Chrome」用のプラグイン(みんなの顔文字辞典)から確認して決めました。ブラウザで動くアプリはウェブページの「ソースを見る」という機能を使うのと同じような簡単な手続きで、接続先のサーバーの場所を調べることができる場合があります。同様に、ブラウザの基本機能を使ってその場所を把握したそうです。
上記のような問題を総合して考えると「攻撃した」ととらえられるのは当然だと考えています。ご迷惑をおかけした「みんなの顔文字辞典」運営会社の株式会社IO様、大変申し訳ございませんでした。
なぜそんなことをしたの?
研究員の仕事は、言語の変換精度を向上させる仕組みをつくることです。この精度は変換のしくみの核である「辞書機能」の質に関わります。たとえば、入力した文章に対していくつの変換候補が、どんな順番で出てくるか?が日本語変換エンジンの質にあたります。
Simejiには入力した文章からこれは「顔文字」にした方がいいと判断し変換候補に出す予測変換機能があります。研究員はこの「変換機能」の質をチェックしようと考えました。
入力する際に「変換する」という行為は、実は日本語などマルチバイト言語圏で使われる特有な機能です。研究員は、どんな文章を書こうとしているのかをコンピュータが機械的に判別して、利用者が意図するような文章を簡単に打てるようにするための基礎研究をしています。
例えば「そろそろかえろうかなぁえへ..」と入力した際に「そろそろ帰ろうかな($・・)/~~~」というような変換を実現するための研究をしているのです。
顔文字という表記は日本独特のものなのですが、当社で把握している大まかな数はよく使われる数百、千表記から多くて数万です。当社でも数万の顔文字を保有しています。その中には皆様が登録してくださったものや、Webで公開されている顔文字を当社独自のネット検索技術を使って収集し、整えたものが含まれます。(追記:収集してもそのまま使うことはせずに、それらを参考に人力で工夫をこらして公開しています。詳しくは「他社の顔文字を盗んだの?」をご覧ください 2014.5.12 AM10:30
)
しかしただたくさん顔文字を持っているだけでは使いものになりません。それらの顔文字に、独自技術の変換エンジンを合わせるところがポイントです。変換エンジンにくふうが必要な理由は、入力した内容を解釈して、意図する以上の変換候補がだせなければいけないからです。
特に顔文字のような記号や表記文字列は、文章などの語彙(ごい)とちがい、機械が理解して処理するのが難しいです。そうした難しい処理をつかさどる仕組みを改善したり、検証したりするためには、テストデータをつくって実際に変換を実行するといった検証が必要です。
例えば自動車などの複雑な商品を作るときは、エンジンやミッションなどの部品がきちんと設計通りに動くか、何回も走行実験などしてデータをとりますが、そんなイメージに近いです。
配属されて間もない若手研究員は、この変換性能テストのサンプルデータとして「みんなの顔文字辞典」が使えるのではないかと考えました。ブラウザ経由でアクセス場所がわかったことから「一般に公開されているデータ」と考えた研究者は、ためしに変換エンジンの内部で持っている「フレーズベースのアソシエーションテーブル」という情報を送ってみたそうです。しかし変換精度が確認できるような結果は得られず、変換性能テストはできないと考えて作業をやめました。これが問題の「大量アクセス」です。
研究者は「公開されている」と思い込んだしくみですが、実際にはrobot.txtというURLに関する取り扱いを表明したもののなかに、外部の人は利用しないでほしいという意思表示がされていました。よって一般に公開されているデータとは言えません。
なんの断りも無く他社のリソースやサーバーシステムに負荷をかけてそのような行為をすることは当社では固く禁止しています。当社ではネットワークを介した検証作業の実行権限をより一層厳しく設定することにしました。
他社の顔文字を盗んだの?
一部の報道では「バイドゥが顔文字を他社サーバーから盗んだのではないか」という趣旨の内容があります。前のトピックで説明したように、今回の不当なアクセスは研修者研究員(修正した理由:前述のとおり正しくは研究員です。誤字です。)が変換精度の検証ができるかどうかを試してみたのが事実であり、辞書に足りない顔文字を他社から盗むためではありません。
(訂正:IO株式会社様のご指摘により追記)本行為が「みんなの顔文字辞典」運営会社のIO株式会社様にご迷惑をおかけしたことは、大変申し訳ございませんでした。
Simejiでは一般に公開されている顔文字や、Simejiの「みんなの辞書」機能経由で投稿された顔文字、Twitterで顔文字募集イベントを行った際ユーザーの皆様が投稿してくださった顔文字、社内スタッフが自作した顔文字をもとに、それなりの手間をかけて顔文字辞書を作成しています。
IMEから個人情報がもれているの?
いいえ、もれていません。
文字入力アプリはコミュニケーションに使う道具ですから、会話の中に個人情報が含まれていることもあるとおもいます。また、パスワードやメールアドレスを入力することもあるでしょう。
そういった情報をネットワーク越しに変換する「クラウド変換」を利用して「変換」した場合、「よみ」情報はインターネットに飛んで行きます。(追記:すべてのテキストのうち、英語、数字にあたる文字はクラウドへ送信しません。もし英数字が入ってるリクエストが含まれてしまうケースがある場合、さらにクラウド側でこのリクエストをすぐ破棄して、サーバーに保存しない仕組みになっています。2014.5.12 AM10:40
)Simejiはそれらが通信途中で第三者に「盗聴」されないような仕組みを使っています。さらに最新のSimejiではSimejiとネットワークの通信を切り、さらに学習させない「ないしょモード」を搭載したり、クラウド変換機能をオフにしやすい設計を採用しています。
変換が終わったあとの入力情報は一時的にサーバ側で管理されますが、破棄しています。サーバー側で管理する目的は、たとえば、ある特定の語句について、誤変換に使われやすい「よみ」は何パーセント程度あるのか?という確率を計算してユーザーが一度に入力する文字数の多さ(文章の長さ)の統計から、予測のストラテジーを変更して変換精度の向上に活用するためです。(訂正した理由:担当者の指摘により例が正しくないとのことでしたので訂正しました。お詫びして訂正します。 2014.5.13 AM10:30
)
なお、現在バイドゥではこうした情報を機械的に処理して「ある個人」が特定できるような情報を生成する研究はしていません。
また、「中国に情報を流しているの?」という質問もよくいただきますが、そういった活動はしていません。先ほども説明したとおり日本語の「よみ」から意味のある情報を再生成する研究をバイドゥではしていません。そこから意味のある内容を取り出すのはかなり大変です。
安全性についてはこちらも参照してください
Baidu, Inc.、The International Association of Privacy Professionalsに正式加盟
ユーザーのプライバシーに関する取組をグローバルに強化
Simeji6.8.3におけるIntertek安全性検証結果のご案内
どうしてTwitterを連絡用に使わないの?
バイドゥは現在Twitterを、
「1.製品のPR用窓口(@Simeji_pr)」
「2.製品のサポート用窓口(@Simeji_jp)」
として活用しています。
1で活用する場合、投稿する内容は社内で「何を投稿するのか」を決めてから内容に間違いはないか、PRするに足ることかをチェックしてから投稿します。伝達の対象は不特定多数のかたです。
2の場合、製品を使ってくださっている方々が直面したトラブルの解決を試みることが目的です。伝達の対象はユーザーさん個人と、同じトラブルに見舞われているかもしれない不特定多数のかたです。
特に法人などへのご連絡の場合正確な本人確認ができず、なりすましの可能性がある以上、Twitter経由でのコミュニケーションは行わない方針です。
バイドゥでは、当社に関するご意見やご要望はsimeji_support@baidu.comのメール経由で受けたまわっています。
これからは、より一層、ユーザーのみなさまに対する各種説明への努力を欠かさずしていこうと考えています。
今後ともどうか、宜しくお願いいたします。
Last Update:2016.11.15
※掲載されている仕様や画像は現在の仕様とは異なる可能性があります。