デジタル法務の実務Q&A 発売になりました。

「デジタル法務の実務Q&A」(日本加除出版)発売になりました。

なお、この発売を記念して、11月10日に、出版記念パーティを開催しました。来ていただいた方々、ありがとうございました。

このこのパーティでライトニングトークということで、購入すべき10の理由をお話しさせていただきました。

  • デジタル法シリーズ 第2弾であること
  • データ戦略本の筆頭編集者 中崎弁護士 渾身の「eスポーツの法と実務」論文が読める
  • サイバーセキュリティのエヴァンジェリスト 北條先生の書き下ろし刑事分析が、こんなに充実して読めるのは、この本だけ
  • 今年の流行語に対応するためには、ぜひこの一冊
  • デジタル証拠の時代における不正調査の実務にふれた唯一の本
  • 横文字語って、ちょっと業界人ぽい感じになれる
  • リスク=機会+(狭義の)リスク/「不確実性」といって、情報のオポチュニティから、ガバナンスを説明しているユニークな本

などの理由をあげさせていただきました。

いい本には、買う理由はいらないというのが本当なところですね。

おかげさまで「電子契約」の観点からの書評もいただいています。この点も購入すべき理由にいれておくべきでした。売れていただければ、第3弾で、デジタル契約とかも、おおきくフィーチャーできるかと思います。

デジタル法務の実務Q&A 11月上旬発売です

 

 

 

 

 

 

「デジタル証拠の法律実務Q&A」に次ぐ、デジタル法シリーズ第2弾である「デジタル法務の実務Q&A」が、11月上旬に発売になります。

情報ガバナンスをベースに不正調査・個人情報保護、GDPR、仮想通貨、AI、APIなど現代社会で問題になる論点できる限りカバーしています。

あと、刑法の部分がすごく充実しています。デジタル証拠本は、官公庁にも支持されたと聞いています。官公庁さん、この本もよろしくお願いします。

デジタル証拠の本が、これだけ支持されたというのは、社会のデジタル化が、ついに法曹界も無視できないレベルにいたったということなのだろうと思います。しかしながら、社会は、その間に数歩も進んでいます。その社会にキャッチアップするというのが、この本のミッションです。チャットボットの設計図まで公開して、なんちゃってAIの法律問題を検討していたりしています。

ご購入いただけると幸いです。

予測的タグ付けのメモ その1

ドキュメントレビューにおいて予測的タグ付け(Predicitive Coding)を利用して、レビューをした場合に、具体的な進行に関する判断との関係で、統計学の用語についての一定の理解が必要になるので、きちんと再度、調べてみました。(とりあえず、教科書をみながらの復習ですので、間違っていたら、お許しください)

ちなみに、予測的タグ付けというのが何かということになりますが、”Predictive Coding for Dummies”という本がrecommindからでていました。それで勉強しました。あと、特許もでています(US7933859 B1)。

まずは、最初に、ドキュメントレビューの対象となるすべてのドキュメントは、統計学的にみるときに、母集団になります。母集団は、英語では、populationといいます。定義としては、「調査する人が関心を持っている測定値すべての集合」ということになります。でもって、universeという表現もあるそうです。ドキュメントのユニバースとかいうと、広大な空間に、いろいろなドキュメントが散らばっている絵が思い浮かびそうです。それが時には、密接につながっていたり、バラバラだったり、おもしろそうです。

実際のレビューの結果というのは、

NO Responsive issues0 Issues1 Privilege Hot Comments
PEG0001 1 0 1 1 0 1

みたいなデータセットとして現れるので、レビューというのは、何万、何十万というドキュメントについて、このようなデータを収集していく作業として考えることができるわけです。

でもって、予測的タグ付けは、なにをするかというと、最初に標本を作るわけです。サンプルといったほうが、理解しやすかったりします。学術的には、標本は、「母集団から選ばれた測定値の部分集合」といわれます(ビジネス統計学23頁)。

実際の作業は、システムのほうで、無作為に標本を作成してくれて、それを実際にタグ付けしていきます。タグ付けというのは、レビューのソフトウエアを利用して、具体的なドキュメントに対して、関連性の有無、ホットか否か、非開示特権があるかどうかなどをレビューの仕様に準拠しながらなす作業のことをいいます。(具体的なワークフローは、次に検討します)

このときに、サンプルを作るときに、用語として出てくるのが、「信頼区間の95%のサンプルセットを作りましょう」というような用語になります。ドキュメントの全体集合(universal set)から、標本空間(sample set)を作っていくということなるだろうとおもいます。
標本空間というのは、「所与の試行に関連する全体集合Sである」と定義されるそうです。

ここで、たとえば、関連性あり(Responsive)のデータを考えた場合に、サンプルにおけるResponsive数は、母集団におけるResponsive数と、どれだけのぶれるのかというのが関心事項になります。サンプルが多ければ、多いほど、母集団の数と一致する可能性は高くなるでしょうし、その一方で、少なくても、結構、近くなりそうな感じもします。

ここで、標本空間からえられた統計量を考えることができます。要は、10万のドキュメントについて、400のサンプルをとって、関連性ありかどうかを調べました、そのうち、32が、関連性ありと判断された、ということが実際の作業になります。

このサンプルのうち、たとえば、関連性ありと判断された割合は、8%ということになります。標本からの関連性ありとされる数値の平均は、0.08ということになりますね。業界的には、ドキュメントのRichnessもしくはPrevalence(医学的には、有病率、罹患率だそうです)といわれます。

これは、統計的にみるとき、このリッチネスは、標本から計算された尺度(基本統計量-推定量 estimator)という用語になるわけです。では、全体ではどうかというと、全体での尺度(統計量)も考えることができます。これは、母数(population parameter)ということになります。

400というのが標本数(n)のうちグループに属する要素の数(x)が32の場合には、このサンプルの標本比率(sample proportion-)は、 0.08ということになりますというような表現になるかとおもいます。この場合に、全体の母集団が、10万ドキュメントだとわかっている場合には、全体で、関連性ありのドキュメントがどのくらいあると考えたらいいでしょうか、という問題になります。

ここで、標本を作成することを、一つの試行と考えれば、その場合の標本における関連性ありのドキュメントの数は、その試行における結果と考えることができます。
たとえば、上の令で、400のサンプルをとって、調べてみたときに、そのサンプルのとり方によって25しか関連性ありが見つからなかった場合もあるでしょうし、50ほど見つかることもあるでしょう。100見つかることはというと、あまりなさそうです。(この場合に、サンプルをどのようにとるか、という問題が出てくるのは、この例から、容易に気がつくかとおもいますが、この点については、また別の機会にふれましょう)。

関連性ありの数(400サンプル中) 関連性ありの割合
25 0.0625
32 0.08
50 0.125

ところで、同じ標本数(ここだと400ですが)を無作為に何回か作成して、関連性ありの数を調べると上のような表を作ることができるわけです。

でもって、実際には、10万の母集団には、8000関連性ありのドュキメントがあった場合(いわゆるリニアレビューをすれば、みんなわかる)とすれば、この何回かの標本(400サンプルの場合)のチャレンジにおける関連性ありのドュキメントは、32 を中心として確率として分布するということがわかりますね。

統計学的には、「特定の母集団からおおきさnの標本を作成するとき、確率変数Xがとりうる値の確率分布」をXの標本分布といいます。

ここで、「サンプルが多ければ、多いほど、母集団の数と一致する可能性は高くなるでしょうし、その一方で、少なくても、結構、近くなりそうな感じもします。」と感想めいたことを書いていましたが、統計学としては、これが中心極限定理といわれています。ビジネス統計学241頁)。

中心極限定理(The Central Limit Theorem)

中心がμ、表現偏差がある有限の値σという母集団から標本を作成するとき、標本平均Xの標本分布は、標本数nw 大きくなるにつれて、平均μ、標準偏差の正規分布に近づく

だそうです。

上の例で、400のサンプルセットをとって調査した場合に、32の関連性ありという結果が得られたことになった場合には、分布の標準偏差がわかれば、どのくらいの確率で、母集団に、どのくらいの関連性ありの文書があるのかということを語ることができます。

ここで、信頼区間という用語がでてきます。

信頼区間(confidence interval)とは、未知の母数をその範囲内に含んでいると考えられる数値である。区間には、その区間が実際に対象となる母数を含んでいることに対してどの程度信頼できるか(確信がもてるか)を示す値が同時に示される

となります。ある程度のサンプルセットを作ると、たとえば、95%の信頼度で、母集団の関連性ありのドキュメントの総数は、[7760,8240]の区間内にあると確信している、という様な表現ができるようになるわけですね。[7760,8240]の区間内という様な表現をしましたが、これが、マージンエラーという表現でいわれます。

データポータビリティの意味

生貝先生の「EU新規則案データローカライゼージョン法の禁止と「非個人データのデータポータビリティ」という記事がでています。

まずは、原文を押さえておきましょう「EUにおける非個人データの自由な流通フレームワーク規則」(REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on a framework for the free flow of non-personal data in the European Unionになります。

データローカライゼーションというのも、非常に、注目すべきもの(といっても、これは、EU域内だろうというツッコミは、さておき)ですが、むしろ、データポータビリティに注目します。

データポータビリティというのが、非常に大事なものになるだろうというのは、全く、そのとおりだろうとおもいます。
まず、最初に確認しておくべきことなのは、データというのが、これからの情報処理については、まさに、燃料となるべきものであるということです。

たとえば、それは、「ディープラーニングによるラーメン二郎全店舗識別と生成」というスライドを見てもらえれば、わかることですが、ラーメン二郎のラーメンを分類するのに目視で、自撮りや店舗概観等を除去していかなければならなかったということです。

また、ドキュメントレビューにおいては、サブセットに対する関連性の判断が、「ファインチューニング」(スライド 28頁)の役割を果たします。その場合に、その関連性の判断は、それなりの経験を積んだレビューアー・弁護士がするので、関連性の判断のデータセットは、それ自体、非常に、価値のあるものになります

ところで翻って、実際のこのような判断ツールで、手間暇かけて作成したデータセットをそのまま、判断ツールの運営者に渡してしまうというのがいいのか、という問題が生じます。
そのような手間暇かけたデータセットは、その手間の分に釣り合う価格が提示されてしかるべきではないか、と考えられるのです。しかしながら、実際は、判断ツールが、競争のもとで自由に選択することができるということがなかなかないように思えます。そのような場合に、やむを得ず、クオリティの低い判断ツールを使わなくてはならなくなったり、手間にきちんとした価格が支払われなくて、手間がかけられなくなったりするのではないか、ということが考えられるのです。

実感したところで、説明メモに移ります。

提案目的では、クラウド、ビッグデータ、AI、IoTなどが、理由としてあげられています。特に機会学習を通じて、効率が上がっていくことに注目がなされています。

規制当局が、データに対してアクセスしうることを求めることを確保しやすくするということなのですが、いままで、そのような理由から、国内にデータがあることを求めていたりしています。そのアクセスを保証する代わりに、データの移動を改善しましょうというのです。

いま一つは、プロバイダーを移転しやすくするというのは、重要なことである

とされています。

この提案は、European Cloud initiativeを含むDigitising European Industry (DEI) policyパッケージ

European Interoperability Framework
の見直しの上になりたっているとされているのですが、このあたりの分析は、またの機会にしましょう。

条文としては、6条ですね。
1項 委員会は、プロバイダーの切り替えを促進するためのベストプラクティスに関するガイドラインを定義し、専門家にデータの保存と処理の契約が締結される以前に、十分詳細で明確かつ透明な情報を提供することを保証するために、連合レベルでの自己規制の行動規範の開発を促進し容易化する。以下の論点のとおり。
(a)プロのユーザーが別のプロバイダに切り替えるか、またはデータバックアップのプロセスと場所を含む独自のITシステムにポートデータを戻したい場合に適用されるプロセス、技術要件、時間枠および料金。これらは、利用可能なデータ形式とサポート、必要なIT設定と最小限のネットワーク帯域幅;移植プロセスを開始する前に必要な時間、およびデータが移植可能な状態になるまでの時間、およびプロバイダの破産の場合のデータにアクセスするための保証、を含む。
そして
(b)ユーザーがデータをスイッチまたは移植するのに十分な時間をもつことができる、構造化され、一般的に使用され、機械可読なフォーマットでデータをスイッチまたはポートするための操作上の要件。

2項 委員会は、本規則の適用開始後1年以内に第1項に規定する行動規範を効果的に実施するよう、事業者に奨励するものとする。
3項 欧州委員会は、この規範の適用開始後2年以内に、このような行動規範の開発と効果的な実施、および提供者による情報の効果的な提供を検討しなければならない。

昔は、データポータビリティというと、クラウドのロックイン効果があって、それに対しての緩和効果という文脈で語られたものでした。が、今だと、機械学習の文脈で語ったほうが実感を持ってもらえるという感じかなとおもいました。覚えさせる労力はだれのものかとか、プライバシーポリシーが適用されないとかは、エントリで紹介してきたので、そのような文脈でとらえられる規則案が出てきたのは、注目に値するといえるでしょうね。