デジタル証拠の抽出

現代社会において、日頃デジタルデータの形で生成されるデータはきわめて膨大なものがあります。このことは、よく、2000年に比べると企業の保有するデータは、何倍に膨れ上がっているなどといわれることがあることからも明らかです。

そのデータを認識したとしても、実際の事案との関連性がある証拠はなにかという観点が問題になります。証拠は、抽出されなければならないのです。

この点についての論点は、以下のようなものがあります。

(1)技術的な論点として

もっとも、一般的な技術的なものは、キーワードサーチということになります。

現在においては、ドキュメントの重要度とでもいうべきものをサブセットをもちいて予め評価し、その評価を全般に推し進めて、その各ドキュメントの重要度を予測するという手法(予測的タグ付け-predictive coding)を用いることができるか、ということがもっともホットな問題となっているということができるでしょう。この予測的タグ付けについては、別の機会に詳しく触れることにしましょう。

ファイルなどが消去され、また、一般的な拡張子でないものがふされている場合もあります。それらが問題について関連性がある場合にどのように抽出するのかということも、この論点として論じられることになります。

さらにバイナリーファイルについても、検索がなされる必要があり、そのための手法なども議論されています。
(2)法的な論点として

刑事的論点

必要な証拠を抽出するのにあたって、法科学研究所などで分析をすることができるか、現場での捜査と分析との分担をどう考えるかという問題があります。また、どのようにして、犯罪に無関係の一般のデータに対する認識を最小限にすべきかという論点も重要です。

民事的論点

民事事件では、とにかく膨大なドキュメントから、事件との関連する証拠を適正に抽出することがきわめて重要になります。現在では、この作業は、一般に、多数の法律家・もしくは、パラリーガルなどの手を借りてなされています。(トレーニングを受けていないレビューアーを用いるべきではないものと考えられます。)

データの膨大さから、事件に関連するデータを識別し、抽出する作業に、きわめて人手および技術力がかかることが現実です。その上に、日本語のドキュメントということからすると、それを裁判で提出するのに、翻訳するという問題もでてくるのです。

現時点での国際訴訟の実務の問題には、いかに正確かつ安価にデータを抽出するかという問題が付加されたように思われます。

これらの詳細については、ドキュメントレビューに関する一連の投稿で解説することにしましょう。