■ このスレッドは過去ログ倉庫に格納されています
【IT】機械学習を用いると匿名のソースコードから個人を識別可能であることが判明
- 1 :田杉山脈 ★:2018/08/13(月) 17:24:20.61 ID:CAP_USER.net
- プログラミング言語を用いて書かれた「ソースコード」はあらかじめ定められた規則に従って記述する必要があり、匿名で公開されたコードから個人を識別することは困難に思えるかもしれません。ところが、実際にはコードにも個人の特徴が色濃く表れており、機械学習を用いてコードのサンプルから個人を識別できることが判明しました。
ドレクセル大学のコンピューターサイエンス准教授であるレイチェル・グリーンシュタット氏と、ジョージ・ワシントン大学でコンピューターサイエンスの准教授を務めるアイリン・カルスキン氏は、プログラミング言語で書かれたコードは完全に匿名のものではなく、機械学習を用いて個人を識別可能だという研究結果を発表しました。
2人は機械学習のアルゴリズムにコードサンプルを分析させ、用いた言葉の選択やコードの長さ、コードのまとめ方といったあらゆる特徴を抽出しました。次に2人は抽出された特徴の中から、開発者個人を識別するのに役立つ特徴のみを選別し、コードから個人を特定する時に注目するべきリストを絞り込んだとのこと。コードの書き手は通常の文章と違い、一定の規則に従ってコードを書き進めなければならないという制約がありますが、それでもコードから個人を識別可能な特徴を抽出できるようです。
また、コードサンプルは非常に長いものである必要があるわけでもなく、グリーンシュタット氏らが発表した2017年の論文(PDF)によればGitHubに公開されたほんの短いコードの断片であっても、特定の開発者とそれ以外の開発者を識別できるとのこと。加えて、すでに0と1で表される機械語にコンパイルされたコードからでも、個人の識別が可能だとカルスキン氏は述べました。
カルスキン氏らの研究チームは、Googleが開催するプログラミングコンテストのGoogle Code Jamで書かれたコードをもとに、100人の開発者が書いたコードをアルゴリズムに識別させました。すると、実に96%の精度で個人を識別することができたとのこと。また、識別する開発者数を600人にまで拡大した場合でも、83%の精度で個人を識別できたとしています。
グリーンシュタット氏とカルスキン氏は、プログラミングを勉強する学生が他のコードを盗用したのかどうかを判断する場合や、マルウェアの開発者を特定する時などにコードから個人を識別するAIが役立つとしています。また、関係のない第三者を装って行われたサイバー犯罪に対しても、背後にいる人物の存在をあぶり出すことができるとのこと。
一方でオープンソースプロジェクトに匿名で参加しているプログラマーや、匿名でコードを公開しているプログラマーのプライバシーが脅かされる可能性もあります。「コード開発者の身元を100%隠すことは、一般的に考えて難しいと理解する必要があります」とグリーンシュタット氏は述べており、将来的にはコードから個人を識別不可能にするツールが開発されるかもしれないが、しばらくは匿名で公開したコードから個人を特定される危険性があるとしました。
また、グリーンシュタット氏らはプログラミングの初級者と上級者では、上級者のほうが個人を識別しやすいという事実も発見しました。これは、初心者がコードの一部をプログラミング練習サイトからコピーしてくる場合があって特徴が出にくいのに対し、上級者になればなるほどコーディングがこなれてきて、個人間に差異が出やすいためだそうです。他にも、2人はコードのサンプルが「簡単な問題を解決するために書かれたコード」である場合よりも、「複雑な問題を解決するために書かれたコード」である場合のほうが個人の識別精度が向上することも突き止めました。
グリーンシュタット氏らが行った予備調査では、カナダ人の書いたコードと中国人の書いたコードを90%以上の精度で判別できるなど、コードから得られる情報は予想以上に多いようです。記事作成時点では、コードによる個人の識別は指紋による個人識別のように100%に近い精度を持っているわけではありませんが、今後さらに識別精度が向上していくだろうと考えられています。
https://gigazine.net/news/20180813-machine-learning-identify-code-authors/
- 64 :名刺は切らしておりまして:2018/08/13(月) 22:15:49.86 ID:YrxjjYnf.net
- >>11
>>14
俺も真っ先にそれ思った
- 65 :名刺は切らしておりまして:2018/08/13(月) 22:53:14.84 ID:hlorcbhT.net
- >>64
見つけてノーベル経済学賞あげようぜ
- 66 :名刺は切らしておりまして:2018/08/13(月) 23:38:01.27 ID:7E+XTUaP.net
- つまり名倉と柏木を見分けることも可能ということ?
- 67 :名刺は切らしておりまして:2018/08/13(月) 23:58:31.36 ID:Qk0st+WT.net
- そんなに難しくなさそうだけどな。
- 68 :名刺は切らしておりまして:2018/08/14(火) 02:12:25.49 ID:SYRemCYp.net
- これはこれで対抗手段の出現、すなわちコードから個人の癖を消す技術の開発へと進化するだろうね
- 69 :名刺は切らしておりまして:2018/08/14(火) 05:05:53.22 ID:Pa4NFFTw.net
- 関数型とかRustとかイミュータブルかつ式文な言語だと
問題解決の最適式バリエーション減って判別しにくいとか有るんじゃね?
- 70 :名刺は切らしておりまして:2018/08/14(火) 06:30:00.45 ID:gBM5RUz0.net
- 関数型というかPascal系のシンタクスだと複数の書き方ができなくて個性が出にくいというのはありそう
というかそれがウリの言語だし
- 71 :名刺は切らしておりまして:2018/08/14(火) 09:04:08.52 ID:HOwURnEa.net
- コピペプログラマーに対しては複数の引用元の特徴がごちゃ混ぜになって
わけわからんことになりそう
- 72 :名刺は切らしておりまして:2018/08/14(火) 09:10:26.49 ID:Z/rEQ0lT.net
- >>68
ないない、識別するメリットがほぼないし、識別されて困ることもほぼない
- 73 :名刺は切らしておりまして:2018/08/14(火) 09:31:43.12 ID:LMbJtEm4.net
- 研究論文も、全部調べようぜ
- 74 :名刺は切らしておりまして:2018/08/14(火) 09:36:46.74 ID:ZRZz8rNd.net
- 誰が書いても同じようなコードになるとされるPythonでも?
- 75 :名刺は切らしておりまして:2018/08/14(火) 09:38:36.31 ID:gFUvK8E7.net
- 空白派とタブ派やら判断材料は多いだろうな
- 76 :名刺は切らしておりまして:2018/08/14(火) 09:40:02.20 ID:ZRZz8rNd.net
- まあ、整形の仕方に多少でも自由度があれば書いた人の個性が出るからなあ。
- 77 :名刺は切らしておりまして:2018/08/14(火) 09:41:57.56 ID:ZRZz8rNd.net
- 整形を統一してくれるソフトウェアを潜らせればどうなのかな?
- 78 :名刺は切らしておりまして:2018/08/14(火) 10:00:52.37 ID:T/+IKh/f.net
- 設計思想を解読してるわけだから、設計の良し悪しを判断させられる方向にもってこう
- 79 :名刺は切らしておりまして:2018/08/14(火) 10:07:00.57 ID:VvlCdMVv.net
- >>3
ミズラCで書いて、QA-Cでチェック
- 80 :名刺は切らしておりまして:2018/08/14(火) 10:13:18.17 ID:aRwyO3Un.net
- >>30
やっぱ鳴き声って最高だわ
- 81 :名刺は切らしておりまして:2018/08/14(火) 10:42:50.66 ID:KfeJmABn.net
- >>66
名倉柏木判定プログラムならすでに公表されてる
- 82 :名刺は切らしておりまして:2018/08/14(火) 11:10:15.04 ID:gw0u3lYg.net
- 最適化通したあとのバイナリでも識別可能とかうそくせ
- 83 :名刺は切らしておりまして:2018/08/14(火) 11:12:54.85 ID:6KRbDDJQ.net
- やばいあの金融機関をあそこまで追い込んだ犯人がバレちゃう
- 84 :名刺は切らしておりまして:2018/08/14(火) 11:14:18.09 ID:A4EeKpje.net
- そりゃ分かるだろうけど、で?って感じだな
- 85 :名刺は切らしておりまして:2018/08/14(火) 11:25:40.18 ID:ijbQE4We.net
- ゆうくんの無実が証明できるんだな。
もしくはソースコードの著作権訴訟に使えるかもね。
ただし機械学習で正しい答えを回答させるのに、5000ケース位正解例を読み込ませて学習させる必要がある。
また口語文体ではなく、法則性のあるソースコードの著者探しはAIにとっては簡単だろう。
- 86 :名刺は切らしておりまして:2018/08/14(火) 11:33:47.71 ID:XZ7EEz0m.net
- 複数の誰かが書いたのをパッチワークしてるとどうなるんだろう?
継ぎ接ぎだらけだから特定の個人を識別するのは不可能だと思うが?
- 87 :名刺は切らしておりまして:2018/08/14(火) 12:58:31.63 ID:ZRZz8rNd.net
- コンピュータウイルスを作った犯人を特定できるんだろうか?
- 88 :名刺は切らしておりまして:2018/08/14(火) 16:39:54.47 ID:JtJ/mOqw.net
- ブロックチェーンの未来と合わせて考えると、結構インパクト有りそうだな。
- 89 :名刺は切らしておりまして:2018/08/14(火) 18:48:02.19 ID:jhCguNZt.net
- 癖が出るよね
AAで遊ぶやつとか
会社やめたい とか一言コメントソースコードに入れるのやめろw
- 90 :名刺は切らしておりまして:2018/08/14(火) 18:48:13.27 ID:g57i20h4.net
- 写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg
- 91 :名刺は切らしておりまして:2018/08/14(火) 18:50:14.74 ID:g57i20h4.net
- 写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg
- 92 :名刺は切らしておりまして:2018/08/14(火) 18:51:15.53 ID:g57i20h4.net
- 写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg
- 93 :名刺は切らしておりまして:2018/08/14(火) 18:51:37.77 ID:6NdxT6oW.net
- >>87
出来そう
- 94 :名刺は切らしておりまして:2018/08/14(火) 18:52:16.43 ID:g57i20h4.net
- 写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg
- 95 :名刺は切らしておりまして:2018/08/14(火) 19:37:57.34 ID:viJmVJmc.net
- 機械学習以前の問題。
文字列の中に、自分の名前や適当なフレーズを入れておくことができるし。
- 96 :名刺は切らしておりまして:2018/08/14(火) 19:48:11.20 ID:K5kT3qAw.net
- 実行するたびにアセンブラレベルでバイナリの配置置き換えて暗号化したらどうなるんだろうか
- 97 :名刺は切らしておりまして:2018/08/14(火) 20:26:10.39 ID:gMgHx8HL.net
- 切り貼りオンリーならバレない。
- 98 :名刺は切らしておりまして:2018/08/14(火) 20:26:48.22 ID:lff5OVaf.net
- >>96
ソースコードを見るんだからそんなことしても意味ない
- 99 :名刺は切らしておりまして:2018/08/14(火) 20:40:27.51 ID:K7EFYz2b.net
- んでも、そこまでソースコード書いてない、公開されてない人なら
特定までには至らないよね!
同じコーディング規則を使っている組織とか、参考書とかは手繰れるだろうけど
- 100 :名刺は切らしておりまして:2018/08/14(火) 21:01:23.27 ID:+s+5UPXm.net
- 変数名を意味が通らないなんちゃって英語でかいているとすぐばれるぞ
- 101 :名刺は切らしておりまして:2018/08/14(火) 21:06:14.03 ID:3J4r+jjp.net
- カラム名で区分がkbnだったときに、その先の苦労が予見できて速攻辞めた
- 102 :名刺は切らしておりまして:2018/08/14(火) 22:31:02.86 ID:3GaKXCRn.net
-
クソコード製造器が
↓
- 103 :名刺は切らしておりまして:2018/08/15(水) 01:21:11.92 ID:JXvxvy12.net
- ガクガクブルブル
- 104 :名刺は切らしておりまして:2018/08/15(水) 01:21:38.37 ID:57viUn0X.net
- 写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://news.www.yodyiam.com/live/1534251776/
- 105 :名刺は切らしておりまして:2018/08/15(水) 01:22:39.19 ID:57viUn0X.net
- 写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://news.www.yodyiam.com/live/1534251776/
- 106 :名刺は切らしておりまして:2018/08/15(水) 07:56:00.28 ID:jLNsz9GZ.net
- >>11
これだよね
まず調べてもらいたい
- 107 :名刺は切らしておりまして:2018/08/15(水) 11:48:21.00 ID:ndSboeJR.net
- ウイルスやワームボットの作者を特定してくれ
- 108 :名刺は切らしておりまして:2018/08/15(水) 19:21:41.03 ID:vs4Kt/AR.net
- BCASカードをハッキングしたヤツを??!!
ってコード類は複数がかかわってそうだけど
- 109 :名刺は切らしておりまして:2018/08/17(金) 07:41:14.97 ID:EkJ3ltSp.net
- 焼きそば屋のソースも識別
- 110 :名刺は切らしておりまして:2018/08/17(金) 07:41:35.48 ID:CQ4cCeHK.net
- 謎の女子高生の正体は? 45年前に撮影されたモノクロ写真がカッコよすぎる
http://www.bby.nwnlexicon.com/1009.jpg
- 111 :名刺は切らしておりまして:2018/08/20(月) 22:45:08.73 ID:ONS/2pMf.net
- >>107
行きつく先がTorやオープンプロクシ
- 112 :名刺は切らしておりまして:2018/08/21(火) 23:48:40.27 ID:fWzU0hPg.net
- >>73
先ず、山中伸弥と小保方晴子のそれぞれの研究論文を100報用意し、ホンモノと捏造研究を分類する学習モデルを作成します
次に、この分類器を使って東大医学部が出した最新医学論文を予測します、すると…
- 113 :名刺は切らしておりまして:2018/08/22(水) 01:26:55.95 ID:5uwfu0Bf.net
- ボクこんな事できるんだよ〜凄いでしょ〜
もっと褒めて!
総レス数 113
24 KB
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★