2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]

1 :一般国民 ★:2019/07/12(金) 04:35:09.76 ID:CAP_USER.net
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝

【科学(学問)ニュース+】

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏

 Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

 このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない

 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。

■■以下、略

2 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 04:39:28.03 ID:taourUqC.net
読めないようにしてきたんじゃないかね

3 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 04:54:14.32 ID:jFOmPVIq.net
タリン・カラーヌワット女史

タイ生まれ、若い時によんだあさきゆめみしを見て源氏物語にぞっこん
日本語学科を通して日本に留学、くずし字を勉強するも挫折するが
自分で書いてみれば習得できるのではと思いつき、実際に書くことで
くずし字を習得する

4 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 05:22:04.40 ID:/3s2Oryf.net
くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな

5 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 05:53:45.63 ID:9lfd8ap3.net
>>3
ネトウヨホルホル?

6 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:03:39.12 ID:PbHZXaOR.net
何処で翻訳してくれるんだよ

7 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:04:08.75 ID:l3OtA+BB.net
>>5
パヨクって日本語しか話せないから日本から出て行けと言われたら自殺するしかないんだね

8 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:07:59.28 ID:rM6SITwv.net
まあ 読めるようになるのはいいけど 一般人が閲覧できるように

しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww

しっかりオープンソースでそうして欲しいねw

わたしからは以上だな ミカエル(悟ったもの)より。

9 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:09:52.58 ID:MDxFwwFe.net
直接英訳した方が早そうだな

10 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:24:09.13 ID:z7V4WmKC.net
>>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。

11 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:24:22.78 ID:topiQE+E.net
>>3
ひたすら感謝だわ。ほんとありがとう。

崩し字読めないアマチュア勢も古文書から情報読み取れるようになるから、
色々面白い研究成果が生まれそう。

12 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:30:44.39 ID:ng+bSJdz.net
俺んちもそんな巻物があるんだけど解読できなくてなあ
とにかく在野の歴史マニア歓喜だろ

13 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:34:20.92 ID:mNaeYk7+.net
くずし字って英語の筆記体みたいなもんだろ

14 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:43:20.97 ID:oFUsX1nA.net
>>3
タイ人→源氏物語→くずし字
こりゃ大変だったろうな
ありがとう

15 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:49:38.41 ID:wKkPQ5Nx.net
>>1
一般公開されれば、いずれ神田の古書街が大にぎわいになるな

16 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 06:56:58.44 ID:YVRCJJml.net
一回だけ、この研究員の得意技である松葉くずしをやってみたい。

17 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:09:08.42 ID:fhu+pVUO.net
棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを

18 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:10:16.70 ID:JLPhqpLB.net
>>16
松葉くずしとか紅葉合わせとか、むかしのひとは性技を木の葉で例えるように
しとったんだねww

19 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:12:19.74 ID:HauSnpME.net
英語も筆記体見なくなったよな

20 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:15:58.63 ID:MshbsGTn.net
>>3
素晴らしい。

21 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:18:38.04 ID:WfSjGxJF.net
変態少女

22 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:21:52.89 ID:Ru4lYaKe.net
狂喜乱舞って久々に聞いた

23 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:41:11.77 ID:CXUjQHor.net
すごいなAI。翻訳ツールが何を開発したのか気になる

24 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 07:54:50.06 ID:rzv8Dyz5.net
昔の人はよく読めてたなってほんと思う

25 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:06:50.69 ID:WNz8Ffr9.net
すごいけど日本語で外国人に先越されるなんて日本人なにやってんだよほんと

26 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:13:30.83 ID:6RY+2KLd.net
これは素晴らしい
文化勲章を差し上げたい

27 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:16:17.25 ID:Rp1g37ao.net
これは素晴らしい、でもこれは文字を解析しただけで翻訳と言えるのだろうか
次は本当の意味での翻訳だな

28 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:19:29.23 ID:Ju87KtXY.net
地味だけどこれは素晴らしい技術ですね
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ

29 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:27:31.41 ID:eJo2rLSF.net
>>3
「あさきゆめみし」って少女漫画ですよね
それを読んで日本漫画オタになったタイ少女の成功物語
ぜひとも映画化してほしい

30 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:44:25.36 ID:5773tsx3.net
古文書片っ端から解読して青空文庫に上げてほしい。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。

31 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 08:44:48.70 ID:2/uPUTnv.net
>>3
タイ人なのにってより、文系なのにってところで感心するわ。

「好き」って大事だな。
俺も宇宙の研究やりたかった。

32 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 09:37:24.43 ID:csupAlXt.net
日本人研究者は日本語をAIで解読することを邪道と思ってたとか?
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの

33 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 09:43:28.69 ID:CHBCtbh1.net
ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな

34 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 09:43:29.26 ID:KAjIdVl5.net
明治大正時代の外交文書なんか見てても
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね

35 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 09:44:02.95 ID:xcnBq66z.net
>>32
どっちかいうと後者じゃないかなぁ

36 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 09:55:40.86 ID:O06XyrAk.net
欲しい!
今欲しい!

37 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 09:57:04.64 ID:+fas7KGb.net
これが正しいAIの使い方だな。
ただ、10年位英翻訳があのままなの見ると絶望だが

38 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:00:36.69 ID:lNne9+0c.net
現代日本人が読めなくなったくずし字をタイ人が解決するって面白いなぁ
読めないから書くところから始めるとか
めっちゃ地味だけどほんとに好きなんだろうな
感謝

39 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:07:34.49 ID:Nwhtdr6Y.net
>>2
幕末のちゃんとした人が書いてるのはほぼ現代語で
一部のくずし字がわかれば普通に読めるぞ
特に薩長の文書は読みやすい
ここの役人が明治政府を作って現代語をつくったのがよくわかるわ

40 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:09:30.10 ID:wBoGyUge.net
>>25
おまえは部屋から出ろ。

41 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:16:28.94 ID:CfJTQR9r.net
韓国は漢字を廃止したから過去の文献を読めないなんてのはウソだから
韓国人だって専門家は読める
また日本人だって専門家しか過去の文献は読めない

42 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:34:08.94 ID:ZHjaGhcZ.net
磯田道史がダメ出しの嵐

43 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:34:16.89 ID:YVOEsxgx.net
AIといっても、
大量の古文書の画像データを集めて、マッチングしたものを現代語に変換する、
そんな総当たり的なやり方なんでしょ?

44 :うひょのふ:2019/07/12(金) 10:39:58.86 ID:2/+l8nzr.net
ぶっちゃけ、本能寺で信ちゃんやったの、俺なんだよねwww
竜馬、すまん。暗殺の首謀者な、実は俺、的な大発見来るか??

45 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:41:50.63 ID:xQEYT0PT.net
そういえば、英語の筆記体も、知ってるのは日本人くらいらしいな。
ネイティブは筆記体でなんか書かないし、読めない。

46 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:44:06.91 ID:sAr4mNCl.net
>>40
部屋から出るとか出ないとかじゃなく、>>25の感想は普通だと思うよ。
開発者の名前を見て一瞬目が点になったもの。

47 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:44:25.47 ID:mFHlnqv9.net
解読する必要性を教えてくれ

48 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:47:35.70 ID:E1xARvS9.net
これで戦国の世にタイムスリップしても一安心だ

49 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:47:59.15 ID:sAr4mNCl.net
>>45
看護学校に行った娘が筆記体を習わせられて文句言ってたけど
カルテに筆記体で書く年寄り先生もいるからじゃないの?って言ったら納得してた。

50 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:50:56.18 ID:aTIm5XFr.net
アホには翻訳後の翻訳が必要なんだが

51 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 10:55:47.14 ID:lNne9+0c.net
「翻刻」っていう作業らしい

>>49
筆記体じゃなくそれぞれのミミズ字を習得する必要が・・

52 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 11:15:08.12 ID:nE6EdNwz.net
>>43
だから?

53 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 11:23:03.06 ID:c+QE6OO7.net
くずし字読む入門書買ったことあるけどすぐ挫折した
崩し方の幅がありすぎ

54 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:03:11.05 ID:Ui262f28.net
日本ファンのタイ人研究者さん、ありがとう。

55 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:07:01.44 ID:t8wp7mb7.net
マイルドな暗号通信に使えるかな

56 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:08:08.26 ID:2ZBwq/7d.net
>>32
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない

そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった

57 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:08:09.86 ID:WaLRWOIQ.net
文字を判読できるのと意味がわかるのはまた別だからな
今では使わない単語や別の意味で使っている単語があるから
現代語に翻訳する機能も必要

58 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:08:21.32 ID:ogtEBmZY.net
>>46
日本人向けなら読解書とか対応表とかあるだろうし、
古文の文法も中高でやらされるし、ある程度読むなら困らないんだろうな

59 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:08:37.06 ID:gk7VSkL0.net
ど素人の大量参入により
日本史学会壊滅w

60 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:10:50.25 ID:2ZBwq/7d.net
>>45
イギリスに home stay したが、その人は筆記体で手紙くれたよ
イギリスのヨークの人

61 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:32:14.47 ID:MxwoV/4r.net
>>31
なにその文系なのにって
彼女に謝れ

62 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:33:52.68 ID:48MDVFk6.net
アラビア語翻訳システム作ってくれよ

63 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:36:55.38 ID:Rs+2x9VG.net
狂喜乱舞ってバカじゃねえか
日本の学界はなーーーんにもやってこなかったんだろ
なんでガイジンに先越されてんだ
ほんとうにバカの集まりだから学会なんて解体しろよ

64 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:46:59.86 ID:eJo2rLSF.net
>>31
初めて買ってもらったPCのおまけで
プログラミングの入門書がついてて、その方面も強くなったらしい
これって文系理系で分ける発想がそもそもなかったからこその成果だよね

65 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:47:20.68 ID:cfNjtDjw.net
グーグルドキュメントのOCR精度はここ数年で眼を見張るほど上がって行ってるからな
どんどん便利になるなあ

66 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:47:45.52 ID:f8gtXaBL.net
>>7 J( 'ー`)し「出ていけ。」

67 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:56:36.65 ID:G5UX1/nz.net
古文書って古民家に結構眠ってるけど状態悪いと引き取り手は無いし
修復するのに金も掛かるんで結局ゴミとして捨てられることが多い

68 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:59:11.59 ID:3r99fJWG.net
しかし、考えてみると人間の分析能力ってすごいよな。
個人ごとに癖があって異なっている崩し字を昔の日本人は何の苦労もすることなく
スラスラ読めていたんだから。

69 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 12:59:39.59 ID:bMQfYDvj.net
これで古文書の研究者が失業するのか?
だとしたら大きな改善になるな

70 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:00:42.61 ID:786TTjbe.net
昔は読み書きできた人はごく一部の気がする

71 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:04:26.41 ID:DgiyrrGG.net
>百数十年前までは皆が読めていた「くずし字」。

識字率凄いな

>今は人口の0.01%以下しか読めないという現実

人数として十分じゃね?

72 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:07:29.64 ID:Yjo+99xF.net
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg

だいぶ顔がくずれとるな。

73 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:12:00.23 ID:h/0+bYnS.net
>>31
> 文系なのに

頭固いなあ

74 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:12:30.82 ID:lNne9+0c.net
破顔

75 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:13:04.73 ID:h/0+bYnS.net
>>70
江戸時代は89%超えだよ

76 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:13:58.55 ID:h/0+bYnS.net
>>70
誤タイプ

80%超えだよ

77 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:24:58.04 ID:3r99fJWG.net
 >>70

それは朝鮮半島の話。
 日本ではすでに江戸時代に多くの人が読み書きできるようになっていた。

78 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:26:19.35 ID:lpWL5JY0.net
春画で試してみたい

79 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:47:17.67 ID:K/MQT4bj.net
マジすげぇ
読める人かなり希少だから今読める人の仕事奪わないし、解読する時間を研究に回せるし、マジすげぇ

80 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 13:58:06.75 ID:YVRCJJml.net
>>18
「紅葉合わせ」って「貝合わせ」のこと??

81 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 14:14:00.47 ID:xIY+ej2k.net
素人目に圧倒的に凄い。だって読めないもん。
むしろ素人向きな気がする。

プロにとっては稀にある読み取りミスが鬱陶しいだろなぁ。
ちょっとでも誤りがあると全部チェックするしかないしかなりしんどい。
変に文脈・単語から修正とかすると意味が正反対になったりしそう。

82 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 14:21:54.54 ID:N3EVhujM.net
>>32
日本人研究者は読めちゃうからイラン。苦手でも周りに読める人がいっぱいいる
困ってるのは一般人と外人で、だから外人が作ったってとこやろ

83 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 14:26:54.15 ID:vILUWq4Y.net
すげえな
ありがたい

84 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 14:33:05.27 ID:ZISKyxTg.net
>>82
そこが研究の敷居の高さになってるから、どれだけオープンにするかだね
日本語の文献史学はどんどんノンネイティブの人が参入して欲しい
万葉集とか古いのはネタが尽きて、研究進まんのよ

85 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 14:52:33.47 ID:PxI9HLT3.net
唯一座学分野でこれだけは母親に負けてるわ。
あの糞ババア草書書けるからな。

86 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 14:54:04.86 ID:PxI9HLT3.net
女手のひらがな自体草書で崩した書体の表音文字化に過ぎんからな。

87 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 15:16:06.85 ID:eTTJMA0H.net
崩し字と只単に字が汚い場合の区別もつきそうだなw

88 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 15:19:57.30 ID:XFqD/GLA.net
古文書解読習得アプリって、これまでも出ていたよね。

89 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 15:26:53.59 ID:pIjmw3tX.net
タリン・カラーヌワット女史じゃねえよ!

90 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 15:35:04.45 ID:PnTVp8Hd.net
手書きハングルも読みにくい。

91 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 15:52:49.75 ID:Y+hrN0yF.net
>>1
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
まちがっとるやんけ

×おとなにことを
○おとなふことを

92 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 16:13:25.10 ID:Ek0qpc3R.net
磯田先生も愛用

93 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 16:36:42.48 ID:ch4vsYUH.net
なんでも鑑定団ご推薦だといいが

94 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 18:03:37.77 ID:y4wefbNr.net
>>3
タイ語って読み書きするのがかなり難しいんだよね
文字の発音に法則はあるけど、「結局スペルを丸ごと覚えた方が早い」
とまで言われる

タイ人って特に女性は物凄く勉強するからなあ
そしてハイテクの使いこなしもかなり強い

95 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 18:38:04.48 ID:gdM6P/3Z.net
昔の知識層は達筆すぎてなぁ
全く歯が立たん

96 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 19:10:34.07 ID:t8u5o442.net
>>61
たぶんお前が思ってる意味で>>31は発言していないぞ
ps://news.yahoo.co.jp/byline/enokieisuke/20190418-00122843/
時間があったら読んでみてくれ
日本の文系研究に対する姿勢について>>31は語ったんだと思う

97 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 20:50:59.31 ID:WaLRWOIQ.net
ちょいちょい間違えてるな
https://www.nihu.jp/ja/publication/nihu_magazine/037
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg

1行目 給は → 給ける 
6行目 更し  → 更衣
7行目 みやづか人 → みやづかへ
7〜8行目 うちみを → うらみを
9行目 いよく →いよいよ

98 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 20:51:47.82 ID:WaLRWOIQ.net
>>97
画像間違えた
https://www.nihu.jp/sites/default/files/Tarin_photo2.jpg

99 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 20:59:25.86 ID:UCfaIxFd.net
この一人の名前見て
ぬわーーっっ!!
を思い出した人は結構いるはず

100 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 21:12:03.64 ID:8Ei+B7ya.net
更科日記みたいな…でもないか

101 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 21:29:09.91 ID:fcbIpJ0l.net
専門家の反応はどーなの?

102 :ニュースソース検討中@自治議論スレ:2019/07/12(金) 22:11:06.40 ID:LejC9tba.net
ぶっさ

103 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 02:16:04.87 ID:kkYsHTk/.net
>>13
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実

104 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 02:22:21.80 ID:kx9kPjN2.net
活字の普及で筆記体が廃れるだけじゃなくて
英語圏では小文字を使わず大文字だけの人も出てきてるらしい
小文字が大文字を小さくしただけのフォントもあるしね
これは日本語だとカタカナを使わないみたいなものかな?

105 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 04:06:38.19 ID:uHwXMZ6b.net
足利義昭の御内書は楷書で読みやすかった
武田信玄直筆の書状は読みづらかった
くずし字の上、信玄さん明らかに字が下手

106 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 07:12:47.51 ID:3cXUBq5+.net
>>32時代や人によってくずし字って特徴変わると思うんだけど何でも対応できるんかね?

107 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 10:09:22.45 ID:5uZfEwj8.net
>>35
日本だと文系はあくまでも文系って人ばっかりだからね。

108 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 10:34:07.22 ID:K7zhzrqX.net
>>106
AIだから、学習次第じゃないの。

109 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 10:41:11.30 ID:1ace9LgV.net
Clanuwat T. et al. (2018) Deep Learning for Classical Japanese Literature
 ttps://nips2018creativity.github.io/doc/deep_learning_for_classical_japanese_literature.pdf

110 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 11:44:48.03 ID:U9pO8CqE.net
TBSドラマの「JIN−仁−」で、現代から江戸時代末期にタイムスリップした主人公がくずし字を読めないため、彼の周囲の人々が主人公でも読める字体で文章を書いたはず。
番組公式設定だったのか、知恵袋などに「現代人がくずし字を読めるのか?」といった質問が投稿されてそんな答えが投稿されたのかは、覚えてないけど。
すでにあったくずし字の文章は、周囲の人々が主人公に説明してあげたのだろう。

111 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 11:59:58.51 ID:dhKuQ1IS.net
くずし字をOCRできるアプリはどこに置いてあるの。
Googleレンズとかで使えれば便利なんだけど。

112 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 12:08:39.27 ID:1ace9LgV.net
おかげ様で、AIによるくずし字の現代文字への翻刻の最新研究状況を把握できたかな

情報・システム研究機構 データサイエンス共同利用基盤施設(略称 ROIS-DS)
人文学オープンデータ共同利用センター 特任研究員 で、国立情報学研究所にも籍を持つ
タリン・カラーヌワットさんが、今回、「くずし字」を自動で読み取って現代文字に翻刻する
OCR「KuroNet」の開発を紹介。

くずし字チャレンジ!は、人文学オープンデータ共同利用センターのプロジェクトのようです。

国文学研究資料館が持つくずし字のデータを学習させて、くずし字を現代語に推論できる
システム

113 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 12:51:36.81 ID:88B2bDhE.net
>>96
留学生とか超金持ちだったりするしな

114 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 15:05:04.61 ID:kx9kPjN2.net
>>107
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ

115 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 15:20:15.58 ID:k1I2Sewe.net
>>3
すげーな、感心するよ

116 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 15:37:19.73 ID:g2t4Ti7o.net
>>1
古文献講読を学べば、ひらがなはすぐに読めるようになる
漢字がわからん

117 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 15:38:59.02 ID:g2t4Ti7o.net
>>69
さらに需要が高まるだろう

118 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 16:52:27.99 ID:9ww9TwZQ.net
>>1
もう
・4年前の、凸版印刷Webビューア「ふみのは」とか
・奈良文化財研究所、東京大史料編纂所の
くずし字解読システム「MOJIZO」(モジゾー)利用無料 とか
・くずし字学習支援アプリKuLA

とかあるみたいだけど
どう違うんだろ

119 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 17:19:29.05 ID:akXpAOAu.net
>>114
はあ?
外国人は数学ができないやつ多いぞ

120 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 18:29:40.66 ID:U0b3nuiN.net
誰でも読めてないから素読を習うんだよ

121 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 19:50:55.70 ID:+ftw9nkm.net
草書をAIで文字識別できるんだな。

122 :ニュースソース検討中@自治議論スレ:2019/07/13(土) 20:48:45.01 ID:mzclO4A8.net
松葉崩しか

123 :崩し字挫折者@自治議論スレ:2019/07/13(土) 21:05:59.19 ID:mCqbt+IR.net
憶えた!と思っても一晩経つとすぐに忘れている。それが崩し字。

124 :ニュースソース検討中@自治議論スレ:2019/07/14(日) 00:16:30.49 ID:gxfDCHfh.net
>>94
読むのは簡単
書くのは漢字と一緒でその単語を知らないと無理ゲー

125 :ニュースソース検討中@自治議論スレ:2019/07/14(日) 08:04:27.03 ID:GKcNfG0x.net
>>1
これぞ文理両道の人材だな
すごいわ

126 :崩し字挫折者@自治議論スレ:2019/07/14(日) 19:13:35.25 ID:YqW793Bw.net
西夏文字学の権威の西田龍雄氏が「西夏文字というのは覚えにくく、覚えたと思っても忘れやすい文字だ。」といっていた。

崩し字も全く同じだよ…。俺は崩し字をマスターするにはもう歳なのかな。
江戸時代の人は子供の頃から寺子屋で崩し字を学んできたんだから、こっちは絶対に敵わん。

127 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 06:51:01.35 ID:5FuYZ2QA.net
>>121
AIにできるなら、日本人がちょっと(かなり)頑張ればできそうだけどな

128 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 11:11:46.49 ID:vRir/oIN.net
汚い字とくずし字って違う?
汚いじゃなくても「個性」とかゆらぎとか
統一されたものが存在するようには思えないんだが
そうすると文字の意味がなくなるし
やっぱ当時の人がたいてい認識できる程度にはお手本があったんかな

129 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 11:46:54.55 ID:hesyCvM8.net
>>4
ひとつのひらがなに対して、
崩す元の漢字の数が多すぎて見分けがつきにくいんだよね

130 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 12:19:00.56 ID:xSMcvc/3.net
>>25
在野の郷土史のクラブでも、くずし字の勉強会やってるよ
惜しむらくは、年寄り中心だから、そういう発想がない。

131 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 12:42:30.74 ID:aQc3EvBD.net
崩し字って何パターンどころじゃなくあるから
それ解ったら凄いよなー
確率何%くらいなんだろう

132 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 13:13:41.95 ID:IiQS/260.net
見た目はまったく同じでも、前後の文脈で決まるものもあるからなあ
とはいえ崩した「馬」とひらがなの「つる」は同じ生き物で判断に悩むがw

133 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 20:17:45.56 ID:MwGtQQNp.net
勉強すれば8割ぐらいは読めるようになるんだよ
で、残り2割の読めないのをAIで解読しようと思ってもたぶん読めない

134 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 20:31:36.42 ID:LUY/15as.net
日本史専攻の従姉妹は、ゼミの予習に、おばあちゃんに古文書を読んでもらってた

135 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 20:49:53.52 ID:SFxKNnzx.net
>タリン・カラーヌワット

まぁこの人が優秀なんだろうがタイ人?に先越される日本の研究者とかやっぱ雑魚いな。ジャップwwww

136 :ニュースソース検討中@自治議論スレ:2019/07/15(月) 21:19:20.66 ID:ySH/2hPu.net
現代語のOCRですら完璧ではないのに、それよりはるかに偏差が激しいと思われる
昔のくずし字を読めるのかねえ。

137 :ニュースソース検討中@自治議論スレ:2019/07/16(火) 09:10:08.92 ID:iwkjtiPj.net
データベースの精度次第でどんどんよくなる

138 :ニュースソース検討中@自治議論スレ:2019/07/16(火) 09:29:43.71 ID:jsoqhFiR.net
>>134
言語学は読み取る課程も学問の内だけど
史学や国文学の研究者にしたら、読めるようにした後が本番だものな

139 :ニュースソース検討中@自治議論スレ:2019/07/16(火) 10:55:13.26 ID:Zf5CtglZ.net
古気象学は国文学者がくずし字を読めなくて
結局、気象学者がくずし字の読み方を覚えて過去の記録を集めたって言うなあ

140 :ニュースソース検討中@自治議論スレ:2019/07/16(火) 11:25:03.38 ID:iwkjtiPj.net
縦割りっていうより深堀しかしない弊害あるよね
無視されてきた貴重な資料がこれで日の目を見るかも知れない

141 :ニュースソース検討中@自治議論スレ:2019/07/17(水) 19:27:49.91 ID:o3Ejsi+Q.net
くずし字(草書?)のくずしかたのルールは、
くずし字を書いていた人たちは当時どうやって学んだのだろうか?
それぞれ勝手に崩して書いていたのだとしたら、統一性がなくて
お互いのコミュニケーションの役には立たない(自分だけのための
覚え書きとか秘密の日記などなら、どういう具合に崩すかを
勝手にしていても構わないだろうが)。

崩し方の十分な量の見本を与える手本があったのか、
それともそういった規則を系統的に教える教本があったのだろうか?

142 :ニュースソース検討中@自治議論スレ:2019/07/17(水) 19:39:25.75 ID:lCL59h6k.net
>>141
書き順じゃないの?
だから「右」と「左」が崩しても区別できる

143 :崩し字挫折者@自治議論スレ:2019/07/17(水) 20:37:31.62 ID:S0s2Jt1k.net
>>141
それは千字文とか往来物とか、お手本がいくらでもあったでしょう。

>>142
実は、日本の近世古文書に限って言うと、草書の「右」と「左」の一画目と二画目の筆順には違いが無い文書の方が多い。
どちらも「横画→縦画」の順序で書いてある方が多い。(中国の伝統的な筆順から言えば間違いだが。)
しかし、中の「口」は横線がウネウネ這うように書かれ、「エ」は縦線が鋭く長く書かれているので、そこで区別する。

144 :ニュースソース検討中@自治議論スレ:2019/07/17(水) 20:47:32.06 ID:o3Ejsi+Q.net
中国からもたらされた漢字で書かれたお経の経典は、どういう字体でやってきたのか。
またそれを日本の寺院で写筆したときには、同じ字体で書いたのだろうか、それとも
やはり崩し字にしていたのだろうか?
あとの方の時代になって、日本で適当にでっちあげた仏教の宗派のお経は、
くだけた文字で書かれていたかもしれないなとは思う。(よく知らない)

でも、立派な石碑とか木版活字の本は、崩さずに書いてるよね。

浮世絵などの添え書きの文字はミミズが這っているようなので私には読めない。
いま当時の浮世絵を知るためには、あれを活字に直して絵を修正したバージョンを
出版して欲しい。そうすればもっと今よりも売れるだろう。原作の著作権は切れて
いるから、原稿はローコスト、デジタルにすればオールカラーでもコストはそれほど
高くないだろう。

145 :ニュースソース検討中@自治議論スレ:2019/07/17(水) 22:36:54.26 ID:fRk4tXSX.net
お経は文字そのものからありがたいものだから
崩すことより装飾性というか美しさを追求したんじゃない?

146 :ニュースソース検討中@自治議論スレ:2019/07/31(水) 06:40:56.93 ID:Wjjn8VHj.net
>>84
門外漢からしたら、万葉集なんてまだ研究する余地あるんだ?って感じ

147 :ニュースソース検討中@自治議論スレ:2019/09/18(水) 17:57:03.27 ID:N1c5Olws.net
古文書の講習会を受けたことあるけど難易度高いわ
候が点々だもん

148 :ニュースソース検討中@自治議論スレ:2019/09/18(水) 18:19:52.30 ID:JsXHC6lI.net
ぶっちゃけくずし字、大半は読めるだろ。

149 :ニュースソース検討中@自治議論スレ:2019/09/19(木) 09:30:37.25 ID:j/RQ00bP.net
行書までならね
さすがに草書まで崩されたら読めんわ

150 :ニュースソース検討中@自治議論スレ:2019/09/29(日) 13:35:29.96 ID:yU6FqWbJ.net
AI技術って一時騒がれてたのが嘘かってくらい進歩しなくなったな

151 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 13:08:45.35 ID:dqISEr/P.net
ねぇ、あんた!
…「あんた」…ヘブライ語でも「あなた」って意味なんだよ。どうなってんだよ、古代の言語は。

神道っていったい何なの、本当に不可解だよ、ユダヤ人や、世界の人が見たら、これ何、どうゆうこと。
さらにもっと大変なことは、宮司や神主、いったいあれは誰なの、あの服装、私たちと繋がりはないです。
なんでご神体を皆が担いでワッショイ、ワッショイと言うんですか、ヘブライ語ですよ、ワッショイというのは。
://www.youtube.com/watch?v=4YvD2TDOZJM

紀元前にすでに文字が存在?
://twitter.com/nhk_news/status/1171181541319499776

ベルギー人 「気味が悪いくらい似てる理由をどう説明するんだ」
アメリカ人 「日本人はユダヤ人の子孫かって? この類似性をみれば一目瞭然だ」
イスラエル人「ゾクッとした、奇妙な感じ。なぜに俺はこんな情報を今までしらなかったんだ」
イスラエル人「発音まで同じだとしたら、ちょっと凄すぎじゃないか?」
ロシア人  「日本人はヘブライ文字を簡単に覚えられそうじゃん」
http://lavender.5ch.net/test/read.cgi/gengo/1564551857/l50
http://o.5ch.net/1jo9h.png
(deleted an unsolicited ad)

152 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 19:30:27.52 ID:g5Ia4YSH.net
>>104
втмкнみたいな
これはキリル文字だけどな

153 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 20:57:39.92 ID:DFPCPoz9.net
まあくずし字サンプルを多数集めてそれぞれにラベル振った
データセット作ればいい「だけ」の話

とはいっても、毎日毎日文字を集めるだけでも大変だっただろう

154 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 21:44:58.91 ID:+KdOHwDI.net
>>41
>韓国人だって専門家は読める

これは嘘 朝鮮半島の文語体は支那語で漢字で書いた 朝鮮語の漢字は一切無い
だから
X 韓国人だって専門家は読める
○ 繁体字が読めれば チョンが読めなくても支那人は読める

155 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 21:49:16.53 ID:+KdOHwDI.net
計算機がまともに動き出したころの50年前に、源氏物語の全文を計算機に打ち込んだ奴がいる
統計的な検索分析をして分析した結果
昔からそれとなく言われていた 宇治十条が 紫式部とは 別人が書いた文体というのが明確になった

156 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 22:05:03.12 ID:84rnoObM.net
あんな癖のある字、当時の人も読めたのかな?って思う。

157 :ニュースソース検討中@自治議論スレ:2019/10/01(火) 22:52:08.38 ID:8vqe/yp8.net
その時代の人間が一番合理的な情報伝達手段として「崩し」を選択した
と言う信念のもと20年以上古文書やってる

けれど何とか江戸期の「お家流」が苦もせず読める程度
近世以外の例えば信長や秀吉の往来物となると取っ掛かりを掴むのさえ苦労する
さらには最も難解と言われる明治以降の「女筆」に至っては見るのも億劫だ
たぶんAIさんがいくら頑張ってもこれらパターンの埒外の解読は不可能

断言するが筆者の癖字や符丁的言い回しが介入したものには歯が立たないと思う

総レス数 157
42 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★