2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

ヤマハ歌声合成ソフト『VOCALOID』Part85

1 :名無しサンプリング@48kHz:2022/05/05(木) 12:51:24 ID:Hrcy6hpu.net
YAMAHAの音声合成エンジン
「VOCALOID」「VOCALOID2」「VOCALOID3」「VOCALOID4」「VOCALOID5」に関する技術情報交換スレです。
VOCALOIDに関する最新情報、技術的話題以外の話題は、別のスレでお願いします。
※ このスレは VOCALOID に興味を持った様々な人の玄関口となります。
※ 迷い込んだ人たちが速やかに自分にあったスレにたどり着けるよう
  否定だけではなく誘導を心がけましょう。
※スレ立ては>>980を取った人。立てられない時は他の人に依頼する
  980以外がたてる場合は宣言してからスレ立てお願いします

公式(VOCALOID SHOPと統合) - https://www.vocaloid.com/

【メーカーリンク】
NGワードにつき過去スレ参照
https://egg.5ch.net/test/read.cgi/dtm/1578097821/1

前スレ
ヤマハ歌声合成ソフト『VOCALOID』Part84
https://egg.5ch.net/test/read.cgi/dtm/1591619714/

266 :名無しサンプリング@48kHz:2022/10/22(土) 08:43:58.53 ID:pd6lfLka.net
>>255
インタネ社長が今精力的に動いてるみたいだし
容量の件気になるようならツイッターで聞いたり問い合わせてみてもいいかもね
今の容量が最良の結果って回答が来るかもしれないし
255が言うようにもし使えるサンプルの容量を増やして更に表現力が増えるとしたら
アップデートやアペンド版とか考えてくれるかもしれない

267 :名無しサンプリング@48kHz:2022/10/22(土) 10:37:24.72 ID:x+pII/D9.net
MegupoidはVocaloidのなかではベタ打ちでも人間っぽく聴こえるのがウリなのに、AI対応のV6では他社エンジンより数段機械っぽいってのはVocaloid自体伸びしろがないんじゃ…

268 :名無しサンプリング@48kHz:2022/10/22(土) 10:44:25.13 ID:OEu8bxOP.net
他分野の例だが、JPEG画像ってノイジーな元絵を圧縮するとほとんど圧縮効かないのに劇的に画質が落ちるし、ノイズ少ない良質な写真だと、わりとガッツリ圧縮してるのに画質が落ちた感じを受けないんだよ

動画もそう、ノイズだけじゃなくて手振れの揺れとかも圧縮率を落とす(動画サイズを増やす)でしょ

そんな感じで、ノイズとして除去できる部分が増えたから劇的にサイズ縮んだとかではないの?

栗のNTもデータサイズ小さいみたいだし

269 :名無しサンプリング@48kHz:2022/10/22(土) 10:51:07.29 ID:+DLu+CFR.net
ソフトシンセの時代になってファイルサイズが可視化されてから
サイズ原理主義者が増えたのは間違いないな
ただ基本的にファイルサイズがデカけりゃデカいほど音質がいいっていうのは
単純なPCM音源だけでほかの音源はそうでもないんだがな

270 :名無しサンプリング@48kHz:2022/10/22(土) 11:05:54.84 ID:fzjhRM/t.net
サンプリング音源ほどではないにしろ、物理モデリングでも複雑なシミュレーションの実装=プログラムが増える、だから同じメーカーとかなら後発ほどファイルサイズは増えるんじゃ?

271 :名無しサンプリング@48kHz:2022/10/22(土) 12:01:24.06 ID:adOQcNJQ.net
>>270
プログラムのサイズはデータのサイズより何桁か小さいからなあ

それに、データのサイズだけみてプログラムのサイズをみてないヤツが難癖つけてるわけだから、プログラムサイズは今回のところ関係ないだろう?

272 :名無しサンプリング@48kHz:2022/10/22(土) 13:28:12.63 ID:ZqVyIXBG.net
>>264-265
中島愛だけに(あいではなくめぐみだが)

273 :名無しサンプリング@48kHz:2022/10/22(土) 13:30:41.49 ID:ZqVyIXBG.net
>>269
昔のRolandのハードの16bitリニア換算の意味がよーわからんかったが
今となっては高額小容量の波形ROMチップを効率よく使うために
専用DSP上でFLACみたいな独自技術でリアルタイムに圧縮伸長してたんだね偉いって感じだわ
逆にPCのソフト音源になってからは無圧縮でクソでかくて表現力微妙なものもあるけどもね

274 :名無しサンプリング@48kHz:2022/10/22(土) 15:24:13.75 ID:KhPvY7j9.net
>>270
プログラム(本体ルーチンや数式など含む)も符号化して圧縮できるから後発ほど増えるとは限らないよ

275 :名無しサンプリング@48kHz:2022/10/24(月) 00:18:18.63 ID:nGBsdXnZ.net
>>255
それならV4使っとけって話
素材にAIで何をしてもらおうと思ってるんだ?
3G素材にAIで何をしたところでV4の調教自動化レベルにしかならん
声質の変化まで学習データを元にして生成するのがAI
素材ありきで声質変化させるのはエフェクト通してるようなもの

276 :名無しサンプリング@48kHz:2022/10/25(火) 11:16:51.38 ID:DLdKIaDg.net
>>254
AI V6は普通の歌い方をして再収録が必要だから、
中の人の病状を考えると、がくぽはムリじゃないか

277 :名無しサンプリング@48kHz:2022/10/25(火) 12:48:53.49 ID:g2fjriSI.net
hideのコギャル方式で過去のボーカルトラックから呪文を作ったりできないのかな
それができればつんくのボカロすら作れるしなりきり持田香織の技術でつんくもまた歌えるな

278 :名無しサンプリング@48kHz:2022/10/25(火) 15:02:17.27 ID:10gEjPY5.net
>>276
CDでリリースされてる曲のマルチから吸い出したボーカルじゃあかんのか

279 :名無しサンプリング@48kHz:2022/10/25(火) 15:58:50.04 ID:tq8l8zW5.net
学習用歌唱データに音素がバランスよく含まれてないと学習不足でちゃんと発声してくれない音が出たりする

280 :名無しサンプリング@48kHz:2022/10/25(火) 16:07:56.93 ID:Wzgej4VT.net
>>278
技術的な可能性というより権利と金の問題もある
メセナ活動に積極的な企業ならいいけど基本は他社が権利持ってたら快く提供してくれるわけでなく金を積むことになる
本人と契約結び直して収録した方が問題が少ないと思う
他社の契約がからまない歌唱データを本人が保管してたら可能性はありそう

281 :名無しサンプリング@48kHz:2022/10/25(火) 16:13:11.93 ID:Wzgej4VT.net
それとインターネット社が持つダイフォンやトライフォン収録のための歌唱データは役に立たないから
「AI V6は普通の歌い方をして再収録」と書いたんだと思う

282 :名無しサンプリング@48kHz:2022/10/25(火) 17:39:03.28 ID:10gEjPY5.net
>>280
技術的には可能だけど契約が厄介と言う理解でよろしいか

283 :名無しサンプリング@48kHz:2022/10/25(火) 19:34:44.68 ID:EtdtDled.net
>>282
279が正解なんじゃないの
それに匿名掲示板で言質取ってどうすんの

284 :名無しサンプリング@48kHz:2022/10/25(火) 19:40:09.24 ID:9huaDrvo.net
V6のAI学習用の歌唱データは呪文じゃないってニコ生で言ってた
普通の歌唱をいっぱいやってもらった感じ
ただしあくまでもVOCALOID GUMIにしたかったから中島愛ではなくGUMIの声で歌ってもらってたと
YAMAHAのシンガーの学習データは普通の歌唱だとさ

285 :名無しサンプリング@48kHz:2022/10/25(火) 19:43:34.21 ID:9huaDrvo.net
あと英語歌唱やVOCALO CHANGERなど収録してない音素も発声できるから>>279も技術で解決したんじゃないか
NEUTRINOは明らかに発音できない音素があるけどV6はなんでもあり

286 :名無しサンプリング@48kHz:2022/10/26(水) 04:19:15.33 ID:/VDGJ9nk.net
>>283
自分の理解に間違いないかと確認することが言質とると思うお前過去に何があったか知らんが病的だな

287 :名無しサンプリング@48kHz:2022/10/26(水) 05:18:54.23 ID:E8URDZpn.net
>>286
中の人の可能性もあるけど大抵素人が想像で適当なこと言ってるのに念を押しても意味ないでしょ、てことだよ
お前呼ばわりで人の過去がどうとか病的だとかすぐ人格否定してキミ性格悪いね

288 :名無しサンプリング@48kHz:2022/10/26(水) 06:05:40.94 ID:/VDGJ9nk.net
>>287
客観的に自分を見ろ
上品ぶった下品な奴それがお前最も軽蔑すべき存在だよ
しかも身も蓋もないメーカーに聞けってよく見るやつレベルの性格の悪さあまりのキモさこりゃ女にもてないわ

289 :名無しサンプリング@48kHz:2022/10/26(水) 06:42:39.13 ID:aEyhMSox.net
https://youtu.be/nOLuI7nPQWU

https://www.dtmstation.com/archives/58383.html

レコーディングされてる歌が残ってればAI化出来るみたいね

ガクッポイドも技術的には可能ッポイゾ

290 :名無しサンプリング@48kHz:2022/10/26(水) 06:54:29.90 ID:3qZsH57M.net
>>288
これは酷い
書いてて恥ずかしくならない?

291 :名無しサンプリング@48kHz:2022/10/26(水) 07:22:14.06 ID:aEyhMSox.net
>>290
上品ぶった下品な奴って言い得て妙だと思いますよ
>>283はご自身が>>287で書かれてるようにご自分が想像で適当な事書いてらっしゃるし当事者でもないのに言質とってどうするなんて書いてる
この時点でこの方の性格の悪さと喧嘩も売ってるように私には見えますね
言葉のインパクトに惑わされず本質を見抜きなさい

292 :名無しサンプリング@48kHz:2022/10/26(水) 09:02:31.40 ID:Grz2WDb7.net
>>289
URL貼ってる記事に書いてあるが
AI美空ひばりは美空ひばり専用に開発されたAIで歌唱時間以上の時間を掛けて計算してる
ボイスバンクで声を入れ替えられるVOCALOID:AIとは別物

293 :名無しサンプリング@48kHz:2022/10/26(水) 09:34:08.03 ID:aEyhMSox.net
>>292
ここでのボカロと美空の違いは表現力の再現性とか音域の問題
素材について特に違いを説明して無いのでそこは共通のコア技術で良いと思う
メグッポイド aiのエピソードも読むなり見るなりしたらほぼ確信に変わるよ

将来Beatlesの声のai出て自分の曲をジョン、ポール、ジョージに歌ってもらえるかもしれんわけだ

出来ない理由を考えるのではなく
安倍ちゃん最後の言葉誰に届いてるか

294 :名無しサンプリング@48kHz:2022/10/26(水) 12:17:35.32 ID:vyhFufdy.net
>>293
最後の一行要らんだろ キモいぞ

295 :名無しサンプリング@48kHz:2022/10/26(水) 12:33:12.21 ID:wMyILbjQ.net
>>291
キモいとか女にもてないとか
子供の喧嘩レベルの悪口に加担することは自らも同じレベルだと心得よ
289も293も個人的な希望的観測であろうが愚か者

296 :名無しサンプリング@48kHz:2022/10/26(水) 14:07:21.84 ID:vyhFufdy.net
顔真っ赤にして書いてるんだろうけどブーメラン刺さってんぞw

297 :名無しサンプリング@48kHz:2022/10/26(水) 14:45:16.38 ID:pRM7rEWe.net
>>289
坂井泉水さんとか尾崎豊さんのボカロどこか企画して欲しい

298 :名無しサンプリング@48kHz:2022/10/26(水) 14:49:10.94 ID:vyhFufdy.net
マイケルジャクソンのボカロなら欲しいな

299 :名無しサンプリング@48kHz:2022/10/26(水) 15:01:15.00 ID:pRM7rEWe.net
きしょっ

300 :名無しサンプリング@48kHz:2022/10/26(水) 15:42:26.32 ID:ev3D7HOy.net
>>297
身内や社会的に近しい人たちが了承していても遠くの第三者が倫理的にとか騒ぐと無かったことにされる世の中だから今は難しいだろうね

301 :名無しサンプリング@48kHz:2022/10/26(水) 16:53:59.00 ID:AT1an4u6.net
>>300
ビジネスとして成り立つなら専門の人達が動くでしょ

302 :名無しサンプリング@48kHz:2022/10/26(水) 17:26:50.04 ID:vyhFufdy.net
遺族がOK出していてほしいという人が多いなら
遠くの第三者は無視すれば良いのでは
マイノリティなんか全部相手にする必要ないよ

303 :名無しサンプリング@48kHz:2022/10/26(水) 18:04:58.60 ID:bywf/tNH.net
生きてる人間ならAdoには交渉してるのかな?
契約金ヤバそうだけど個性あるしボカロ好きだし本人は前向きに検討してくれそう

304 :名無しサンプリング@48kHz:2022/10/26(水) 18:30:23.94 ID:aEyhMSox.net
生きてる人との交渉は亡くなってる方よりハードル低そう
ガクトとか小林幸子という前例があるし
ただaiでよりリアルになると話違って来るかな

305 :名無しサンプリング@48kHz:2022/10/26(水) 19:02:14.70 ID:lyEF7L1L.net
ひろゆきメーカーなんて話声だから歌声と違って言ってもいないことを生成しほうだいなのに面白がって協力してるから
歌声でもそういう歌手は出てきそうな気がする
今の小林幸子さんならOKしそう

でもAdoの歌声再現は今の技術じゃまだ無理だな
センテンスごとに歌い方を変えたりする楽譜で表せない表現力の塊りだから

306 :名無しサンプリング@48kHz:2022/10/26(水) 21:34:30.17 ID:vyhFufdy.net
忘れられがちだけどドラゲナイの彼もボカロになってたよな

307 :名無しサンプリング@48kHz:2022/10/27(木) 07:46:24.91 ID:ua2n3Inv.net
https://youtu.be/8Hp8vQxjkSc

人工音声で人間か機械か判別つかないレベルにはもう到達してると思うけど、ボカロでもシンセVでもニュートロンでも人間っぽくきこえる人工音声向きの声質って偏ってる気がするな

308 :名無しサンプリング@48kHz:2022/10/27(木) 07:54:42.71 ID:ISRLGqCC.net
>>289
https://youtu.be/bA_UJiuCmuo

美空ひばりのは、サンプラーで取り込んだものを音素ごとにピッチ・フォルマント補正して繋ぎ合わせたようにしか聞こえない
既存のボーカル素材からだけだと限界はあるような
枝野官房長官の炉心融解をめちゃめちゃクリアにした感じ

309 :名無しサンプリング@48kHz:2022/10/27(木) 12:24:14.59 ID:zTip3IMO.net
>>308
そりゃあ、ボカロ素材用に音素として採録したんじゃなく、既存レコードから取り出して音素もどきを作っただけなのだから、しかたなくね

そこまでやるだけでも相当な手間とコストをかけたらしいぞ

310 :名無しサンプリング@48kHz:2022/10/27(木) 13:33:07.02 ID:IjPSHCvX.net
GUMI AIのボイスチェンジャーをベースにして
要所をGUMI V4と差し替えて表現付けていくといい感じになりそうだなーと考えてみる
サンプルを組み替える事で平坦なノッペリした印象と比較して臨場感が生まれそう

311 :名無しサンプリング@48kHz:2022/10/27(木) 17:26:56.04 ID:MhZMJ8LB.net
>>309
だからボーカル素材からではダメなのでは?って話なんだが…
美空ひばりのはテレビ番組の企画物だったから、それこそ掛けられるお金もたくさんあったと思うが、ボーカル素材からライブラリ作ったらサンプラーの繋ぎ合わせにしかならないと思う

312 :名無しサンプリング@48kHz:2022/10/27(木) 17:30:39.81 ID:gUiPEBw5.net
AIに存在している歌部分をフォルマントから何から解析させて
データ上存在しない音素も推測で捏造させて繋げば良いのでは?

リアルタイム音素生成が重いなら今はレンダ済でいいからWAVファイルにでも書き出して
それをAIでつないで歌わせれば良いのでは?

313 :名無しサンプリング@48kHz:2022/10/27(木) 17:47:58.20 ID:RmM2HmCC.net
>>312
AI美空ひばりはそれをやってるから金もレンダリングの時間も掛かるわけで
民生用楽器として発売してるVOCALOID:AIではその手法は使えないから録音素材から用意する必要がある

てこの話ずっとループしてないか

314 :名無しサンプリング@48kHz:2022/10/27(木) 17:56:23.73 ID:v9qRmRsH.net
>>312
AIは十分な学習データがなければ推論できない
現代の収録技術を使ったクリアなボーカル素材が数十曲くらいあるなら別として学習元のサンプルを十分揃えられなかったら無理がある
もうひとつ開発途中のVOCALOID:AIを使ったからで最善を尽くしても歌唱品質が劣ってしまうのも仕方ない
その当時のVOCALOID:AIが開発途中なのはヤマハの記事にも書いていて開発中の最新バージョンのVOCALOID:AIというのを
語呂がいいからか最新のVOCALOID:AIと端折って紹介されることもあったんで「最新」のニュアンスを取り違えた誤解も生じた

315 :名無しサンプリング@48kHz:2022/10/27(木) 18:01:46.77 ID:DwJs2ES3.net
( ˘ω˘ )「きみたちあたまわるいね」
(・∀・)「おいらがそういったらそうなんだ。わかるかい?」
( ˘ω˘ )「おいらは思うんです。歌手を傷つけるものであってはならないと」
(・∀・)「共産化が大事さ」
( ˘ω˘ )「科学が進歩すれば、気のいい技術者が公開したアプリを悪用して、芸能人の声をテレビドラマなどから盗んで、言ってもいないことを言わせて炎上騒ぎを起こす」
(・∀・)「AIで作った偽物の声や映像で芸能人を傷つけて、金を稼ぐ連中だ」
( ˘ω˘ )「許せないことだ」
(・∀・)「僕は思うんですよ。市販の曲から声を取り出してボカロにして売るというのは言語道断だ」
( ˘ω˘ )「心にユニコーン。日本共産党へ投票だ」

316 :名無しサンプリング@48kHz:2022/10/27(木) 19:14:58.95 ID:gUiPEBw5.net
>>313-314
録音素材の足りないところをAIで作るってことだよ
例えば「あい えお」と「う」が欠けていたら「う」をAIで捏造生成するってこと

美空ひばりの声質に近い人や歌物真似がうまい人を疑似的な学習データにして
そこから本物の美空ひばりの声の成分に近づけた音素を捏造して書き出せばどうかね?

317 :名無しサンプリング@48kHz:2022/10/27(木) 20:25:32.73 ID:IyPAd4IS.net
将来的に少ない素材でもAIによってリアルな表現が実現可能だとしたとしても、人工音声でヤマハが先陣切ってたヤマハが今や3周遅れ状態である以上、Vocaloidでその域に到達するのは無理だろうな

318 :名無しサンプリング@48kHz:2022/10/27(木) 22:07:25.95 ID:gUiPEBw5.net
三周遅れでもある時急にトップに躍り出てくるのがヤマハなんだけどもな
三周遅れにならないように頑張ることにはあまり気を向けない=技術はあるが商売が上手くない

319 :名無しサンプリング@48kHz:2022/10/27(木) 22:26:38.83 ID:v9qRmRsH.net
>>316
今のAIはそこまで万能ではない
元データの学習が少なければ無理でマネした人に寄っていく

320 :名無しサンプリング@48kHz:2022/10/27(木) 22:27:36.19 ID:v9qRmRsH.net
具体的にはピッチは可能かもしれないがフォルマントは難しい

321 :名無しサンプリング@48kHz:2022/10/27(木) 22:37:09.78 ID:LcnzRIJ8.net
ダメだこの話ずっと平行線だ
316は今のAIを過大評価してる

322 :名無しサンプリング@48kHz:2022/10/27(木) 23:10:22.87 ID:4nvlYlNQ.net
>>316が開発すればいいんじゃね?

323 :名無しサンプリング@48kHz:2022/10/27(木) 23:35:49.11 ID:gUiPEBw5.net
>>322
お前が開発してくれw

324 :名無しサンプリング@48kHz:2022/10/28(金) 03:05:01.63 ID:xVHeOu4e.net
>>295
ボカロスレで安倍を持ち出すのはたしかにキモい

325 :名無しサンプリング@48kHz:2022/10/28(金) 04:42:29.19 ID:DiyM9wut.net
3週遅れだからこそミクに変わるヒットが欲しい
声優はもう食傷気味だし今は亡きレジェンドのボカロ化は可能なら話題にはなるね

326 :名無しサンプリング@48kHz:2022/10/28(金) 07:13:23.67 ID:zDTncXne.net
そろそろVOCALOIDエンジン自体は無償化してボイスで売るしかないんじゃないのか?

327 :名無しサンプリング@48kHz:2022/10/28(金) 13:02:46.55 ID:9rG+fGQM.net
音楽ジャンルとシンセの連携の歴史の遍歴を鑑みるに
この後10~20年ぐらいは何か尖った機材が現れない限り
新しいジャンルが賑わわずボンヤリした感じで停滞すると思うよ

1970年代 ソウル&ディスコ、アナログシンセブーム
1980年代 ニューウェーブ&テクノポップ、FM音源ブーム
1990年代 テクノ&ハウス&ヒップホップ、PCMシンセ、サンプラーブーム
2000年代 ユーロ&トランス、バーチャルアナログブーム
2010年代 EDM&ダブステップ、ボカロ曲、ソフトシンセ、ボカロブーム
2020年代 フューチャーベース、AIボーカルシンセ、AIエフェクト←今ここ
2030年代 何が来る?

328 :名無しサンプリング@48kHz:2022/10/28(金) 13:05:08.45 ID:9rG+fGQM.net
書いてて思ったけど日本からの視点だと
1970年代から2010年代ぐらいまでRoland、YAMAHA、KORGの機材が
新しいエレクトロミュージックやポップスのトリガーになっていたけど
その三社とも2020年はなんだか弱いんだよね
反面で海外というか特に中国の台頭が目覚ましい印象がある

329 :名無しサンプリング@48kHz:2022/10/28(金) 13:39:20.05 ID:YQ06tBal.net
元祖「ボカロ」スレらしいことを言えば

AIの発展によってバーチャルシンガー楽曲ブームが10年以内にきっと来る

初音ミクの歌声を受け付けない聞き取れない一般層にも受け入れられるバーチャルシンガーのヒット曲がもうすぐ産まれる予感がする

今のいわゆるボカロP出身ミュージシャンが売れてるのは結局みんな人声だけどバーチャルシンガー歌唱曲がヒトの楽曲とともにチャートに並ぶ時代がもうすぐそこまで来ていると感じる

そのきっかけはTikTokやTwitterのようなSNSからだろう

音楽ジャンルについては何が流行るかなんて世間で騒がれ始めるまで全く分からない

330 :名無しサンプリング@48kHz:2022/10/28(金) 16:16:48.30 ID:5ea26IsC.net
neutrinoで作った歌が流行るのか?

331 :名無しサンプリング@48kHz:2022/10/28(金) 17:36:42.18 ID:DiyM9wut.net
neutrinoのめろうとセブンで大体のジャンルこなせるから一発ヒット曲あるとブレークするかもね
UIが無いので利用者少ないかもだけど

332 :名無しサンプリング@48kHz:2022/10/29(土) 10:08:13.59 ID:zYov8DfL.net
neutrinoはボカロじゃなくて人間だよな
https://www.nicovideo.jp/watch/sm41178520

333 :名無しサンプリング@48kHz:2022/10/29(土) 10:18:13.87 ID:OBsQphT6.net
それ言ったらボカロもサンプリング元が人間だから人間だよね

334 :名無しサンプリング@48kHz:2022/10/29(土) 12:04:53.31 ID:A0m6+bdK.net
それ言っちゃうとKontaktの音源もサンプリング元が人間だから以下略
やはり物理モデリングやAIで音素からリアルタイム生成できないとな
絵が生成できるんだからあと5~10年ぐらいで出来ると思うけど

335 :名無しサンプリング@48kHz:2022/10/29(土) 12:07:57.87 ID:/gHHfZng.net
エンジンもそうだけど入力が昔のボカリスみたいに人間が歌ってボカロエンジンで変換するとボイスチェンジャーみたいに、ボカロライブラリの声に変わるみたいな手軽さが必要だ

336 :名無しサンプリング@48kHz:2022/10/29(土) 12:10:50.48 ID:1KRY8hG2.net
物理モデリングとAIじゃ方針真逆だけどな

337 :名無しサンプリング@48kHz:2022/10/29(土) 13:41:09.54 ID:ysjE/0V0.net
>>335
それがVOCALO CHANGERだろ?
他のライバル歌声合成ソフトに持っていかれないようになのかエディットしたり外部出力したりはできないようだが
ちなみにワイV6まだ購入してない

338 :名無しサンプリング@48kHz:2022/10/29(土) 13:46:27.41 ID:Roqk23p+.net
AIが人間歌唱に近付いてもなんだかんだ言って調声という作業に時間をかけたがるだろ
NEUTRINOでの鬼調声してる人見ててなんだかなと思った

ボカロAI化の難しいのは人間らしさを求められてない事かと
従来ボカロで「ウケる調声」の歌唱を学習させたAIボカロが出てくると予想

339 :名無しサンプリング@48kHz:2022/10/29(土) 14:26:08.76 ID:sWydUWFT.net
手間は全然異なるけれど人間でも調声に時間をかけるのは同じだと思うけど

340 :名無しサンプリング@48kHz:2022/10/29(土) 16:59:42.14 ID:A0m6+bdK.net
人間の歌手相手のときだって歌ってもらうときに
こここういう感じでお願いしますとかディレクションするじゃん

341 :名無しサンプリング@48kHz:2022/10/29(土) 17:38:21.96 ID:Roqk23p+.net
ディレクションによる表現の幅も学習させるのがAIシンガーの目指すとこじゃねーの?

342 :名無しサンプリング@48kHz:2022/10/29(土) 21:00:51.88 ID:3HLZJGv+.net
https://on.soundcloud.com/4QDBNQfGjBQQfSZbA

343 :名無しサンプリング@48kHz:2022/10/29(土) 21:46:09.77 ID:A0m6+bdK.net
話ズレてんな
AIシンガーがいろいろな歌唱方法を持っているとしても
作曲者が何を求めているかまで頭の中を察しつつAIがベストな歌唱方法を自発的に選択するのは難しいから
作曲者が選択する余裕のことを人間やAIシンガーにおける調声=ディレクションと言っているのだが

344 :名無しサンプリング@48kHz:2022/10/29(土) 21:50:25.83 ID:A0m6+bdK.net
ああ もう一個の話を主軸に語ってるのかな

>従来ボカロで「ウケる調声」の歌唱を学習させたAIボカロ

こっちのことならこれAIが考えて何か自発的に最適化してるんじゃなく
「ウケるボカロ曲」を過去の事例の学習データとした歌唱プリセットが増えるだけだと思うが
そういう意味じゃ人間の歌手に「ボカロみたいに歌って」とディレクションする場合
その歌手が本気でボカロの真似をするなら研究と練習に時間をかけるだろうから
そこを学習データ収集と考えらるし「ボカロみたいに歌って」とディレクションすることが調声ともいえるな

345 :名無しサンプリング@48kHz:2022/10/29(土) 22:04:49.59 ID:Roqk23p+.net
AI=人工知能だぞ
ディレクションされた事を理解して自発的に歌い方を選択できるようになるのはAIシンガーの進歩の方向性としておかしくないだろ
ただそれをボカロP側はあまり望んでなさそうだなって話をしてるんだよ

あと子音の長さまで手作業で直す調声という作業がディレクションと一緒とは俺は思えないね
個性を潰してる部分の方が大きいと思う
同じ曲を複数の人がカバーする場合にカバー元と同じにならなきゃ受け入れられないタイプか?

346 :名無しサンプリング@48kHz:2022/10/29(土) 22:12:16.99 ID:ysjE/0V0.net
今製品化しているAIと呼ぶものは人工無脳チャットが近いんじゃね
何パターンかの決まった応答はできるが知らんことは知らんし別に考えてはいない

SF映画ばりに考えられるようになるのはン何十年後じゃね?
できるかどうかは不明

347 :名無しサンプリング@48kHz:2022/10/29(土) 22:15:04.47 ID:F1R61M/7.net
>>345
歌声のAIは人工知能と言っても自分で判断する知能があるわけじゃなく
学習過程でAI技術の一つのディープフェイクという手法が使われているだけだけどな

AIが君が言うように知能を持って
情熱的に ゆったりと 元気よく 気だるい雰囲気で
明るく 力強く 淡々と 夏の陽射しのイメージで などなど
こんなふうな形容詞を含めた自然言語でディレクション出来るようになったらボカロPなんて絶滅寸前になると思うぞ

348 :名無しサンプリング@48kHz:2022/10/29(土) 22:16:38.55 ID:F1R61M/7.net
ディープフェイクちゃうわ
ディープラーニングだ
これは恥ずかしいw

349 :名無しサンプリング@48kHz:2022/10/29(土) 22:16:48.86 ID:iPIHma2c.net
現在出来る事
近い未来に出来そうな事
遠い未来には出来る様になっていて欲しい事
自分が欲しい・いらない事
世論が欲しそうだったり欲しくなさそうだったりの憶測

350 :名無しサンプリング@48kHz:2022/10/29(土) 22:27:42.80 ID:F1R61M/7.net
未来に実現されるかもしれないAI歌声合成ソフトを
現在のボカロPが使った場合の反応を
個人的な妄想で話すから不確定要素が多過ぎて取り止めがないし
ツッコミどころが満載で会話が成立しない感じ

351 :名無しサンプリング@48kHz:2022/10/29(土) 22:39:38.40 ID:Roqk23p+.net
>>347
そうなったら絶滅は自然淘汰だからいいんじゃない?
曲で勝負できるPは残るだろうし

>歌声のAIは人工知能と言っても自分で判断する知能があるわけじゃなく
それじゃディープラーニングする意味ないんだけど
じゃーNEUTRINOが画期的だったのはどの部分だと言うのか?
少なくともV4以前ボカロとは無調整段階で明確な差があったからこれだけ話題になったと思うんだが
それでも足りてない部分があるのはわかるし調声が不要ではないこともわかるがバージョンアップごとに進化してるのも事実

なんか今後の進歩に否定的というか期待してない人が多いのかな
イラストに比べたら情報量が少ないから何十年も先の話だとは俺は思えないけど

352 :名無しサンプリング@48kHz:2022/10/29(土) 22:49:13.29 ID:Roqk23p+.net
>>350
ディープラーニングをわかってないからだろ

353 :名無しサンプリング@48kHz:2022/10/29(土) 23:01:12.77 ID:F1R61M/7.net
ディープラーニングを分かってなさそうな人にディープラーニングを分かってない言われたw
このやりとり不毛だから黙るわ

354 :名無しサンプリング@48kHz:2022/10/29(土) 23:27:17.42 ID:A0m6+bdK.net
君たちはPITCHやMIDI CCでひたすらピッチやエクスプレッションを書きまくったDTMをやったことがあるか?
20年前のSC-88ProとかMU2000とか小容量のループ波形を搭載したPCM音源を使っていた頃の話だ
ギターやストリングスがベタ打ちじゃ機械くさいのでエモく聴かせる制御をするのは20年前も面倒だったよ
今は容量に任せて最初からエモい奏法を多数用意してキースイッチで切り替えられるが
これはテクノロジーとPCの性能が向上したからできることだ

そんな20年前のDTMのMIDIコントロールのやり方と同じ作りだったのが今までのボカロであり
これは良くも悪くも旧来のYAMAHAのDTMの感覚そのものだったし皆あのを調声(調教)と呼び面倒くさがる
手間と時間がかかるし人間っぽく聞こえるようにするには高い技術も必要だからな

そして今のAIボーカルの機能はその面倒で手間のかかる部分をベタ打ち適当打ち込みでも
現実の多数の歌手のエンベロープを模倣して何度も学習して平均化・標準化した学習データ(ナレッジ)を元に
上級者が調声したかのような結果のMIDIコントロールデータが自動生成されるようにしたものだよ
これはAIボーカル技術のテクノロジーとPCの性能が向上したからできることだ

だから人間のディレクションのような「こういう風に歌ってほしい」という意思疎通による調声はまだできない
AIボーカルが出力するMIDIコントロールデータは統計学に基づいて作られた「可もなく不可もなく」なものだから
今のAIボーカルのAIアルゴリズムでは人間ような「個性や考えること」がまだできないからだ
しかしAI自動画像生成の日進月歩の進化を見る限り「個性や考えること」に近いレベルを実現するのは時間の問題だとは思うんだけどな

355 :名無しサンプリング@48kHz:2022/10/29(土) 23:45:31.68 ID:A0m6+bdK.net
コンピュータの世界にはバッチ処理というのがあって
これは書かれた通りにコンピュータを定例処理を繰り返し自動動作させるもので
プログラムはバッチ処理をたくさん集めて条件に応じて動作を変えられるようにしたものだ

これを音楽制作の手間を平原させるプログラムとしてDTMソフトに応用したは良いが
所詮は与えられた処理をするだけで手間が減っただけで人間がやるべき作業はたくさん残ってしまった
これが20年前の考え方のDTMソフトであり旧来のボカロエディタの弱点ね

そこに新たなプログラムの観点で「より高度で人間が行うような自動処理ができないか?」
と考えたのがNEUTRINOなりSynthsizerVなわけさ
ディープラーニングを用いた機械学習でそういった自動処理ができる可能性が広がり
AI文章生成やAI画像生成などがそのすそ野を広げDTM業界にも押し寄せたわけ
それら新機軸のAIボーカルエンジンが登場しその表現力と手作業少な目のコスパの良さから人気が出た

結論を言うとYAMAHAが旧来の20年前のDTMの手法に固執しすぎて商機を失いかけていたが
新規時のAIボーカルエンジンの台頭でついに無視できなくなり採用したってこと
次のステップのAIボーカルエンジンも海外製になると思うが
それに対してYAMAHAがどのぐらいの速度感で追従するのか
或いは先にYAMAHAが海外製AIボーカルエンジンよりずば抜けた高性能なものを作れるのか
ここがキモになってくるだろうね

356 :名無しサンプリング@48kHz:2022/10/29(土) 23:45:56.07 ID:A0m6+bdK.net
平原→低減

357 :名無しサンプリング@48kHz:2022/10/29(土) 23:58:17.18 ID:F1R61M/7.net
>>355
これを聴いてみてほしい
https://youtu.be/wSi0QPGt9kA

もう現時点で人の歌声を再現するAI歌声合成エンジンはSynthesizerV AIで勝負あったというか先にゴールに到達した感はある

この次は上で出てたような如何に簡単に表現力に幅を持たせるかの発展で勝負だよ
その前にSyntheV AI以外はエンジンが追いつく必要があるけど

358 :名無しサンプリング@48kHz:2022/10/30(日) 00:17:16.61 ID:u858DgXK.net
SynthVはその人の調声が飛び抜けて上手いだけで誰でもこんなクオリティ出せるわけじゃねえよ
使って比較してる人はわかるだろうけどベタ打ちで上手く歌うという観点で
今のところ一番手間が少ないのは音域と速度をきちんと守ったNEUTRINO

359 :名無しサンプリング@48kHz:2022/10/30(日) 00:20:24.32 ID:04IvY8u8.net
>>357
聞いた聞いた すごいよね

「如何に簡単に表現力に幅を持たせるか」を例えるなら
複数の歌手を物まねできる芸人がいたとしてその芸人がやる
「もしも〇〇が××のメンバーだったら」みたいなことを
AIボーカルでも適当に指示すれば平然とやってのけるような物とかさ
例えるなら「美空ひばりの歌い方のがくぽ」とか出来るようになってくると面白いと思う

更にその先にある「自分で考えて最適な歌い方をする」って辺りだろうね
例えばロックやダンスミュージックなら歯切れよくパワフルに歌うとか
ジャズやバラードならしっとり情感を込めて歌うとかさ
要はAIが自分自身を調声する機能だけどこれは次世代のAIボーカルエンジンの課題になるんじゃないかな

360 :名無しサンプリング@48kHz:2022/10/30(日) 00:43:16.41 ID:kiULyFOl.net
>>358
そうだね
無調声で一番人間っぽいのはNEUTRINOだと思う
ただNEUTRINOはGUIが無いから「手間が少ない」は人によるんじゃないかってのと音質面でまだ改善の余地があると思う

俺が言ってるのはベタ打ちの出音の人間ぽさじゃなくてエンジンの総合性能の主観評価だからね

SynthesizerV AIは調声で追い込めばNEUTRINOを超える人間らしさに到達すると思ってるし
そこまで追い求めなくともここを少し変えたいという場合の自由度はNEUTRINOよりも高い

語弊を恐れずに言えばゲームをするのにゲーミングPCとゲーム専用機のどちらがいいかみたいなものだと思ってる
SynthesizerV AIがゲーミングPCでNEUTRINOがゲーム専用機ね

361 :名無しサンプリング@48kHz:2022/10/30(日) 00:56:18.17 ID:kiULyFOl.net
>>359
人工知能が全人類の知能の総和を超えるというシンギュラリティが来るのが2045年頃(23年後)と言われているので
30年ぐらい後には有史上の全ての歌手の歌い方をマスターしたAI歌声合成が実現してるかもね

おまけに歌詞も記録が残る全ての歌詞から即興で自動生成出来たりして
そうなるとマジでミュージシャンという職業が無くなって一家に1台、もしくは一人1台スマホのようなデバイスで好みの声色の楽曲を際限なく聴けるようになってるかも…

362 :名無しサンプリング@48kHz:2022/10/30(日) 01:19:54.42 ID:04IvY8u8.net
>>361
IPつきセールスレでもなんかAI作曲の話が出ているけど
AI画像生成の性能を見るにもう時期的にもう存在していてもおかしくないし
今後はAIボーカルシンセに限らずAIロムプラーなんかも出てくると思うんだよな

物理モデリングより更にリアルな生楽器表現がベタ打ちでできちゃうロムプラーね
作曲はAIに持っていかれるかもしれないけど楽器はまだまだろって言ってる人がいるが
NEUTRINOやSynthsizerVを見る限り楽器のほうが先にAI化されるだろと自分は思っている

363 :名無しサンプリング@48kHz:2022/10/30(日) 01:31:54.10 ID:fqhb057X.net
AI画像生成レベルに近いのはavexに出しているりんなじゃないかな

364 :名無しサンプリング@48kHz:2022/10/30(日) 01:36:54.92 ID:yqba6hjM.net
極めて高い精度で人間のモノマネしてAI歌唱できたらゴールって思うから人間の歌唱を越えられない
人間の聴覚の反応をAIに解析させて歌唱や声を人間の体組織では出せない範囲までひろげて解析したらいい
試聴の感想を聞くより脳波センサー(バイオセンサー)をつけて解析できるAIができたら開発も飛躍的に進む
開発では許諾をもらうにしろ人間がデバイスになるのは人道的にどうかなのかとは思う

365 :名無しサンプリング@48kHz:2022/10/30(日) 01:38:48.63 ID:kiULyFOl.net
りんな最近聴いてないな
Microsoftのやつでしょ
りんなが歌ったときはビックリしたけど一般に開放されてなくてMicrosoft所属のタレントみたいになってるからAI歌声合成とはちょっとジャンルが違うと感じてた

総レス数 1001
262 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
read.cgi ver.24052200