youtube-dlの使い方備忘録

動画編集
©いらすとや.

YouTubeなど幾つかの動画サイトから動画をダウンロードできるyoutube-dlが、RIAA(全米レコード協会)から削除要請が出されてGitHubからリポジトリが削除されたのが10月下旬。RIAAの主張が強引だったこともあってか反論が相次ぎ、削除要請が不当と判断されてリポジトリが復活した模様。ただ、11月上旬時点で既に幾つかyoutube-dl関連のリポジトリが出来ていて、それが削除されていなかったし、pipでインストール・更新することも可能だったので、youtube-dl関連全てが一斉に削除かつ関連リポジトリ作成も禁止のような扱いではなかったみたい。

「がとらぼ」の中の人はYouTubeにはゴミ以下の動画をまれに上げる程度だけど、作った動画(アップロード前のファイル)を保存せずに捨てることが多いので、アップロードした動画を取り戻す意味でyoutube-dlを使うことがある。もちろん、YouTubeからダウンロードした動画はアップロード前の動画より遥かに劣化したものなのでクオリティーを求める人は作成した動画を捨てたりせずにバックアップしておいて欲しい。

で、youtube-dlはそんな使い方なので1年に1度触る触らないか程度。当然使い方をすぐに忘れてしまう。
そこで、自分向けの備忘録。

youtube-dlのインストール・更新

youtube-dlはバージョンが古いと使えないことが多い。
なのでLinuxのパッケージなどに頼るとおよそロクなことにならない。
つまりソフトウエア管理ツール・パッケージでインストールするとハズレる。手動でインストール・更新するようにしたい。

使用頻度が低いと使用しようとする度に更新しないといけないかも。

http://rg3.github.io/youtube-dl/download.html
https://youtube-dl.org/ で最新版のバージョンを確認。(確認だけ)

Linuxでpipの存在(インストールされているか)を確認
$ which pip
または
$ which pip3
pipがインストールされていないならインストールする。(下の実行例はDebian/Ubuntu系)
$ sudo apt install python-pip
または
$ sudo apt install python3-pip
youtube-dlのインストールまたは更新
$ sudo pip install --upgrade youtube_dl
または
$ sudo pip3 install --upgrade youtube_dl

インストール・更新とも同じで、これだけ。(--upgradeの代わりに-Uでも可)

更新の例 (ちょっと古いメモだけど)
$ sudo pip install -U youtube-dl
Collecting youtube-dl
  Downloading https://files.pythonhosted.org/packages/41/4f/b9d6a4dff6cf176d593d494deade44db19654adc3188b7e2842f21a1f31b/youtube_dl-2019.4.24-py2.py3-none-any.whl (1.8MB)
    100% |████████████████████████████████| 1.8MB 344kB/s 
Installing collected packages: youtube-dl
  Found existing installation: youtube-dl 2019.2.18
    Uninstalling youtube-dl-2019.2.18:
      Not removing or modifying (outside of prefix):
      /usr/bin/youtube-dl
      Successfully uninstalled youtube-dl-2019.2.18
Successfully installed youtube-dl-2019.4.24

あと、いろいろするならffprobeとffmpegが必要になるようなのでシステムに入っていないならインストール。
おそらくffmpegをインストールすると両方解決する筈。

$ sudo apt install ffmpeg

youtube-dlの使い方

基本形
$ youtube-dl 動画URL
または
$ youtube-dl 動画ID
または
$ youtube-dl プレイリストID   (プレイリストIDの前に -i を追加するとエラーを無視するのでオススメ)

YouTubeだと https://www.youtube.com/watch?v=00000000000 のようなのが動画URL、そのv=の後の00000000000が動画ID。
https://www.youtube.com/watch?v=00000000000&list=AAAAAAAAAAAAA のlist=の後のAAAAAAAAAAAAAがプレイリストID。

とても簡単だが、ダウンロードしたファイルの動画フォーマットの種類や解像度や音声形式が期待していたものとは違うかもしれない。

YouTubeだと1つの動画と思っているものが、実は複数の形式で保管されている。また、動画ファイルの種類が複数あるだけでなく、動画ファイルに含まれる動画・音声のフォーマットも複数ある。フォーマットを指定すれば期待通りの動画・音声を取得できる。

対象動画のビデオと音声のリストを表示する
$ youtube-dl --list-formats 動画IDまたは動画URL
実行例
$ youtube-dl --list-formats 00000000000
[youtube] 00000000000: Downloading webpage
[youtube] 00000000000: Downloading video info webpage
[youtube] 00000000000: Downloading js player vflq4d8Te
[info] Available formats for 00000000000:
format code  extension  resolution note
171          webm       audio only DASH audio  126k , 1fps, vorbis@128k, 10.41MiB
140          m4a        audio only DASH audio  128k , m4a_dash container, mp4a.40.2@128k, 12.22MiB
278          webm       256x144    144p   97k , webm container, vp9, 24fps, video only, 5.85MiB
160          mp4        256x144    144p  119k , avc1.42c00c, 12fps, video only, 10.48MiB
242          webm       426x240    240p  160k , vp9, 24fps, video only, 6.30MiB
134          mp4        640x360    360p  248k , avc1.4d401e, 24fps, video only, 14.27MiB
133          mp4        426x240    240p  250k , avc1.4d4015, 24fps, video only, 23.46MiB
243          webm       640x360    360p  285k , vp9, 24fps, video only, 11.08MiB
244          webm       854x480    480p  438k , vp9, 24fps, video only, 16.46MiB
135          mp4        854x480    480p  525k , avc1.4d401e, 24fps, video only, 29.26MiB
247          webm       1280x720   720p  814k , vp9, 24fps, video only, 30.29MiB
136          mp4        1280x720   720p 1077k , avc1.4d401f, 24fps, video only, 60.78MiB
248          webm       1920x1080  1080p 1323k , vp9, 24fps, video only, 52.05MiB
137          mp4        1920x1080  1080p 2034k , avc1.640028, 24fps, video only, 130.45MiB
17           3gp        176x144    small   81k , mp4v.20.3, mp4a.40.2@ 24k (22050Hz), 7.84MiB
36           3gp        320x180    small  225k , mp4v.20.3, mp4a.40.2 (22050Hz), 21.73MiB
18           mp4        640x360    medium  343k , avc1.42001E, mp4a.40.2@ 96k (44100Hz), 32.99MiB (best)

行頭の数字がフォーマットコードなので、上の例ではmp4の動画の1920x1080の解像度は137、音声のm4aは140ということが判る。
ダウンロードしたい動画によって存在するフォーマットが違うことがあるので、例えばどの動画でもフォーマットコード137のmp4動画1920x1080があるとは限らない。

フォーマットを指定してダウンロード

上で動画に含まれるフォーマットの種類を調べたら、取得するフォーマットを決める。
たとえばm4a(140)の音声が欲しいとする。

$ youtube-dl -f 140 動画IDまたは動画URL

動画と音声のフォーマットをそれぞれ希望の種類でダウンロード後にマージしたいことはよくある。
動画に含まれる動画(映像)と音声のフォーマットの種類を調べたら、欲しい組み合わせでを決める。
たとえば、上のmp4動画1920x1080 (137)とma4音声でダウンロードしたいとする。出力はmp4形式とする。

$ youtube-dl -f 137+140 --merge-output-format mp4  動画IDまたは動画URL
存在しないフォーマットは指定不可

ダウンロードしてFLACに変換

音声だけライブラリ化したいということがある。編集にかけるだけならダウンロードしたファイルを変換せずにそのまま利用する方が良いとは思うが、好みの形式の音声ファイルにしてしまいたいことってある筈。今回はFLACにする例。

$ youtube-dl -x --audio-format flac 動画IDまたは動画URL

FLACを生成するだけでなく、ダウンロードした動画を残すなら -k を付ける

$ youtube-dl -k -x --audio-format flac  動画IDまたは動画URL

FLACは可逆圧縮なので音声が劣化しないとはいえ、YouTubeにアップロードしたことでアップロード前の音声よりは劣化してしまっていると思われる。ただし、その劣化した音声をさらにmp3などに再変換するよりははるかにマシ。

Caddy ウェブサーバー

Caddy
©いらすとや.

メモリ容量が512MBしかないSBCでウェブの提供を行おうとしたが、このホストはicecast2を動かしていて、既にメモリの80%以上を消費しているので、さらにPHPだとかPythonだとかを使ったCMSを動かすとかは無理そう。そこで別ホストのウェブサーバのコンテンツを表示させるリバースプロクシを建てることにした。 そのリバースプロクシにはいつも使っているNginxではなく軽量で簡単なCaddyを使うことにした。噂によるとHTTP/2には自動対応、つまりSSL/TLSの設定は自動。さらにHTTP/3のQUICも使えるとか。凄いね。
Caddyは初めて使うのでググったのだが、新旧情報が入り混じってて簡単な筈なのに意外と苦労することになった。

Caddy serverをインストール

Caddyを非商用で使う場合は https://caddyserver.com/download からバイナリファイルをダウンロード。ウェブ画面上部のPlatformの欄でCaddyを使用するホストのOSの種類とCPUの種類の合うものを選択して、右端の[Download]で取得できる。

ダウンロードしたファイル(今回はcaddy_linux_arm64)を/usr/bin/あたりに置く。ファイル名はcaddyにでもしておく。実行権限はダウンロードしたファイルに付いている筈だけど確認して無ければ付けておく。
インストールはこれだけ。

Caddyを触ってみる

$ caddy help
Caddy is an extensible server platform.

usage:
  caddy <command> [<args...>]

commands:
  adapt           Adapts a configuration to Caddy's native JSON
  build-info      Prints information about this build
  environ         Prints the environment
  file-server     Spins up a production-ready file server
  fmt             Formats a Caddyfile
  hash-password   Hashes a password and writes base64
  help            Shows help for a Caddy subcommand
  list-modules    Lists the installed Caddy modules
  reload          Changes the config of the running Caddy instance
  reverse-proxy   A quick and production-ready reverse proxy
  run             Starts the Caddy process and blocks indefinitely
  start           Starts the Caddy process in the background and then returns
  stop            Gracefully stops a started Caddy process
  trust           Installs a CA certificate into local trust stores
  untrust         Untrusts a locally-trusted CA certificate
  validate        Tests whether a configuration file is valid
  version         Prints the version

Use 'caddy help <command>' for more information about a command.

Full documentation is available at:
https://caddyserver.com/docs/command-line

こんなコマンドが使えるみたい。

$ caddy version
v2.2.1 h1:Q62GWHMtztnvyRU+KPOpw6fNfeCD3SkwH7SfT1Tgt2c=

とりあえず、バージョンを確認しておく。Ver.1系とVer.2系で設定の書き方が全然違うみたいなので。今後はver.2系の情報だけ探すべき。
一応、公式のドキュメントは https://caddyserver.com/docs/ にあるのだが、個人的には読んでもピンとこなくて各項目で何が指定できるのかなんか良く解らなかった。
設定のサンプルをググるとVer.1系の情報が多くヒットして役に立たないだけでなく混乱するので困る。

Caddyをリバースプロキシにする

今回はCaddyをリバースプロクシにするのだが、先ずは設定ファイルを作らずにコマンドラインから1行で実行してみた。

$ caddy reverse-proxy --from caddy.example.com --to 192.168.0.1:443
または
$ caddy reverse-proxy --from caddy.example.com --to https://another.example.com

caddy.example.comが、Caddyの動いているホストのFQDNとする。
192.168.0.1:443やhttps://another.example.comはコンテンツのある外部ウェブサーバ。ここのIPアドレスやURLの書き方を混ぜると挙動が怪しいようなので注意。特に接続先のホスト(another.example.com側)が名前ベースのバーチャルホストの場合にデフォルトサーバが表示されたりデフォルトサーバが指定されていない場合にFQDN順で最初にヒットするバーチャルホストのコンテンツが表示されたりすることになる。
なお、コンテンツ側のホストは基本的にHTTPSであること。HTTPのウェブサーバを指定するとおそらくNGになるかな?
上の簡単なコマンド1つで自動的に Let's EncryptからTLS証明書を取得してHTTPSサーバとして起動してくれる。なんて簡単なの。

自動で取得した証明書関係のファイルは ~/.local/share/caddy/certificates下に保存される。 ~ は実行ユーザーのホームディレクトリ。

curlでリバースプロキシに接続してレスポンスヘッダ(+コンテンツ本体)を調べてみる。
curl -i https://caddy.example.com
HTTP/2 200 
accept-ranges: bytes
content-type: text/html
date: Mon, 16 Nov 2020 04:37:05 GMT
etag: "5fb11437-5b"
last-modified: Sun, 15 Nov 2020 11:42:47 GMT
server: Caddy
server: nginx
content-length: 20

another.example.com (コンテンツ)

簡単に動くのは素晴らしいのだけど、レスポンスヘッダにserver行が2つ(Caddyとnginx)あって気に入らない。ちなみにここで表示されているnginxはanother.example.comのウェブサーバが出したものを表示してるよう。とりあえずCaddy側を隠したいが、どうせ隠せるのであればserver行の存在自体が全部要らない。
そこで、設定ファイルでヘッダを操作する。

/etc/Caddyfile (新規作成)
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
caddy.example.com {
    reverse_proxy {
        to https://another.example.com
    }
    header / {
        -Server
        Strict-Transport-Security "max-age=31536000; includeSubDomains"
    }

}

接続先のIPアドレス:ポートまたはURLの前の to は必要。
ついでにヘッダを追加する例としてHSTSを1行入れている。必須じゃないので気に入らないなら7行目を削除。

作成した/etc/Caddyfileを指定してcaddyを実行する。
$ caddy start --config /etc/Caddyfile
startはバックグラウンドで実行。caddy stop で停止。フォアグランドで動かすならstartの代わりにrunを使う。
curl -i https://caddy.example.com
HTTP/2 200 
accept-ranges: bytes
content-type: text/html
date: Mon, 16 Nov 2020 05:02:36 GMT
etag: "5fb11437-5b"
last-modified: Sun, 15 Nov 2020 11:42:47 GMT
strict-transport-security: max-age=31536000; includeSubDomains
content-length: 20

another.example.com (コンテンツ)

server行が消えて、追加したstrict-transport-security行がある。
一応満足。

メモリの使用量はNanoPi NEO2のArmbian(Debian Focal Fossa)で8MB程度(常駐のみ)、+α (処理時)。まぁ一応軽い。
今後、簡単にウェブサーバを建てたいと思ったら選択肢の1つ入れるかな。ただし、ドキュメントが何かイマイチ解らないのが問題かも。

Up