hiro99ma blog

Something technical

tools: markitdownでYouTubeの英語をテキストにしたい

2025/03/29

はじめに

全然自慢にならないが、英語の聞き取りがほとんどできない。
他はできるとは言わないが、読んだり書いたりは今はツールのおかげで何とかなりやすい。
ただ動画の英語は字幕を付けてくれていないと自動ではまだちょっと難しいときがある。 特に技術系だと、略語が近い英単語になったりしてさらに混乱させられたりする。
PCで再生させてスマホのChatGPTなどで変換すると良いですよ、とアドバイスをもらったがまだ試していない。

見かけたのが、markitdown で YouTube の URL を何かできるという X のツイート(だっけ)だ。
どの人だったか忘れたので詳細は読んでなかったが、markitdown 自体ははよく見かけたので単語を覚えていた。

インストール

Installation に書いてあるとおりではあるが、これは開発向けというか git@ でアクセスできる人向けだ。
そうでない人は https://github.com/microsoft/markitdown.git にしておけばよい。
まあ、そのくらいはわかるよって人に向けてなんだろう。

URL

私が英語で見るのは Nordic Semiconductors 関係か Bitcoin 関係だろうから、今回は Bitcoin 関係にした。
日本で Bitcoin 関係だとお金に関するのしか出てこないので探す気にならんのよねぇ。

$ markitdown https://www.youtube.com/watch?v=2DMnyXLIfCI > bdk.md
/home/ueno/.local/lib/python3.10/site-packages/pydub/utils.py:170: RuntimeWarning: Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work
  warn("Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work", RuntimeWarning)

ffmpeg か avconv のどちらかがいるらしい。 どちらも使ったことがないが有名そうな ffmpeg にしておこう。 ああ、こうやって WSL2 のストレージが圧迫されていく。。。

$ markitdown "https://www.youtube.com/watch?v=2DMnyXLIfCI" > bdk.md
$

20行ほどのテキストファイルが作られた。 “Transcript” の業だけが 1900文字くらいあったので省略した。

# YouTube

## Bitcoin Dev Kit CLI Part 1: Installing the CLI

### Video Metadata
- **Views:** 1577
- **Keywords:** 動画,ビデオ,共有,カメラ付き携帯電話,動画機能付き携帯電話,無料,アップロード,チャンネル,コミュニティ,YouTube,ユーチューブ
- **Runtime:** PT2M33S

### Description
This is video 1 in a series on the bdk-cli. We're looking at how to install and test that the tool is properly working locally.

Links:
Bitcoin Dev Kit Website: www.bitcoindevkit.org
Bitcoin Dev Kit on GitHub: https://github.com/bitcoindevkit
thunderbiscuit Twitter:   / thunderb__

### Transcript
what's up bitcoin devs this is video one in a series on the bitcoin devkit cli tool in this video ...

Google翻訳は 5000文字まで打ち込めたので、このくらいなら翻訳できる。
やった!
・・・。
元々この動画って字幕が出ていたので、データが既にあったのかもしれない。

別の動画で試してみよう。
適当に見つけた日本語の動画だ。

$ markitdown "https://www.youtube.com/watch?v=mcFjuPjU4pA" > sleep.md

No transcripts were found for any of the requested language codes: (‘en’,)

これも字幕は表示されていたものの、YouTube の自動生成が使われているそうだ。
そういうタイプは出力されないらしい。
やっぱりそういうものよね。。。

plugin や markitdown-mcp とかいうのもあるので、うまいことやればうまいことやれるんだろうけど、そこまで興味ないのよねぇ。


 < Top page


コメント(Google Formへ飛びます)

GitHub

X/Twitter

Homepage