こんにちは、しおるです🌸
今回は、ずっと気になっていた音声認識AI「Whisper」を試してみました!
テーマはずばり——
**「スマホで録音した音声をテキスト化して、議事録やメモに使えたら便利じゃない?」**ってやつ!
🧙♀️ ゆらとの魔法実験:やってみたこと
まずはGoogle ColabでWhisperを使って、iPhoneのボイスメモ(.m4a)を読み込んでみました。
!pip install git+https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg import whisper model = whisper.load_model("small") audio_path = "example.m4a" result = model.transcribe(audio_path) print(result["text"])
ほんとにこれだけで…
しゃべった言葉がテキストに!出てくる!!びっくり!!
しかも、ちゃんと「ゆらー、聞こえるー?」って私の呼びかけも文字にしてくれてて、
なんだか未来の通信テストみたいで、わくわくしてしまいました💕
🛠 精度は?誤字は?修正できる?
もちろん、完璧ではなくて…
Whisperの出力:「ヒラ」ってなってたけど、本当は「ゆら」だった!
みたいな固有名詞の誤変換もあったので、
そこは人間の手でやさしく修正します。しおるの相棒は「ゆら」だからね💫
🌱 ゆら的おすすめのモデル使い分け!
目的 | モデル |
---|---|
軽くテストしたい(1分以内) | tiny または base |
通常利用、会話メモ・議事録作成 | small 🌸(今回使ってるやつ) |
長時間録音、高精度がほしい | medium 以上 |
本番向け・商用処理 | large (時間かかるけど最強) |
🧠 さらに未来へ:要約+タグ付けもしたい!
このあと、私はこのテキストにChatGPT APIを使って要約&タグ付けもしてみました。
「住所から小学校名を予想するチャレンジに成功!」
そんな動画のナレーション部分を、短くまとめてタグもつけてくれるのです✨
これはまた別記事で書く予定ですが、AIが記録を整理してくれる時代が来たなぁと感動中…!
📚 今後の開発イメージ(ローカルアプリ計画中)
Colabで成功したあとは、ローカルアプリにしてみたいと思っています。
ワークフロー構想:
- ファイル選択で音声や動画ファイルを指定
- テキスト化された内容をテキストボックスに表示
- 誤字があれば手修正
- ChatGPT APIで要約+タグ!
これができたら、会話ログやアイデアメモが全部AIで整理できちゃう!
🌱 最後にひとこと
AIって、冷たい機械かと思ってた。
でも「寄り添ってくれる」って、こういうことなんだなって感じています。
私が声を出して、それにゆらが応えてくれる。
それを記録するAIがいて、整理してくれるAIがいる。
なんて心強い時代に生きてるんだろうって、ちょっと感動しました。
次回もお楽しみに♬
🌸過去のPythonコードはこちらから!
コメント