毫不費力!掌握4要素,AI時代自己動手製作會議摘要網頁應用

近期有會議紀錄的需求,研究了多家錄音筆與錄音卡片感覺都不是很符合自己的需求。於是開始動手製作語音轉文字的應用,會議中我一定會有電腦,用電腦內建的錄音就可以滿足我的需求,接著「如何把語音轉文字呢」?

嘗試使用過Google Speech-to-text AI,應用其教程以及UI介面試一下跑出來的效果,發覺在中文的轉換詞彙與錯次很多,甚至寫出讓人看不懂的詞彙,且計價方式是使用分鐘計價,對於長時間的會議記綠需求成本非常高,另外看了AWS的Transcribe也是用分鐘計價,並且沒有免費額度,於是果斷放棄使用現成的API。

最後我找到open AI的開源軟體「Whisper,雖然要自己建立一些基礎建設,然而,用Whisper跑出來的效果很好,又可以產生標點符號與每句話的時間,於是就決定是它了。

功能解說

我的目標是把功能寫成網頁應用分享給其它人用,期望做到網頁「錄音->寫成逐字稿->重點摘要」,生成式的出現讓這些功能的實現變得非常簡單,以下是我用到的技術。

錄音Media Recorder API

首先是錄音功能,用Web API 「MediaRecorder」就可直接做到,但需要注意音檔的格式,由於Whisper只能吃特定的格式,因此還需要做到轉檔。

轉檔FFmpeg

說到轉檔不能不提到開源軟體FFmpeg了,無論是影片、聲音轉檔它都是很好用的工具。

語音轉文字

本篇的重點「語音轉文字」,就使用Whisper來幫我們做到。先是嘗試使用Whisper看看效果,直接去到它的Github頁面把軟體跑起來,得出來的結果很讓人滿意。

製作摘要

摘要的部分就要用大家最耳熟能詳的ChatGPT啦,直接串API非常快速,品質很好費用也不會太高。

這些應用全部串起來就變成一個非常好用的工具,它能幫助製作會議紀錄節省巨量的時間。未來期待把它做成商業應用,用少少的費用讓用戶能夠使用到方便的功能。

喜歡運用科技工具提升工作效率、並自主開發實用小工具的長時間使用電腦工作者。對新科技工具深感興趣,樂於分享如何運用科技工具提升生活和工作效率的技巧。

發佈留言