毫不費力！掌握4要素，AI時代自己動手製作會議摘要網頁應用

近期有會議紀錄的需求，研究了多家錄音筆與錄音卡片感覺都不是很符合自己的需求。於是開始動手製作語音轉文字的應用，會議中我一定會有電腦，用電腦內建的錄音就可以滿足我的需求，接著「如何把語音轉文字呢」？

嘗試使用過Google Speech-to-text AI，應用其教程以及UI介面試一下跑出來的效果，發覺在中文的轉換詞彙與錯次很多，甚至寫出讓人看不懂的詞彙，且計價方式是使用分鐘計價，對於長時間的會議記綠需求成本非常高，另外看了AWS的Transcribe也是用分鐘計價，並且沒有免費額度，於是果斷放棄使用現成的API。

最後我找到open AI的開源軟體「Ｗhisper」，雖然要自己建立一些基礎建設，然而，用Whisper跑出來的效果很好，又可以產生標點符號與每句話的時間，於是就決定是它了。

功能解說

我的目標是把功能寫成網頁應用分享給其它人用，期望做到網頁「錄音->寫成逐字稿->重點摘要」，生成式的出現讓這些功能的實現變得非常簡單，以下是我用到的技術。

錄音Media Recorder API

首先是錄音功能，用Web API 「MediaRecorder」就可直接做到，但需要注意音檔的格式，由於Whisper只能吃特定的格式，因此還需要做到轉檔。

轉檔FFmpeg

說到轉檔不能不提到開源軟體FFmpeg了，無論是影片、聲音轉檔它都是很好用的工具。

語音轉文字

本篇的重點「語音轉文字」，就使用Whisper來幫我們做到。先是嘗試使用Whisper看看效果，直接去到它的Github頁面把軟體跑起來，得出來的結果很讓人滿意。

製作摘要

摘要的部分就要用大家最耳熟能詳的ChatGPT啦，直接串API非常快速，品質很好費用也不會太高。

這些應用全部串起來就變成一個非常好用的工具，它能幫助製作會議紀錄節省巨量的時間。未來期待把它做成商業應用，用少少的費用讓用戶能夠使用到方便的功能。