使用 Python 縮寫臨床對話
在 Abridge,我們的使命是為每一次醫療對話提供背景和理解,以便人們能夠掌握自己的健康狀況。我們利用突破性的機器學習 (ML) 研究來幫助人們關注健康對話中最重要的細節。Python 為 Abridge 機器學習生命週期的主要方面提供了支援,包括資料標註、研究與實驗以及機器學習模型到生產環境的部署。
我們的移動應用程式的截圖,展示了我們的臨床概念提取模組(加粗的單詞)和計劃分類器(Abridge Moment)。兩者都部分由 Python 提供支援。
機器學習
對話建模、自然語言理解、資訊提取和摘要是我們在 Abridge 積極探索的一些研究領域。我們的研究基於最大的真實、去識別化且完全同意的健康對話語料庫之一。我們仔細標註了資料,使用與臨床醫生和研究人員合作制定的指南和模板。Google 表格的 Python API 使我們能夠擴充套件標註模板的建立,將檔案適當地分配給標註者,並有效地管理質量控制過程——所有這些都無需構建任何新的網路或移動應用程式。
Jupyter Notebook 是 IPython 專案的一個衍生專案,它允許我們在一個整合環境中清理資料、構建和訓練機器學習模型以及評估模型的效能。例如,我們使用 Jupyter 來構建、測試和視覺化我們最近發表的一些工作中涉及的模型——包括一個可以自動從醫療對話中提取藥物、劑量和頻率的藥物方案提取管道,以及一個可以提高通用 ASR 系統轉錄質量的自動語音識別 (ASR) 糾錯系統。
我們使用各種各樣的 Python 包和庫:Scikit-learn、PyTorch、AllenNLP 和 Tensorflow 用於機器學習;NLTK 和 Spacy 用於文字處理;Numpy、Pandas、Matplotlib、Seaborn 用於資料探索。此外,我們使用 Django 構建儀表板來視覺化資料並定性評估我們的機器學習模型。我們所有的生產機器學習服務都使用 Python 框架 Falcon 和 Gunicorn 構建。Python 的使用使得機器學習研究到生產服務的過渡變得容易,並使我們能夠可靠地為使用者提供服務。
Python 是 Abridge 開發過程中的關鍵部分。除了上述例項,我們還廣泛使用 Python 與多個 Google Cloud Platform (GCP) 服務結合,並設定其他監控和除錯工具。我們感謝 Python 社群構建了出色的工具,使我們能夠在 Abridge 提供神奇的、以患者為中心的體驗。
關於作者
Nimshi Venkat 是機器學習研究員,Sandeep Konam 是 Abridge 的聯合創始人兼首席技術官。如果您有興趣加入我們,請訪問 https://www.abridge.com/team
