RAGで猫の慢性腎臓病に関するPDFを取り込んでみた実験報告

今回、猫の慢性腎臓病(特にSDMAの持続性)に関するPDF文書をRAG(Retrieval Augmented Generation)方式で取り込み、実際に生成AIに質問を投げて応答精度をテストしてみました。RAGとは、事前にベクトル化した文書をデータベースに保存し、ユーザーのクエリに合致する箇所を抜き出してAIの回答に反映させる仕組みです。

実験概要

1. PDF文書(IDEXX社のSDMAに関するホワイトペーパー)をテキスト抽出し、

2. PineconeなどのベクトルDBに登録

3. 生成AIに対して「PDFに書かれている具体的な数値や原因候補」を尋ねる質問

4. 回答を比較し、正確性を検証

テスト結果

• 部分的に正しい内容は回答できるが、不十分な面もありました。

• PDF本文には「SDMAが一度基準範囲内に戻っても再度上昇する要因」として、

• 慢性腎臓病(CKD)の初期段階で基準範囲を行き来する

• 急性イベント(脱水、腎毒性など)からの回復

• 代償機能や治療介入(一時的に腎機能が改善)

• 生理的変動や検査誤差

などが挙げられていました。

• しかし回答の一部では「具体的な要因は明示されていない」とまとめられており、実際のPDFにはある程度の要因例が書かれていることを正確に反映できていない部分も見受けられました。

考察

• RAGを導入すると、通常の大規模言語モデルよりも正確性は向上するものの、PDF本文の内容をどの程度細かく抽出・活用するかで回答の完成度は左右されます。

• 図や表などの情報(特に画像データ)はOCRなどを経由してテキスト化しないと参照が難しく、埋め込みの方法を工夫する必要があります。

• また、文書内の要因例など、複数の事柄が列挙されている場合は、回答が部分的に抜け落ちるケースもありました。

まとめ

• RAGによるPDF参照は、早期診断や注意点を示す研究結果などをより正確にAI回答へ反映する手段として期待できます。

• 一方で、実際の運用では「埋め込み精度」「質問の設計」「回答のチェック」などが依然として重要です。

猫の慢性腎臓病においては、特にSDMAの活用が注目されています。今回の実験結果からも、AIを活用してPDFの専門情報を検索・要約するのは十分有益ですが、回答内容を必ず人間が確認・補足する必要があると感じました。今後は、OCRを用いた画像内データの取り込みや、より高度なフィードバックループを用いた再質問などを試みて、さらに正確で詳細な情報提供をめざしていきたいと思います。

OCR処理もせんとあかんのか•••

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール