“ 生成AIアプリケーションの理解
生成AIアプリケーションの中心には、大規模言語モデル(LLM)があります。これらの機械学習モデルは、インターネットで利用可能なデータなどの膨大な量のコンテンツでトレーニングされています。公開されているデータでトレーニングされた後、LLMは基盤モデル(FM)と見なされます。これらのモデルは、さまざまなユースケースに合わせて調整および最適化できます。Amazon SageMaker JumpStartは、Stability AIのText2ImageやHugging FaceのText2Text Flan T-5を含む、事前トレーニング済みのプロプライエタリおよびオープンソースの基盤モデルを提供します。Amazon Bedrockは、AI21 Labs、Anthropic、Stability AI、Amazon TitanからのモデルへのAPIアクセスを提供することで、生成AIアプリケーションの構築とスケーリングを簡素化します。
“ ベクトルデータストレージによるドメイン特化の達成
生成AIアプリケーションは広範な知識のためにFMを活用できますが、特定のまたは専門的なドメインで正確な結果を得るためには、それらをカスタマイズすることが重要です。プロンプトエンジニアリング、またはインコンテキスト学習は、生成AIアプリケーションを特定のドメインに根付かせ、精度を向上させる簡単な方法です。これは幻覚を完全に排除するわけではありませんが、意味論的な意味をドメインに絞り込みます。FMは、一連の入力トークンに基づいて次のトークンを推測します。提供するコンテキストが多いほど、推測されたトークンが関連性が高くなる可能性が高くなります。FMにクエリするために使用されるプロンプトには、入力トークンと、可能な限り多くの文脈的に関連するデータを含める必要があります。ベクトルデータストアは、意味論的に関連性の高い入力を備えたプロンプトを設計するのに役立ちます。これは、検索拡張生成(RAG)として知られる方法です。実際には、文脈的に関連性の高いパーソナライズされたデータと、意味論的に類似したデータを使用してプロンプトを設計する場合があります。
“ 検索拡張生成(RAG)の説明
RAGは、埋め込み(ベクトル)を使用して、生成AIアプリケーションの精度を向上させます。ドメイン固有のデータは意味論的な要素に分割され、FMはこれらの要素のベクトルを計算します。これらのベクトルはベクトルデータストアに格納され、類似性検索が可能になります。生成AIアプリケーションでは、ユーザーのクエリは意味論的な要素に分割され、ベクトルデータストアにクエリを実行してベクトル空間内の最も近い近傍を検索します。これにより、文脈的に類似した意味論的な要素が提供され、プロンプトに追加されます。このプロセスは、LLMがドメイン固有のコンテキストに基づいて構築するのに役立ち、正確で文脈的に関連性の高い出力の可能性を高めます。
“ ベクトルデータストアの考慮事項:スケーリング、次元、データガバナンス
ベクトルデータストアを検討する際には、いくつかの要因が重要です。ドメイン固有データの量と、それを意味論的な要素に分割するプロセスは、ベクトルデータストアがサポートする必要のある埋め込みの数を決定します。これは、インデックス作成の効率とスケーリング時のパフォーマンスに影響を与える可能性があります。埋め込みベクトルの次元も重要です。異なるFMは、さまざまな次元のベクトルを生成します。高い次元はより豊かなコンテキストを表すことができますが、収穫逓減の法則があり、クエリのレイテンシが増加します。データガバナンスはもう1つの重要な考慮事項です。ドメイン固有のデータセットには機密データが含まれている可能性があるためです。埋め込みを作成、格納、およびクエリするシステムを通過するデータフローを制御することが重要です。
“ ニーズに合ったAWSベクトルデータストアの選択
最適なAWSベクトルデータストアは、特定のユースケースと優先順位によって異なります。リレーショナルデータベース、特にPostgreSQLに深く投資している場合は、pgvector拡張機能を備えたAurora PostgreSQLが適しています。大規模なベクトルデータリポジトリの場合、分散型の性質によりOpenSearch Serviceが強力な選択肢となります。OpenSearch Serverlessのベクトルエンジンは、ベクトル類似性検索を簡単に開始できる方法を提供します。完全に管理されたセマンティック検索エクスペリエンスについては、Amazon Kendraを検討してください。LangChainは、pgvectorを備えたAurora PostgreSQL、OpenSearch Serverlessのベクトルエンジン、およびk-NNを備えたOpenSearch Serviceをサポートしています。
“ AWSでの生成AIの開始方法
埋め込みは、ドメイン固有のデータセットの近くに格納および管理する必要があります。これにより、外部データソースなしで埋め込みデータを他のメタデータと組み合わせることができます。埋め込みをソースデータの近くに格納すると、データパイプラインが簡素化され、埋め込みが最新の状態に保たれます。pgvectorを備えたAurora PostgreSQL、OpenSearch Serverlessのベクトルエンジン、およびk-NNプラグインを備えたOpenSearch Serviceは、すべて実行可能なオプションです。プロンプトエンジニアリングとSageMaker JumpStartおよびAmazon Bedrockの基盤モデルを組み合わせることで、革新的な生成AIソリューションを構築できます。これは急速に進化する分野であるため、最新の開発状況を常に把握してください。今日からAWSで生成AIアプリケーションの構築を開始してください!
元のリンク: https://aws.amazon.com/cn/blogs/china/the-role-of-vector-datastores-in-generative-ai-applications/
コメント(0)