notebooklm-knowledge-base-organizer
NotebookLMで利用するために、ドキュメントを整理して知識ベースを作成し、形式を変換したり、ファイル数を制限したりする際に、ファイルの優先順位付け、結合、形式変換、構造化を行い、検索パフォーマンスを最適化するSkill。
📜 元の英語説明(参考)
Use when preparing files for NotebookLM, organizing documents into a knowledge base, converting formats for NotebookLM compatibility, or reducing a large document collection to fit NotebookLM's 50-source limit. Scores and prioritizes sources, performs strategic merging (time-series, topic-based, format consolidation), converts unsupported formats (PPTX to PDF, XLSX to CSV), applies flat structure with descriptive snake_case names, and optimizes for RAG retrieval performance.
🇯🇵 日本人クリエイター向け解説
NotebookLMで利用するために、ドキュメントを整理して知識ベースを作成し、形式を変換したり、ファイル数を制限したりする際に、ファイルの優先順位付け、結合、形式変換、構造化を行い、検索パフォーマンスを最適化するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o notebooklm-knowledge-base-organizer.zip https://jpskill.com/download/10463.zip && unzip -o notebooklm-knowledge-base-organizer.zip && rm notebooklm-knowledge-base-organizer.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/10463.zip -OutFile "$d\notebooklm-knowledge-base-organizer.zip"; Expand-Archive "$d\notebooklm-knowledge-base-organizer.zip" -DestinationPath $d -Force; ri "$d\notebooklm-knowledge-base-organizer.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
notebooklm-knowledge-base-organizer.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
notebooklm-knowledge-base-organizerフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
NotebookLM Knowledge Base Organizer
NotebookLM で最適に利用できるようにファイルを準備します。具体的には、ソースのインテリジェントな選択と統合、形式の変換、構造の整理、互換性の確保を行います。主な制約は、NotebookLM のノートブックごとのソース数制限である 50 個です。コレクションがこの制限を超える場合、体系的なスコアリング、優先順位付け、戦略的なマージによって、貴重な情報を失うことなくソース数を削減します。
この Skill を使用する場面
- 50 個以上のファイルがあり、NotebookLM の制限に合わせて最適化する必要がある場合
- 新しい NotebookLM ノートブック用にドキュメントを準備する場合
- 乱雑なフォルダを NotebookLM 対応のソースに変換する場合
- ファイルがサポートされていない形式(PPTX、XLSX、複雑な PDF)である場合
- ドキュメントが 1 ファイルあたり 50 万語または 200MB を超える場合
- 研究、プロジェクト、または学習のための知識ベースを構築する場合
- 大量のドキュメントコレクション(100〜300 ファイル)をインテリジェントに優先順位付けする必要がある場合
この Skill でできること
- ソースのスコアリングと優先順位付け(50 個を超える場合)関連性、最新性、独自性、情報密度(0〜40 スケール)を使用
- 戦略的なマージ 時系列(日次から月次)、トピックベース(関連論文から包括的なガイド)、形式の統合(スライド+トランスクリプトから統合 PDF)による
- サポートされている形式への変換(PPTX から PDF、XLSX から CSV、スキャンから OCR)
- フラットな構造の適用 記述的な snake_case の命名を使用
- 重複の削除 形式をまたいで
- 大きなファイルの分割 50 万語を超えるファイルを分割
- RAG の最適化 より良い検索のために、より小さく、焦点を絞ったドキュメントを使用
NotebookLM でサポートされている形式
サポートされている形式:
- PDF (テキスト選択可能、スキャンされた画像ではない)
- Google ドキュメント、スプレッドシート (<100k トークン)、スライド (<100 スライド)
- Microsoft Word (.docx)
- テキストファイル (.txt, .md)
- 画像 (PNG, JPEG, TIFF, WEBP)
- オーディオ (MP3, WAV, AAC, OGG、明確な音声を含む)
- URL (ウェブサイト、YouTube、Google ドライブのリンク)
- コピー&ペーストされたテキスト
変換が必要な形式:
- PPTX から PDF
- XLSX から CSV または Google スプレッドシート
- スキャンされた PDF から OCR テキスト選択可能な PDF
- 大きなスプレッドシートから CSV (<100k トークン)
ファイル制限
ソースごと:
- 最大 500,000 語
- 最大ファイルサイズ 200MB
- ページ制限なし (語数が重要)
ノートブックごと (無料):
- 最大 50 ソース -- 厳守
- 合計 100 ノートブック
より良い RAG 検索のためには、少数の大きなドキュメントよりも、多数の小さく、焦点を絞ったドキュメントを推奨します。50 ソースの制限が主な最適化制約です。
重要: すべての操作中に元のファイルのタイムスタンプを保持してください。タイムスタンプは、最新の追加、最近の会議議事録、および重要な決定を理解するために不可欠です。変換後には touch -r original converted を使用してください。すべてファイル名に ISO 形式 (YYYY-MM-DD) で日付を含めてください。
使用方法
これらのファイルを NotebookLM 用に準備します - 形式を変換し、記述的な名前で整理します
すべての PPTX および XLSX ファイルを NotebookLM 互換形式に変換します
ファイルが NotebookLM の 50 万語または 200MB の制限を超えているかどうかを確認します
この研究フォルダを NotebookLM 知識ベース用に整理します
異なるファイル形式間で重複するコンテンツを見つけます
この大きな PDF を NotebookLM 互換のチャンクに分割します
手順
ユーザーが NotebookLM の整理を要求した場合、次の手順に従ってください。
ステップ 1: ソースの評価と優先順位付け
整理を進める前に、カウントと評価を行います。
total_sources=$(find . -type f \( -name "*.pdf" -o -name "*.docx" -o -name "*.txt" -o -name "*.md" -o -name "*.csv" \) | wc -l)
echo "Total sources found: $total_sources"
合計が 50 を超える場合:
-
4 次元のルーブリック (関連性、最新性、独自性、密度、それぞれ 0〜10) を使用して、すべてのソースをスコアリングします。完全なルーブリック、評価コマンド、およびバッチスコアリングスクリプトについては、
references/scoring-system.mdを参照してください。 -
意思決定マトリックスを使用して、上位候補をランク付けして選択します。最初は 35〜40 個の自動保持ソースをターゲットにします。選択プロセスとスペースベースの調整については、
references/prioritization-strategy.mdを参照してください。 -
マージ候補を特定します -- 時系列パターン、トピッククラスター、およびマルチフォーマットの重複を見つけます。
# 時系列の機会 find . -name "*_20[0-9][0-9]_[0-9][0-9]_*" | \ sed 's/_20[0-9][0-9]_[0-9][0-9]_[0-9][0-9]//' | sort | uniq -c | sort -rn # トピッククラスター find . -type f -name "*.pdf" | xargs -I {} basename {} .pdf | \ sed 's/_part_[0-9]*//;s/_[0-9][0-9]*$//' | sort | uniq -c | sort -rn | awk '$1 > 2' -
適切なパターンを使用して、戦略的なマージを実行します。時系列、トピックベース、および形式の統合スクリプトについては、
references/merging-strategies.mdを参照してください。すべてのマージされた出力でタイムスタンプを保持します。 -
最終的な合計を再カウントして検証します。合計が 50 以下であることを確認します (理想的には、将来の追加のためにスロットを予約するために 48)。
ステップ 2: スコープを理解する
明確にするための質問をします。
- この知識ベースのトピック/目的は何ですか?
- ソースマテリアルはどのディレクトリにありますか?
- ターゲット: 単一のノートブックですか、それとも複数の関連するノートブックですか?
- 元の形式を維持する必要があるファイルはありますか?
- これは、研究、学習、プロジェクトドキュメント、または参照用ですか?
ステップ 3: 現在の状態を分析する
NotebookLM の互換性についてファイルを確認します。
find . -type f -exec file {} \;
find . -type f -exec du -h {} \; | sort -rh
find . -type f | sed 's/.*\.//' | sort | uniq -c | sort -rn
for f in *.pdf; do pdftotext "$f" - | wc -w; done
調査結果を分類します。
- そのまま互換性がある: PDF, DOCX, TXT, MD, 画像
- 変換が必要: PPTX, XLSX, XLS, PPT, スキャンされた PDF
- 大きすぎる: 50 万語または 200MB を超えるファイル
- 重複: 異なる形式で同じコンテンツ
- マージ候補: ステップ 1 で統合用に特定されたソース
ステップ 4: サポートされていない形式を変換する
PowerPoint から PDF:
soffice --headless --convert-to pdf *.pptx
touch -r original.pptx converted.pdf # タイムスタンプを保持
Excel から CSV:
soffice --headless --convert-to csv:"Text - txt - csv (StarCalc)":44,34,UTF8 *.xlsx
touch -r original.xlsx converted.csv # タイムスタンプを保持
**スキャンされた PDF から
(原文がここで切り詰められています)
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
NotebookLM Knowledge Base Organizer
Prepares files for optimal use in NotebookLM by intelligently selecting and consolidating sources, converting formats, organizing structure, and ensuring compatibility. The primary constraint is NotebookLM's 50-source limit per notebook. When collections exceed this limit, systematic scoring, prioritization, and strategic merging reduce source count without losing valuable information.
When to Use This Skill
- You have 50+ files and need to optimize for NotebookLM's limit
- Preparing documents for a new NotebookLM notebook
- Converting a messy folder into NotebookLM-ready sources
- Files are in unsupported formats (PPTX, XLSX, complex PDFs)
- Documents exceed 500k words or 200MB per file
- Building a knowledge base for research, projects, or learning
- Large document collections (100-300 files) need intelligent prioritization
What This Skill Does
- Scores and Prioritizes Sources (when >50 detected) using Relevance, Recency, Uniqueness, and Information Density (0-40 scale)
- Strategic Merging via time-series (daily to monthly), topic-based (related papers to comprehensive guides), and format consolidation (slides + transcript to unified PDF)
- Converts to Supported Formats (PPTX to PDF, XLSX to CSV, scanned to OCR)
- Applies Flat Structure with descriptive snake_case naming
- Removes Duplicates across formats
- Splits Large Files exceeding 500k words into parts
- Optimizes for RAG with smaller, focused documents for better retrieval
NotebookLM Supported Formats
Supported:
- PDF (text-selectable, not scanned images)
- Google Docs, Sheets (<100k tokens), Slides (<100 slides)
- Microsoft Word (.docx)
- Text files (.txt, .md)
- Images (PNG, JPEG, TIFF, WEBP)
- Audio (MP3, WAV, AAC, OGG with clear speech)
- URLs (websites, YouTube, Google Drive links)
- Copy-pasted text
Convert These:
- PPTX to PDF
- XLSX to CSV or Google Sheets
- Scanned PDFs to OCR text-selectable PDF
- Large Sheets to CSV (<100k tokens)
File Limits
Per Source:
- 500,000 words max
- 200MB file size max
- No page limit (word limit matters)
Per Notebook (Free):
- 50 sources maximum -- HARD LIMIT
- 100 notebooks total
Prefer many smaller, focused documents over few large ones for better RAG retrieval. The 50-source limit is the primary optimization constraint.
IMPORTANT: Preserve original file timestamps during all operations. Timestamps
are essential for understanding latest additions, recent meeting minutes, and
key decisions. Use touch -r original converted after conversions. Include
dates in ISO format (YYYY-MM-DD) in all filenames.
How to Use
Prepare these files for NotebookLM - convert formats and organize with descriptive names
Convert all PPTX and XLSX files to NotebookLM-compatible formats
Check if any files exceed NotebookLM's 500k word or 200MB limits
Organize this research folder for a NotebookLM knowledge base
Find duplicate content across different file formats
Split this large PDF into NotebookLM-compatible chunks
Instructions
When a user requests NotebookLM organization, follow these steps.
Step 1: Assess and Prioritize Sources
Count and evaluate before proceeding with any organization.
total_sources=$(find . -type f \( -name "*.pdf" -o -name "*.docx" -o -name "*.txt" -o -name "*.md" -o -name "*.csv" \) | wc -l)
echo "Total sources found: $total_sources"
If total exceeds 50:
-
Score all sources using the 4-dimension rubric (Relevance, Recency, Uniqueness, Density, each 0-10). See
references/scoring-system.mdfor the full rubric, assessment commands, and batch scoring script. -
Rank and select top candidates using the decision matrix. Target 35-40 auto-keep sources initially. See
references/prioritization-strategy.mdfor the selection process and space-based adjustments. -
Identify merge candidates -- find time-series patterns, topic clusters, and multi-format duplicates:
# Time-series opportunities find . -name "*_20[0-9][0-9]_[0-9][0-9]_*" | \ sed 's/_20[0-9][0-9]_[0-9][0-9]_[0-9][0-9]//' | sort | uniq -c | sort -rn # Topic clusters find . -type f -name "*.pdf" | xargs -I {} basename {} .pdf | \ sed 's/_part_[0-9]*//;s/_[0-9][0-9]*$//' | sort | uniq -c | sort -rn | awk '$1 > 2' -
Execute strategic merges using appropriate patterns. See
references/merging-strategies.mdfor time-series, topic-based, and format consolidation scripts. Preserve timestamps on all merged outputs. -
Recount and validate the final total is at or below 50 (ideally 48 to reserve slots for future additions).
Step 2: Understand the Scope
Ask clarifying questions:
- What is the topic/purpose of this knowledge base?
- Which directory contains the source materials?
- Target: single notebook or multiple related notebooks?
- Any files that must stay in original format?
- Is this for research, learning, project documentation, or reference?
Step 3: Analyze Current State
Review files for NotebookLM compatibility:
find . -type f -exec file {} \;
find . -type f -exec du -h {} \; | sort -rh
find . -type f | sed 's/.*\.//' | sort | uniq -c | sort -rn
for f in *.pdf; do pdftotext "$f" - | wc -w; done
Categorize findings:
- Compatible as-is: PDF, DOCX, TXT, MD, images
- Needs conversion: PPTX, XLSX, XLS, PPT, scanned PDFs
- Too large: Files >500k words or >200MB
- Duplicates: Same content in different formats
- Merge candidates: Sources identified for consolidation in Step 1
Step 4: Convert Unsupported Formats
PowerPoint to PDF:
soffice --headless --convert-to pdf *.pptx
touch -r original.pptx converted.pdf # Preserve timestamp
Excel to CSV:
soffice --headless --convert-to csv:"Text - txt - csv (StarCalc)":44,34,UTF8 *.xlsx
touch -r original.xlsx converted.csv # Preserve timestamp
Scanned PDF to Searchable:
ocrmypdf input.pdf output_searchable.pdf
touch -r input.pdf output_searchable.pdf # Preserve timestamp
pdftotext output_searchable.pdf - | wc -w # Verify text extraction
WARNING: Always run touch -r original converted after every conversion to preserve the original file timestamp.
Step 5: Apply Naming
Use this pattern: category_topic_descriptor_YYYY_MM_DD.ext
Examples:
research_quantum_computing_basics_2025.pdfmeeting_notes_project_kickoff_2026_01_15.txtclient_proposal_acme_corp_final.docxreference_api_documentation_v2.mddata_sales_figures_q4_2025.csv
See references/organization-scripts.md for the automated naming script. Preserve timestamps when renaming: use mv (preserves by default) and verify with stat.
Step 6: Split Large Documents
For files >500k words or >200MB:
pdftotext document.pdf - | wc -w # Check word count
pdftk large.pdf cat 1-500 output large_part_1.pdf
pdftk large.pdf cat 501-1000 output large_part_2.pdf
touch -r large.pdf large_part_1.pdf large_part_2.pdf # Preserve timestamps
Name parts by content, not arbitrary numbers:
annual_report_2025_part_1_executive_summary.pdfannual_report_2025_part_2_financials.pdfannual_report_2025_part_3_appendices.pdf
Step 7: Consolidation Pass
Perform strategic merging to optimize source count. This step is critical when merge candidates were identified in Step 1 or the collection is near the 50-source limit.
Merging is a primary optimization strategy, not a last resort. Three patterns apply:
- Time-series: Combine chronological documents into period summaries (daily to monthly, weekly to quarterly)
- Topic-based: Combine related papers/docs into comprehensive guides with chapter markers
- Format consolidation: Combine slides + transcript + notes for the same event into a single PDF
See references/merging-strategies.md for full merge patterns, scripts (time-series merger, topic-based PDF merger), decision trees, and quality checks.
IMPORTANT: Preserve chronological timestamps in merged content. Add clear date headers within merged files so temporal context is not lost.
Log all merge decisions for inclusion in the organization plan.
Step 8: Implement Flat Structure
NotebookLM works best with flat source lists, no nested folders.
Before:
docs/
project/
planning/
requirements.pdf
research/
background.pdf
reference/
api_docs.pdf
After:
notebooklm_sources/
project_requirements_2026.pdf
project_background_research.pdf
reference_api_documentation.pdf
See references/organization-scripts.md for the implementation script. Preserve timestamps when copying: use cp -p to maintain original dates.
Step 9: Find and Remove Duplicates
find . -type f -exec md5 {} \; | sort | uniq -d
find . -type f -printf '%f\n' | sed 's/\.[^.]*$//' | sort | uniq -d
for pdf in *.pdf; do echo "=== $pdf ==="; pdftotext "$pdf" - | md5; done | sort
Decision matrix:
- Same content, different formats: keep PDF (best for NotebookLM)
- Same content, different names: keep most descriptive name
- Slight variations: merge into single document if <500k words
- Truly duplicate: delete older version (check timestamps first)
Step 10: Optimize for RAG
NotebookLM uses RAG, which works best with focused documents:
- Split 100-page documents into 3-5 topic-focused files
- Separate chapters/sections into individual sources
- Keep each source focused on one topic/subtopic
- Prefer 20-50 pages per PDF over 200+ page megadocs
Instead of:
company_handbook_500_pages.pdf
Create:
handbook_code_of_conduct.pdf
handbook_benefits_overview.pdf
handbook_time_off_policy.pdf
handbook_remote_work_guidelines.pdf
handbook_career_development.pdf
Step 11: Propose Organization Plan
Present a plan to the user before making changes. The plan should cover current state, source selection strategy (if >50 sources), proposed structure, changes to make, and a compatibility check.
See references/organization-plan-template.md for the full template with sections for prioritization results, merge decisions, and final source count verification.
Step 12: Execute Organization
After user approval, execute all conversions, merges, renames, and structural changes. Log all operations.
See references/organization-scripts.md for the complete execution script with logging and limit verification. Run touch -r after every file operation to preserve original timestamps.
Step 13: Provide Upload Instructions
Provide the user with a summary of organized sources and upload instructions for NotebookLM (direct upload and Google Drive options).
See references/upload-guide.md for the full upload instructions template including maintenance guidance.
Examples
Example 1: Research Paper Collection
User: "Prepare my PhD research papers folder for NotebookLM"
Process:
- Finds 35 PDFs, 12 DOCX, 8 PPTX across nested folders
- Converts 8 PPTX to PDF (preserves timestamps)
- Identifies 2 papers >500k words, splits into parts
- Renames:
smith_2024.pdftoresearch_quantum_entanglement_smith_2024.pdf - Creates flat structure in
phd_research_sources/ - Result: 48 sources ready for upload
Example 2: Company Knowledge Base
User: "Convert our company wiki exports to NotebookLM format"
Split single 145-page PDF by section into 7 focused sources:
company_overview_history_mission.pdf(8 pages)company_policies_hr_guidelines.pdf(28 pages)company_product_documentation.pdf(45 pages)- (4 more topic-focused files)
Result: 7 focused sources instead of 1 large doc. Better RAG retrieval.
Example 3: Excel Data
User: "I have 10 Excel files with research data"
Convert each sheet to separate CSV. Name descriptively: data_survey_responses_2025.csv. Create overview doc: data_overview_methodology.txt. Preserve timestamps on all conversions.
Result: 10 XLSX to 23 CSV files + 1 overview doc.
Example 4: Conference Materials
User: "Organize my conference materials for a knowledge base"
Input: 12 MP3 recordings, 8 PPTX decks, 15 JPG notes, 5 PDFs. Keep MP3 as-is (NotebookLM transcribes on upload). Convert PPTX to PDF. Keep JPGs (NotebookLM reads handwriting via OCR). Apply naming: conf_session_title_speaker_date.ext. Preserve all timestamps.
Result: 40 sources in flat folder.
Example 5: Large Collection (200+ Sources)
For a complete workflow handling 200+ sources (e.g., reducing 237 sources to 48 with strategic merging), see references/large-collection-workflow.md.
Common Patterns
Academic Research
research_[topic]_[author]_[year].pdf
notes_[course]_[topic]_[date].md
textbook_[subject]_chapter_[n]_[title].pdf
Business Projects
project_[name]_requirements.pdf
project_[name]_timeline.csv
meeting_[project]_[date]_notes.txt
client_[name]_proposal_final.docx
Learning/Courses
course_[name]_lecture_[n]_[topic].pdf
course_[name]_readings_week_[n].pdf
course_[name]_assignment_[n].docx
Personal Knowledge Base
article_[topic]_[author]_[date].pdf
book_notes_[title]_[author].md
tutorial_[skill]_[topic].pdf
reference_[tool]_documentation.pdf
Pro Tips
-
Optimize for Search: Use descriptive names with search keywords. Good:
tutorial_python_async_programming_advanced.pdf. Bad:tutorial_5.pdf. -
Topic-Based Splitting: Split large docs by topic, not arbitrary page count. Good:
handbook_benefits.pdf,handbook_policies.pdf. Bad:handbook_part_1.pdf,handbook_part_2.pdf. -
Date Formatting: Use ISO format (YYYY-MM-DD) for sortability. Good:
meeting_notes_2026_02_04.txt. Bad:meeting_notes_feb_4_2026.txt. -
Preserve Source Timestamps: Always maintain original file creation/modification dates. These enable accurate recency scoring and help NotebookLM's RAG weight recent meeting notes, decisions, and additions appropriately. Use
touch -r original convertedafter every conversion. -
Extract Text from Scans: Scanned PDFs do not work in NotebookLM. Test with
pdftotext test.pdf - | head. If blank, runocrmypdf input.pdf output.pdf. -
Use Prefixes for Ordering: Add numeric prefixes for logical ordering:
01_project_overview.pdf,02_project_requirements.pdf. -
Test Before Bulk Upload: Upload 2-3 files first to verify processing, summaries, and search accuracy. Then upload the rest.
Best Practices Summary
Source Selection and Optimization:
- Always assess total source count first before organizing
- Use scoring rubric for objective prioritization (>50 sources)
- Merge strategically as primary optimization, not last resort
- Prefer quality over quantity: 48 great sources over 50 mediocre ones
- Reserve 2-3 slots for future additions
- Do not merge high-value unique sources (score 35+)
- Do not combine unrelated topics just to hit limits
File Naming:
- Descriptive snake_case with searchable terms and ISO dates
- Keep under 100 characters, no spaces or special characters
- Use dates instead of version numbers
Format Selection:
- PDF for presentations and mixed content
- CSV for spreadsheet data
- DOCX/TXT/MD for text documents
- Always convert PPTX and XLSX before upload
Timestamp Preservation:
- Run
touch -r original convertedafter every conversion - Use
cp -pwhen copying files to preserve modification dates - Include ISO dates in filenames for explicit temporal context
- Timestamps drive recency scoring and RAG relevance weighting
Organization Structure:
- Flat structure (one folder, all files)
- Descriptive names include folder context
- Stay under 50 sources per notebook
Implementation Checklist
Phase 1: Assessment and Prioritization
- [ ] Identify target notebook topic/purpose
- [ ] Locate all source files and count total
- [ ] If >50: run scoring rubric for all sources
- [ ] If >50: identify and execute strategic merges
- [ ] If >50: select top sources using decision matrix (target 48)
- [ ] Check file formats, note conversions needed
- [ ] Estimate word counts for large files
Phase 2: Conversion and Organization
- [ ] Convert unsupported formats (preserve timestamps)
- [ ] Apply descriptive snake_case naming
- [ ] Split large documents by topic
- [ ] Remove duplicates
- [ ] Create flat output directory
- [ ] Verify all files <200MB and <500k words
- [ ] Verify final source count is at or below 50
- [ ] Verify timestamps preserved on all converted/moved files
Phase 3: Upload and Verification
- [ ] Document selection strategy in organization plan
- [ ] Test upload 2-3 files
- [ ] Upload remaining sources
- [ ] Verify NotebookLM processing and summaries
- [ ] Test search functionality
- [ ] Confirm all key topics covered despite any source reduction