소스 추출 · Education

모든 소스, 하나의 그래프.

스프레드시트·Word·PowerPoint·PDF(스캔은 비전 OCR)·이미지·URL·일반 텍스트를 손실 요약 없이 마크다운에 충실하게 담습니다. 거기서 트리플을 추출해 지식 그래프로 엮고, 원본은 첨부로 보존합니다. 부어 넣는 자료가 곧 당신의 두 번째 뇌가 됩니다.

부어 넣으면 일어나는 일

책과 자료에서 지식을 통째로 받아들여 그래프로 엮는 단계입니다.

01

소스를 모음

파일·URL·Notion을 한 번에 끌어다 놓으세요. 스프레드시트, 문서, 슬라이드, PDF, 이미지, 웹 페이지. 형식을 가리지 않고 한 마법사 안에서 받습니다.

02

무손실로 마크다운에 담기

각 소스를 기계적 분할로 마크다운 노트에 옮깁니다. 원본 파일은 attachments/에 그대로 두고 provenance 링크로 잇습니다. 무엇 하나 요약으로 날리지 않습니다.

03

트리플을 뽑아 그래프로

변환된 노트는 자동으로 추출 파이프라인에 들어갑니다. 어휘 → 추출 → 해소 → 토픽맵을 거쳐 트리플이 뽑힙니다. 부어 넣는 순간부터 당신의 두 번째 뇌가 자라기 시작합니다.

Ingest Wizard가 하는 일

충실한 변환이 원칙입니다. 요약하지 않고, 출처를 잃지 않습니다.

거의 모든 소스

xlsx·csv, docx, pptx, PDF, 이미지, URL, 일반 텍스트를 받습니다. 흩어진 자료를 하나의 그래프로 수렴시킵니다.

비전 OCR로 스캔까지

텍스트가 없는 스캔 PDF와 이미지는 비전 OCR로 읽어냅니다. 그림으로만 존재하던 문서도 그래프에 들어옵니다.

무손실, 요약 없음

LLM 요약이 아니라 기계적 분할만 합니다. 원문의 문장은 줄어들거나 바뀌지 않습니다. 들어온 그대로 남습니다.

원본 보존 + provenance

원본은 attachments/에 보관되고 노트에서 provenance 링크로 되짚을 수 있습니다. 출처는 언제든 확인 가능합니다.

병렬 인제스트

여러 소스를 동시에 처리합니다. 한 폴더를 통째로 부어도 변환은 병렬로 진행됩니다.

추출 파이프라인 자동 큐잉

인제스트된 노트는 곧바로 추출에 큐잉되고 faithful로 표시됩니다. 에이전트는 링크 외에는 읽기 전용으로 다룹니다.

흩어진 자료를 하나의 두 번째 뇌로

부어 넣으면 충실하게 마크다운에 담기고, 트리플이 추출되어 지식 그래프가 자랍니다. 에이전트는 그 위에서 추론합니다. 전부 로컬-퍼스트, BYOK입니다.