Mga Tala sa Engineering ng Naly: Retrieval-Augmented na Pagsulat ng Artikulo Gamit ang Nakaimbak na Mga Source

Abstrak

Binibigyan ng retrieval-augmented generation ang article pipeline ng Naly ng research memory na mas bago at mas naa-audit kaysa model weights lamang. Para sa bawat engineering note o market-intelligence article job, maaaring maghanap ang system sa web at arXiv, panatilihin ang source URLs kasama ng generated artifact, hilingin sa model na sumagot muna, at i-render ang resulta bilang HTML. Ang punto ay hindi automation para lang sa automation; ito ay paglalathala ng mga claim na masusundan ng mga mambabasa.

Simple ang tesis: ang RAG para sa pagsusulat ng artikulo ay dapat ituring bilang production evidence system, hindi bilang chatbot pattern. Maaaring patawarin ang chatbot sa mahinang sagot; ang nalathalang artikulo ay nagiging matibay na trust surface. Kaya kailangan ng implementasyon ng Naly ng tatlong invariant: retrieval bago drafting, source records na nananatili matapos ang publication, at renderer na nagpapanatili ng nababasang Markdown habang iniiwasan ang unsafe HTML.

Saan ito nakaposisyon sa Naly

Ang article jobs ng Naly ay nasa pagitan ng research acquisition at public publishing. Nagsisimula ang job sa napiling topic, bumubuo ng search intents, kumukuha ng web at arXiv material, ine-normalize ang mga resulta sa source records, at pagkatapos ay humihiling sa model na magsulat ng answer-first article mula sa limitadong evidence set na iyon. Hindi lang prosa ang output. Isa itong bundle: Markdown content, rendered HTML, source URLs, source titles, source kinds, at sapat na metadata upang ipaliwanag kung bakit ginamit ang bawat source.

Mahalaga ito sa trust loop ng Naly. Ang mas malawak na editorial posture ng Naly ay ilathala ang itinatago ng iba: decision memos, calibration limits, failures, at ang ebidensya sa likod ng mga claim. Ginagawang operational ng source-backed generation ang postura na iyon. Hindi dapat manghula ang mga mambabasa kung ang isang pahayag ay galing sa training data ng model, opisyal na dokumento, paper, o assertion ng operator.

Dapat mauna ang RAG layer bago ang drafting, hindi pagkatapos nito. Mas mahina ang post-hoc citation attachment dahil nakabuo na ang model ng mga claim. Sa mas matibay na disenyo, nililimitahan ng retrieval ang generation context, at gumagawa ang generation ng mga claim na maaaring suriin laban sa retrieved set. Maaaring manatiling maikli ang nakikitang artikulo, ngunit dapat panatilihin ng nakaimbak na artifact ang research trail.

Teknikal na mekanismo

Para sa pagsusulat ng artikulo, ang RAG flow ng Naly ay isang batch pipeline:

Lumilikha ang topic selection ng limitadong research question, tulad ng kung paano ginagawang grounded ng retrieval-augmented generation ang source-backed article writing.
Pinapalawak ng query planning ang tanong na iyon sa web queries, official-document queries, at arXiv queries.
Kinokolekta ng retrieval ang official documentation, primary papers, at high-signal explanatory sources.
Kinukuha ng normalization ang title, canonical URL, source kind, publication o update context kapag available, at mga kaugnay na snippet o abstract.
Iniimbak ng source persistence ang URL ledger bago ang generation upang ma-audit ang artikulo sa hinaharap.
Ibinibigay ng prompt assembly sa model ang topic, Naly-specific implementation facts, writing constraints, at retrieved evidence.
Gumagawa ang generation ng Markdown na may answer-first abstract, malinaw na failure modes, at references section.
Tinitiyak ng validation na ang bawat reference sa rendered article ay naka-map sa nakaimbak na source object.
Kino-convert ng rendering ang Markdown sa HTML para sa site habang inilalapat ang sanitization at production checks.

Malapit ito sa retrieval at augmented-generation pattern na inilalarawan sa RAG guide ng Vercel: kunin muna ang kaugnay na context, pagkatapos ay pagsamahin ito sa tanong ng user o job bago ang generation. Ang kaibahan ay hindi nag-o-optimize ang Naly para sa conversational support. Nag-o-optimize ito para sa matibay na publication, kung saan ang source URL ay bahagi ng data model ng artikulo.

Natural na orchestration layer ang AI SDK para sa ganitong uri ng job dahil sinusuportahan ng text-generation interface nito ang non-interactive automation, tool calls, multi-step results, at source metadata kapag nagbabalik ang providers ng URL sources. Kahit hindi magbalik ang provider ng native source objects, maaaring ilakip ng Naly ang sarili nitong retrieved-source list sa article artifact at ituring ang model-native sources bilang supplemental sa halip na authoritative.

Ano ang sinasabi ng literatura

Maayos na binalangkas ng orihinal na RAG formulation nina Lewis et al. ang pangunahing problema: nag-iimbak ang parametric language models ng facts sa weights, ngunit nananatiling mahirap i-update ang kaalamang iyon at magbigay ng provenance. Pinagsama ng kanilang retrieval-augmented model ang sequence model sa dense vector index at nakakita ng mas specific, diverse, at factual na generation kaysa parametric-only baseline sa knowledge-intensive tasks.

Pinalalawak ng mas bagong RAG survey nina Gao et al. ang ideyang iyon sa isang taxonomy: naive RAG, advanced RAG, at modular RAG. Dapat modular ang article pipeline ng Naly. Ang retrieval, ranking, source persistence, prompt construction, generation, reference validation, at rendering ay magkakahiwalay na unit na may magkakahiwalay na failure mode. Kapag itinuring silang magkakahiwalay na unit, mas madaling i-debug ang system kapag ang artikulo ay nag-cite ng mahinang source o nakaligtaan ang mas mabuti.

Nagdaragdag ang Self-RAG ng mahalagang pag-iingat. Ipinapangatuwiran nina Asai et al. na maaaring pababain ng pagkuha ng fixed number of passages, kailangan man o hindi ang retrieval, ang kalidad ng output. Para sa Naly, ibig sabihin nito ay hindi dapat maging ritwal ang top-k retrieval. Maaaring kailangan lang ng isang maikling artikulo tungkol sa stable framework feature ng official docs at isang paper; maaaring kailangan ng literature-heavy article ng maraming arXiv sources at isang survey. Dapat sumunod ang retrieval depth sa claim risk.

Ibinibigay ng RAGChecker ang aral sa evaluation. Ipinapangatuwiran nina Ru et al. na kailangan ng RAG systems ng fine-grained diagnostics sa parehong retrieval at generation, lalo na para sa long-form responses. Para sa Naly, hindi dapat article quality lang ang unit of evaluation. Dapat kasama rito ang retrieval recall, source relevance, claim support, reference coverage, at kung may unsupported claims na nakalusot sa final Markdown.

Mga trade-off sa disenyo

Ang mataas na recall laban sa mababang noise ang pangunahing trade-off. Pinapataas ng mas maraming retrieval ang tsansang mahanap ang tamang source, ngunit pinapataas din nito ang tsansang makapasok sa prompt ang mahihinang snippet at ilihis ang model. Dapat mas piliin ng Naly ang staged approach: broad collection, strict filtering, pagkatapos ay compact prompt context.

Pinapahusay ng source persistence ang auditability, ngunit lumilikha rin ito ng storage at maintenance work. Nagdi-drift ang URLs, nire-revise ang papers, at lumilipat ang documentation pages. Dapat kasama sa durable record ang canonical URL, fetched timestamp, title, source type, at ideally content digest o excerpt boundary. Dahil dito, maaaring pag-ibahin ng Naly ang model error mula sa nagbago na source.

Pinapahusay ng answer-first writing ang halaga para sa mambabasa, ngunit maaari nitong i-compress ang uncertainty nang sobra. Dapat magsimula ang artikulo sa konklusyon habang pinananatili ang susunod na section para sa failure modes at caveats. Ang answer-first summary ang entry point; hindi ito lisensya para patagin ang ebidensya.

Pinapahusay ng rendered HTML ang distribution at reading experience, ngunit lumilikha ito ng security boundary. Mabilis at kapaki-pakinabang ang Marked para sa Markdown parsing, ngunit malinaw na nagbababala ang documentation nito na hindi nito sina-sanitize ang output HTML. Dapat i-sanitize ng Naly article renderer ang generated HTML at panatilihing available ang trusted Markdown source para sa replay.

Mga failure mode

Retrieval miss: nakakahanap ang search step ng plausible ngunit hindi kumpletong sources. Karaniwan itong nangyayari kapag masyadong makitid ang query planner o gumagamit ito ng product terms na naiiba sa literature. Mitigation: gumamit ng maraming query style, isama ang official docs, at mag-require ng hindi bababa sa dalawang primary o arXiv sources kapag gumagawa ng research claims ang artikulo.

Citation laundering: lumilitaw ang isang source sa references, ngunit hindi nito aktuwal na sinusuportahan ang pangungusap na malapit dito. Mas masama ito kaysa walang citation dahil lumilikha ito ng maling kumpiyansa. Mitigation: i-validate ang claims laban sa source snippets at i-reject ang mga artikulong ang references ay topical lamang.

Stale source drift: nagbabago ang official documentation page matapos ang publication. Mitigation: panatilihin ang source metadata sa oras ng generation at i-record ang date label. Para sa sources na nagpapatakbo ng major claims, mag-imbak ng snapshot o digest kung pinapayagan ng licensing.

Over-retrieval: sobrang daming chunks ang nagpapasummarize sa model ng context sa halip na sagutin ang thesis ng artikulo. Mitigation: gumamit ng source ranking, i-deduplicate ang halos magkakaparehong documents, at limitahan ang prompt evidence ayon sa claim relevance sa halip na raw count.

Context poisoning: spam pages, generated SEO pages, o low-quality summaries ang nauuna sa primary material. Mitigation: i-rank ang official documentation, arXiv, standards, at source repositories sa itaas ng secondary commentary maliban kung tahasang tungkol sa industry reception ang artikulo.

Renderer risk: maaaring magsama ang generated Markdown ng raw HTML, unsafe links, o malformed tables. Mitigation: i-sanitize ang rendered HTML, i-normalize ang links, i-reject ang scriptable content, at magpatakbo ng production checks na consistent sa Next.js guidance sa performance, security, metadata, at accessibility.

Mga tala sa implementasyon

Batay sa kasalukuyang runtime facts ng Naly, ang malinis na architecture ay isang TypeScript job na gumagamit ng ai@6.0.0-beta.105 para sa model orchestration, web at arXiv retrieval tools para sa evidence collection, Drizzle ORM na may Neon para sa article at source records, marked@17.0.1 para sa Markdown-to-HTML rendering, at Next.js 16 para sa publishing surface.

Dapat ituring ng database ang sources bilang first-class rows, hindi bilang blob ng Markdown text. Ang praktikal na schema ay may article table, article-source join table, at source fields para sa URL, title, source kind, retrieved timestamp, canonical identifier gaya ng arXiv ID kapag available, at extraction status. Pagkatapos ay maaaring tumuro ang article record sa Markdown, rendered HTML, summary, key points, at publication metadata.

Kapaki-pakinabang ang Vercel Blob para sa mas malalaking artifacts o immutable render outputs, habang mas angkop pa rin ang Postgres bilang queryable ledger para sa sources at article metadata. Pinananatiling mura ng separation na iyon ang audit queries: ilista ang bawat artikulong gumamit ng source, bawat source na ginamit ng artikulo, at bawat artikulong nabigo ang source extraction.

Dapat i-require ng generator prompt ang source discipline sa hugis ng output: walang unsupported claims, walang invented URLs, at isang references section na ang links ay dapat tumugma sa persisted source list. Maaaring magsulat ang model ng maluwag na prosa, ngunit dapat ang job ang may-ari ng source truth. Kung maglabas ang model ng reference na hindi nakuha sa retrieval, dapat i-fail ng validator ang artikulo sa halip na tahimik itong i-publish.

Sa huli, mahalaga ang production behavior. Nagbibigay na ang Next.js ng server components, code splitting, prerendering, at caching defaults, ngunit kailangan pa rin ng generated content pipelines ng explicit error handling, security checks, metadata, at Core Web Vitals awareness. Tinutulungan ng RAG ang Naly na magsulat nang may ebidensya. Tinitiyak ng production engineering na mabilis, ligtas, at paulit-ulit na nakararating ang ebidensyang iyon sa mga mambabasa.