import type { BrowserWindow, Extension } from 'electron'; import { markNPlusOneTargets, mergeTokens } from '../../token-merger'; import { JlptLevel, MergedToken, NPlusOneMatchMode, PartOfSpeech, SubtitleData, Token, FrequencyDictionaryLookup, } from '../../types'; import { shouldIgnoreJlptForMecabPos1, shouldIgnoreJlptByTerm } from './jlpt-token-filter'; import { createLogger } from '../../logger'; interface YomitanParseHeadword { term?: unknown; } interface YomitanParseSegment { text?: string; reading?: string; headwords?: unknown; } interface YomitanParseResultItem { source?: unknown; index?: unknown; content?: unknown; } type YomitanParseLine = YomitanParseSegment[]; const KATAKANA_TO_HIRAGANA_OFFSET = 0x60; const KATAKANA_CODEPOINT_START = 0x30a1; const KATAKANA_CODEPOINT_END = 0x30f6; const JLPT_LEVEL_LOOKUP_CACHE_LIMIT = 2048; const FREQUENCY_RANK_LOOKUP_CACHE_LIMIT = 2048; const logger = createLogger('main:tokenizer'); const jlptLevelLookupCaches = new WeakMap< (text: string) => JlptLevel | null, Map >(); const frequencyRankLookupCaches = new WeakMap< FrequencyDictionaryLookup, Map >(); function isObject(value: unknown): value is Record { return Boolean(value && typeof value === 'object'); } function isString(value: unknown): value is string { return typeof value === 'string'; } export interface TokenizerServiceDeps { getYomitanExt: () => Extension | null; getYomitanParserWindow: () => BrowserWindow | null; setYomitanParserWindow: (window: BrowserWindow | null) => void; getYomitanParserReadyPromise: () => Promise | null; setYomitanParserReadyPromise: (promise: Promise | null) => void; getYomitanParserInitPromise: () => Promise | null; setYomitanParserInitPromise: (promise: Promise | null) => void; isKnownWord: (text: string) => boolean; getKnownWordMatchMode: () => NPlusOneMatchMode; getJlptLevel: (text: string) => JlptLevel | null; getJlptEnabled?: () => boolean; getFrequencyDictionaryEnabled?: () => boolean; getFrequencyRank?: FrequencyDictionaryLookup; getMinSentenceWordsForNPlusOne?: () => number; getYomitanGroupDebugEnabled?: () => boolean; tokenizeWithMecab: (text: string) => Promise; } interface MecabTokenizerLike { tokenize: (text: string) => Promise; checkAvailability?: () => Promise; getStatus?: () => { available: boolean }; } export interface TokenizerDepsRuntimeOptions { getYomitanExt: () => Extension | null; getYomitanParserWindow: () => BrowserWindow | null; setYomitanParserWindow: (window: BrowserWindow | null) => void; getYomitanParserReadyPromise: () => Promise | null; setYomitanParserReadyPromise: (promise: Promise | null) => void; getYomitanParserInitPromise: () => Promise | null; setYomitanParserInitPromise: (promise: Promise | null) => void; isKnownWord: (text: string) => boolean; getKnownWordMatchMode: () => NPlusOneMatchMode; getJlptLevel: (text: string) => JlptLevel | null; getJlptEnabled?: () => boolean; getFrequencyDictionaryEnabled?: () => boolean; getFrequencyRank?: FrequencyDictionaryLookup; getMinSentenceWordsForNPlusOne?: () => number; getYomitanGroupDebugEnabled?: () => boolean; getMecabTokenizer: () => MecabTokenizerLike | null; } function getCachedJlptLevel( lookupText: string, getJlptLevel: (text: string) => JlptLevel | null, ): JlptLevel | null { const normalizedText = lookupText.trim(); if (!normalizedText) { return null; } let cache = jlptLevelLookupCaches.get(getJlptLevel); if (!cache) { cache = new Map(); jlptLevelLookupCaches.set(getJlptLevel, cache); } if (cache.has(normalizedText)) { return cache.get(normalizedText) ?? null; } let level: JlptLevel | null; try { level = getJlptLevel(normalizedText); } catch { level = null; } cache.set(normalizedText, level); while (cache.size > JLPT_LEVEL_LOOKUP_CACHE_LIMIT) { const firstKey = cache.keys().next().value; if (firstKey !== undefined) { cache.delete(firstKey); } } return level; } function normalizeFrequencyLookupText(rawText: string): string { return rawText.trim().toLowerCase(); } function getCachedFrequencyRank( lookupText: string, getFrequencyRank: FrequencyDictionaryLookup, ): number | null { const normalizedText = normalizeFrequencyLookupText(lookupText); if (!normalizedText) { return null; } let cache = frequencyRankLookupCaches.get(getFrequencyRank); if (!cache) { cache = new Map(); frequencyRankLookupCaches.set(getFrequencyRank, cache); } if (cache.has(normalizedText)) { return cache.get(normalizedText) ?? null; } let rank: number | null; try { rank = getFrequencyRank(normalizedText); } catch { rank = null; } if (rank !== null) { if (!Number.isFinite(rank) || rank <= 0) { rank = null; } } cache.set(normalizedText, rank); while (cache.size > FREQUENCY_RANK_LOOKUP_CACHE_LIMIT) { const firstKey = cache.keys().next().value; if (firstKey !== undefined) { cache.delete(firstKey); } } return rank; } export function createTokenizerDepsRuntime( options: TokenizerDepsRuntimeOptions, ): TokenizerServiceDeps { const checkedMecabTokenizers = new WeakSet