Форум » Брак. » ­Заметки по DSL исходникам (словари Lingvo) » Ответить

­Заметки по DSL исходникам (словари Lingvo)

Admin: es-es_mediclopedia_xn_an_2_0 строка 50295 http://imageban.ru/show/2013/04/02/d94c50532ec489d504fbada6d043ae97/png En_En_Environmental_Psychology строка 991. Сделать отступ и убрать дефис http://imageban.ru/show/2013/04/02/bd028ad6b0054a09894fa6d43535c9ee/png или все дефисы такого рода - их около 30 в файле. ­

Ответов - 14

Admin: Medical_Terms встречается код [EXT] вместо символов (81 раз) например 101523 http://imageban.ru/show/2013/04/02/16f654f6846690d9739113ae96c3895f/png

Admin: Es-Es ''Энциклопедия Britannica''. 2007_an_1_0 p.003 [L] \ {{p}} (link=Bayerische Motoren Werke AG) (/link) </FONT> (/FONT) (FONT face="lucida sans unicode") (FONT face=Tahoma) <FONT face=Tahoma> <FONT face="lucida sans unicode"> </FONT>

Admin: Fr-Fr ''Энциклопедия Ларусса''. из ПО Everest (ориг. ~1998-1999) p.003 [L] (r) (/r) (d) (/d) а также после обработки откорректировать цвет линии разделителя и убрать скобку после нее <font color=#6F7997>———————— </font>} на <font color=#FF8000>————————</font>


Admin: Es-Es ''Энциклопедический словарь VOX''. babylon.com_an_1_1_dsl p.003 [L] (link=) <<-emesia>> (/link) (alt) (/alt)

Admin: En-En ''Oxford Dictionary of Economics'', 2nd Edition. © Oxford University Press. 2002 p.001 [Lx3] _s0198607679.cobweb.2.jpg_/s

Admin: En-En ''Urban Dictionary''. www.urbandictionary.com (2012.03.11) p.003 [L] часто встречается ненужный обратный слэш \ в заголовках (всего 117.766 раз). при работе с html файлами их можно удалить. При переименовании в файловой системе переименовываются не все файлы - из-за дубликатов. Такие можно не трогать. Для разнообразия

Admin: En-En ''Britannica Book of the Year''. 2010. (без илл.) [L]. перед обработкой надо исправить содержимое тега [ref dic= (к классу проблем исходников это замечание не относится)

Admin: перепроверить внешние ссылки на Британнику ref dic= En-En ''Britannica Book of the Year''. 2009. (с илл.) p.003 [L] (к классу проблем исходников это замечание не относится)

Admin: символ %20 (встречается в испанской британнике Compacta - но можно еще поискать по готовым модулям twm)

Admin: Какие то машинные коды в словарях Климзо проскакивают (два словаря сравнивал - в обоих одна и таже проблема) http://forum.ru-board.com/topic.cgi?forum=93&topic=3420&start=3460#17

Admin: и еще хотел спросить - есть четыре языковые версии четырехязычного словаря "по упаковочным машинам и оборудованию". С тремя версиями в принципе все понятно, но вот что касается немецкой версии - она выходила только в тестовом варианте? у нее даже стиль несколько отличается "форматирования". Стоят заглавные буквы вместо трехбуквенного обозначения языка в нижнем регистре. AndroS Halifers немецкую версию использовать настоятельно не рекомендую - количество ошибок там зашкаливает все разумные границы... Кроме того, там неправильно расставлены заглавные буквы в словах, а в немецком это очень важно... http://forum.ru-board.com/topic.cgi?forum=93&topic=3420&start=3460#20

Admin: На скриншоте результат сканнирования 506 словарей на предмет мнемоник &nbsp; , &lt; , &gt; , &quot; (кодирующих символы: неразрывный пробел, < , > , " ) Последующая обработка словарей (тех же пакетов p.001-p.005 за исключением словарей Lingvo без илл. Lx3 и Lx5) одним из базовых фильтров выявила 1232 мнемоники в следующих файлах: nci_cancer_dict.html en-en_hallucinations_1_0.html Daojiao_Ch-Ch.html ecological#2_en-ru.html Большой психологический словарь [16].html En-En_Everest_Medical.html Medical_Terms.html els.html Tony.html Философская энциклопедия [16].html Sp_En_ A_Spanish_English_Dictionary_Granada University Spain.html Treccani-2011_we_1_04.html En-En_Britannica_Book_of_the_Year_623_miled.html ell-ell_domh_yz_2_0.html en-en_CE_we_1_02.html БСЭ (с испр. расш tiff-png).html Brockhaus_De-De.html En-En_Britannica_Encyclopedia_2010_1.563_miled.html en-en_Urban_Dictionary.20120311.html

Admin: нашел проблему в словаре "Российский энциклопедический словарь", - часть картинок формата PNG имеет расширение JPG - незнаю как в Лингво а в TheWord эти картинки после внедрения не открываются. Их видно если включить столбец описания в Directory Opus. Предположительно если попытаться конвертировать все картинки в папке в PNG с помощью штатного конвертера картинок Directory Opus то они не преобразуются и сохраняют свое расширение. Таким образом их можно отфильтровать от настоящих JPEGов. я таким образом определил что их 675 штук - 1мб. В основном таблицы, схемы, символы.

Admin: странные релинки в статьях католической энциклопедии в большом числе (круглые скобки с пробелом) пример: E:\Macro\_religion\0001\html\9000\Spain.html, 49 62246 совпадений заменено в 7686 файлах. En-En ''The Catholic Encyclopedia''. 1910. from newadvent.org. 2006 [L] как лечил :



полная версия страницы