Вообще в принципе дело обстоит от сути вопроса для кого дело делается.
Например для самого себя имея дело с вордовскими документами, чтобы избавиться от тонн span-ов и всяких классов типа MS_Word, я тупо текст пропускаю через блокнот и потом нормально форматирую по параграфам , с сео нужными "h" тегами.
Но если речь идет о чужом сайте, не о своем, да и если заказщик еще заваливает кучей вордовских материалов, то лень и злость на все происходящее берут верх над щепитильностью, и просто копипастишь виз редактором. Плюс в том, что потом даже форматировать ничего не надо, а минусы мусора в коде в принципе заказщика не особо волнуют.
Но в любом случае на мой взгляд самый действенный метод пропустить все через блокнот. Но с таблицами конечно просто так не получится, их либо рисовать заново, либо по коду отфильтровывать, либо не замарачиваться и сунуть как есть.
Фактор самого контента роль играет, если это какието заточеные по запросам сео статьи, направленные на продвижение, то лучше конечно все грамотно сделать. Но если это просто на "почитать" людям, то и заморачиваться не стоит, от мусора в коде никто не пострадает, т.к. уж как не крути, но поисковики всетаки за это не банят.