实测DeepSeek新模型“翻车”:能一次性处理百万字的《三体》,却回答不好洗车问题?