About 27,400,000 results
Open links in new tab
  1. 如何评价RoBERTa? - 知乎

    roberta 是bert 的一个完善版,相对于模型架构之类的都没有改变,改变的只是三个方面: 预训练数据: BERT采用了BOOKCORPUS 和英文维基百科, 总共16GB。 而 RoBERTa采用 …

  2. “追星”Transformer(七):RoBERTa——“鲁棒版BERT”

    RoBERTa认为BERT的符号化粒度还是过大,无法克服很多稀有词汇容易产生“OOV”的问题。 为了解决上述问题,RoBERTa借鉴了GPT-2.0的做法,使用力度更小的 字节级BPE (byte-level …

  3. [读论文] RoBERTa: 健壮优化的 BERT 预训练方法 - 知乎

    论文题目:RoBERTa: A Robustly Optimized BERT Pretraining Approach 作者单位:华盛顿大学保罗·艾伦计算机科学与工程学院,FaceBook AI 这篇文章是 BERT 系列模型和 XLNet 模型的 …

  4. BERT and RoBERTa 知识点整理有哪些? - 知乎

    Sep 15, 2021 · RoBERTa:每次给模型看这句话的时候,才 临时、随机地 选择一些词进行 Mask。 这意味着模型每次看到的同一句话,要填的“空”都可能不一样。 更大规模 更多的训练 …

  5. 请问 HuggingFace 的 roberta 的 pooler_output 是怎么来 ... - 知乎

    Jun 23, 2021 · roberta由于没有NSP任务也就是句子对分类任务,因此应该他们训练的时候是没有这部分权重的。 我查看了roberta官方权重,发现进行MLM训练时候是没有pooler output部分 …

  6. Roberta为什么不需要token_type_ids? - 知乎

    Feb 19, 2021 · Roberta为什么不需要token_type_ids? 在Bert和Albert预训练模型中,token_type_ids值为0或1来区分token属于第一句还是第二句,为什么Roberta里不需要呢?

  7. 如何评价ModelScope,较hugging face如何? - 知乎

    最近魔搭社区 ModelScope 在知乎挺火啊,前两天刚看到开了个讨论ModelScope怎么样,今天就又看到这个话题。作为深度试用过这个社区的用户,我先抛出个人的一个结论,ModelScope …

  8. 阿里开源 Qwen3 新模型 Embedding,该模型的框架设计有哪些优 …

    Jun 6, 2025 · 首先,这个系列的模型是以 Qwen3 做 backbone 的,比起 BGE 系列的 XLM-RoBERTa,算是彻底切换到了 LLM。 既然用大模型,就要有 prompt,也就带上了“指令跟随 …

  9. 大模型面试:八股文+题目整理 - 知乎

    在 Transformer 出现之前,序列建模主要依赖循环神经网络(RNN)及其改进版本 LSTM 和 GRU,它们通过递归结构逐步处理序列,适用于语言建模、机器翻译等任务,但在处理长距 …

  10. 2021年了,有哪些效果明显强于bert和roberta的预训练模型? - 知乎

    英文领域: deberta v3:微软开源的模型,在许多任务上超过了bert和roberta,现在kaggle中比较常用此模型打比赛,也侧面反映了deberta v3的效果是最好的。 ernie 2.0:这个百度是只开源 …